CrossAsia Lab

Das CrossAsia Lab versammelt neue, digitale Services der Ostasienabteilung aus dem Kontext von CrossAsia und dem Fachinformationsdienst Asien (FID Asien). Darüber hinaus bietet es digitalen Projekten von Nutzer:innen eine Plattform, diese zu präsentieren. Das CrossAsia Team nimmt gerne weitere Ideen oder Vorschlägen für Datenbank- der Visualisierungs-Projekte und digitale Werkzeuge entgegen, die auf den Angeboten von CrossAsia und des FID Asien oder den Sammlungen der Abteilung entstanden sind.

Innovative Services und Werkzeuge der Ostasienabteilung

Das CrossAsia Lab enthält eine Reihe von Werkzeugen und Schnittstellen, die im Zusammenhang mit dem CrossAsia Portal und den Arbeiten in der Abteilung entstanden sind. So findet sich dort die Dokumentation einer XML-Schnittstelle mit der die CrossAsia Suche in andere Webseiten und Portale eingebunden werden kann, oder auch ein Werkzeug zur Erstellung von tibetischer, mongolischer und uighurischer Originalschrift auf Basis der Eingabe einer lateinischer Transliteration.

Die Basis, auf der weitere innovative Services und Werkzeuge der Ostasienabteilung entwickelt wurden, ist das CrossAsia Integrierte Textrepositorium (CrossAsia ITR) mit aktuell über 355.000 Titeln und 54,2 Millionen Seiten (Stand 4.2020). Im ITR werden Volltexte und Bilddaten aus vor allem lizenzpflichtigen Angeboten zusammen mit ihren Metadaten gesichert und für die Forschung bereitgehalten. Die Materialien des ITR decken dabei ein breites Spektrum an publizierten und archivalischen Materialien mit vorwiegend Ost-, aber auch Südost- und Zentralasienbezug ab, von Monographien über Zeitungen und Zeitschriften bis zu Dokumenten des Maritime Customs Service of China und den britischen Foreign Office Files zu China und Japan. Der Bereitschaft der Datenbankanbieter geschuldet, dem CrossAsia Standardvertrag uneingeschränkt zuzustimmen, sind die Materialien zu einem überwiegenden Teil auf Chinesisch oder Englisch, aber auch ca. 15.000 japanische Titel des frühen 19. Jahrhunderts sind mittlerweile enthalten (für einen Überblick siehe unter Ressourcen).

Die im CrossAsia Lab entwickelten Recherchemöglichkeiten und analytischen Zugänge zu den im ITR gehosteten Datenbankmaterialien des CrossAsia Portals steht auch Nutzer:innen jenseits der CrossAsia Community zur Verfügung. Neben der Aufbereitung einer Auswahl an Textkorpora als N-Gramme (CrossAsia N-Gramm Service) stehen über das CrossAsia Lab aktuell zwei sich ergänzende Werkzeuge bereit, die sowohl eine inhaltliche Orientierung als auch einige analytische Einblicke in den Bestand des CrossAsia ITR ermöglichen: die CrossAsia Volltextsuche und der CrossAsia ITR Explorer.

CrossAsia Volltextsuche

Die CrossAsia Volltextsuche gibt es aktuell in zwei Versionen mit jeweils eigener Suchstrategie, einer „geführten“ Suche (A) und einer „explorativen“ Suche (B). Die explorative Suche (B) sucht in Metadaten und Volltexten und ordnet die Treffer anhand der anteiligen Häufigkeit, mit der das gesuchte Wort (oder die Phrase) in dem jeweiligen Objekt (Metadaten eines Buchs oder Text einer Seite) gefunden wurde (Abb. 1b). Die geführte Suche (A) durchsucht nur den Volltext und ordnet Titel (Bücher, Zeitschriftenhefte oder einzelne Zeitungen) nach der Anzahl der Seiten, auf denen das gesuchte Wort (oder die Phrase) erscheint, ungeachtet wie oft (Abb. 1a). In Suche A werden alle Einzelseiten mit Treffern im Zusammenhang ihres Buchs oder Hefts angezeigt; in Suche B steht jede Seite für sich und wird danach gerankt, wie oft das Suchwort dort erscheint.

Beide Volltextsuchen erlauben ein „down-drilling“ der Ergebnisse mittels Filter. Icons (in rot für CrossAsia und Staatsbibliotheksnutzer:innen; in grau für Nutzer:innen anderer IP-gesteuerter Zugänge; in grün für frei zugängliche Titel) führen aus dem Treffer direkt zum digitalen Objekt in der Datenbank.

1a. Guided Fulltext Search (A)

1b. Explorative Fulltext Search (B)

CrossAsia ITR Explorer

Einen anderen, eher analytischen Blickwinkel auf die Materialien bietet der CrossAsia ITR Explorer. Er erlaubt Nutzer:innen zum einen komplexere Suchanfragen zu stellen und zum anderen die Ergebnisse als Schnittmengen-Diagramm oder als Anzahl der Titel über einem Zeitstrahl zu visualisieren. Anders als in der CrossAsia Volltextsuche, werden hier nicht Seiten, sondern ganze Buchtitel oder Zeitschriftenhefte als ein Objekt gewertet (allein für zwei chinesische Zeitungen und eine Sammlung englischer, ostasiatischer Zeitschriften des 19.Jh. ist die Granularität der Abfrage auf Artikelebene).

Der ITR Explorer bietet die Möglichkeit nach Wörtern oder Phrasen (mit und ohne CJK Mapping) im gesamten Fundus des ITR zu suchen, oder diese auf einen Korpus von bestimmten Quellen zu fokussieren. Jede Abfrage generiert ein Ergebnisset, das dann mit weiteren Ergebnissets mittels der Operatoren UND oder NICHT kombiniert werden kann und dann als neues Ergebnisset zur Verfügung steht. Abfragen, die auf der Basis unterschiedlicher Quellen erstellt werden, können mit ODER zusammengeführt werden. In einem nächsten Schritt können die Ergebnissets für eine Visualisierung als Schnittmengen-Diagramm (Abb. 2a) oder als Verlauf über die Zeit (Abb. 2b) ausgewählt werden. Durch Markieren eines Bereichs des Diagramms oder des Zeitstrahls in der Visualisierung, werden die jeweils relevanten Titel aufgelistet (Abb. 3) und können über einen Link direkt aufgerufen werden.

2a. Visualisierung von Ergebnissets als Schnittmengen-Diagramm

2b. Visualisierung von Ergebnissets als Mengen über Zeitstrahl

3. Liste der Titel im ausgewählten Treffersegment

Die Liste der Treffer kann anhand von Datum, Trefferset und Titel sortiert werden; der Link in der letzten Spalte ruft das Objekt im Kontext der Datenbank auf.