Datendumps

Datendumps

Bibliotheken wie die Staatsbibliothek zu Berlin (SBB) stellen in der Regel drei Arten von Daten zur Verfügung: Bilder (Scans von Büchern, Abbildungen, die im gescannten Material enthalten sind, oder andere), Texte (OCR aus digitalisierten Büchern oder Manuskripten) und Metadaten.

Hier werden beispielhaft Datensets aufgelistet, die für Nutzer:innen in unterschiedlichen Zusammenhängen von Interesse sein können. Grundsätzlich gilt immer die Eingangsseite der Digitalisierten Sammlungen als Ausgangspunkt.


Metadaten und Volltexte


Materialien:

Metadaten stellen eine wenig erforschte Ressource dar, was sehr zu bedauern ist: Diese Metadaten sind von hoher Qualität, da sie von geschulten Bibliothekaren, Archivaren oder anderen Fachleuten des kulturellen Erbes erstellt wurden. Die Veröffentlichung eines Datensatzes, der mehr als 200.000 Zeilen Metadaten umfasst, zielt daher darauf ab, eine wenig erforschte, qualitativ hochwertige Art von Daten in gebündelter Form nutzbar zu machen. Der hier vorgelegte Datensatz wurde aus den METS-Dateien erzeugt, die bei der Digitalisierung eines jeden Werks angelegt werden; sie wurden in ein Tabellenformat konvertiert.

Der Datensatz besteht aus einer einzigen csv-Tabelle (kommaseparierte Werte, UTF-8 kodiert), die Metadaten aller 206.411 Werke enthält, die am 23. Januar 2023 in den digitalisierten Sammlungen der Berliner Staatsbibliothek (SBB) verfügbar waren.

Umfang:

206.411 Metadatensätze (csv) als Datendump (ca. 216 MB).

Spezifika:

Der Datensatz enthält keine Annotationen, die über die in den METS-Quelldateien verfügbaren Informationen hinausgehen.

Der einzige Vorverarbeitungsschritt, der durchgeführt wurde, ist die Konvertierung der METS-Datensätze in das .csv-Format. Dies beinhaltet die von mods4pandas durchgeführten Bereinigungsprozesse, die sich aus der Umwandlung eines hierarchischen Formats (METS/MODS) in ein Tabellenformat ergeben.

Lizenzen:

Ansprechpartner:

Zenodo DOI:


Materialien:

Der Datensatz umfasst deskriptive Metadaten zu 2.619.397 Titeln, die zusammen den „Alten Realkatalog“ der Staatsbibliothek zu Berlin bilden. Die Daten sind im Tabellenformat gespeichert und umfassen 375 Spalten. Sie wurden im Dezember 2023 aus dem deutschen Bibliotheksverbundsystem (CBS) heruntergeladen. Exemplarische Aufgaben, die mit diesem Datensatz bearbeitet werden können, sind Studien zur Buchgeschichte zwischen 1500 und 1955, zur paratextuellen Formatierung wissenschaftlicher Bücher zwischen 1800 und 1955 und zur Mustererkennung auf der Basis bibliographischer Metadaten.

Umfang:

2.619.397 Metadatensätze im Format .parquet als Datendump (ca. 960 MB).

Spezifika:

Der Datensatz enthält keine Annotationen. Die Daten für die 2,6 Millionen Titel wurden aus dem im CBS verfügbaren Format in ein Tabellenformat konvertiert, wobei jedes im CBS verfügbare Feld eine Spalte bildet.

Lizenzen:

Ansprechpartner:

Zenodo DOI:


Materialien:

Die Absicht bei der Erstellung dieses umfassenden Datensatzes war es, Forschung auf der Grundlage von Volltexten zu erleichtern, die in der Staatsbibliothek zu Berlin (SBB) verfügbar sind. Diese Volltexte werden in der Regel über eine Implementierung optischer Zeichenerkennung (OCR) der Bücher in den digitalisierten Sammlungen der Staatsbibliothek erzeugt. Dort können die Volltexte auch manuell und einzeln, Werk für Werk, heruntergeladen werden. Die Veröffentlichung eines Satzes von etwa 5 Millionen OCR-Seiten erleichtert die Zugänglichkeit der Volltexte und macht ein distant reading eines goldenen Topfs voller Texte möglich.

Der Datensatz enthält sämtliche am 21. August 2019 in den digitalisierten Sammlungen der Staatsbibliothek zu Berlin verfügbaren Volltexte.

Umfang:

4.998.099 Seiten, die zu 28.909 einzelnen Werken gehören (identifizierbar über die Pica Production Number ppn) als Datendump (ca. 17 GB).

Spezifika:

Der Datensatz enthält keinerlei Annotationen.

Die folgenden Vorverarbeitungsschritte wurden durchgeführt:

– die Extraktion der OCR-Ergebnisse aus den ALTO.xml-Dateien, die durch die OCR-Pipeline erzeugt wurden

– der Abgleich der eindeutigen Identifikatoren (PPNs, Pica Production Number), die für einzelne digitalisierte Werke verwendet werden, mit den ALTO.xml-Dateinamen, die die Ausgabe jeder einzelnen verarbeiteten Seite enthalten

– die Bereitstellung von Metriken (Konfidenz, Entropie) bezüglich der Sprache(n), die auf jeder Seite zu finden sind

Lizenzen:

Ansprechpartner:

Zenodo DOI:

Stand: 17.03.2023