Retrokonversion von Katalogkarten mittels Vision Language Models

Im Rahmen der Digitalisierungsstrategie der Staatsbibliothek zu Berlin ist die Verarbeitung von knapp 200.000 maschinengeschriebenen Katalogkarten aus dem Bestand des Katalogs der Musikbücher und Noten II der Musikabteilung vorgesehen. Ein gemeinsam von Musikabteilung und dem Stabi Lab durchgeführtes Pilotprojekt dient der Entwicklung und Erprobung eines geeigneten Arbeitsablaufs unter Einsatz von modernen Vision Language Models (VLMs) sowie der Ermittlung der finanziellen und personellen Ressourcen, die für die Umsetzung des Gesamtvorhabens nötig sind.

Das zu entwickelnde System arbeitet dabei in zwei aufeinanderfolgenden Verarbeitungsphasen: Zunächst werden die Bilddateien durch optische Zeichenerkennung (OCR) in maschinenlesbaren Volltext überführt. Anschließend erfolgt eine automatisierte Strukturierung dieser Texte in standardisierte Datenformate, wobei die jeweilige Verarbeitungslogik die Überführung der einzelnen Katalogkarten in das Katalogsystem der Staatsbibliothek vorbereitet. Vor der finalen Einspielung werden die extrahierten Daten in einem vorletzten Schritt mit dem Programm OpenRefine überprüft, angereichert und bereinigt, um anschließend in das Katalogsystem eingespielt zu werden.

Der Workflow ist bei Bedarf unterbrechbar und fortsetzbar, da bereits verarbeitete Dateien beim Neustart automatisch übersprungen werden. Dies ermöglicht eine flexible, fehlertolerante Verarbeitung ohne Datenverlust oder Doppelarbeit. Von besonderer Bedeutung ist dabei die Möglichkeit, einen umfangreichen Bestand erstmals vollständig in strukturierter Form zugänglich zu machen. Die automatisierte Verarbeitung erlaubt es, Daten in einem Umfang zu erzeugen, der durch rein manuelle Erschließung gegenwärtig nicht realisierbar wäre, und gewährleistet zudem eine einheitliche Datenqualität und Formatkonsistenz.

Ein zentraler Bestandteil des Projekts ist auch die Evaluation der erzeugten Daten. Hierzu werden Stichproben der verarbeiteten Katalogkarten manuell überprüft und mit den automatisch erzeugten Datensätzen verglichen. Bewertet werden unter anderem:

die Erkennungsgenauigkeit (OCR-Qualität),
die korrekte Zuordnung von Metadatenfeldern,
die Konsistenz der Datenstruktur sowie
die Nutzbarkeit der Daten im Zielsystem.

Darüber hinaus werden typische Fehlerklassen identifiziert, um die Verarbeitungslogik iterativ zu verbessern. Die Evaluation dient somit nicht nur der Qualitätssicherung, sondern auch der kontinuierlichen Weiterentwicklung des Workflows.

Bei Fragen zum Projekt wenden Sie sich gerne an folgende Ansprechpersonen:

Dr. Andreas Janke (Referatsleitung „Forschungsdaten und Digital Humanities“ | Musikabteilung)
Dr. Roman Kuhn (Stabi Lab)
Dorian Grosch (Stabi Lab)

Retrokonversion von Katalogkarten mittels Vision Language Models

Soziale Netzwerke der Staatsbibliothek