Titelbild / Frontispiece Stabi

Bibliographische Daten aus dem StaBiKat

Einleitung

Ihr Online-Katalog StaBiKat beinhaltet die Metadaten der gedruckten und elektronischen Bestände der Staatsbibliothek zu Berlin mit Erscheinungsjahr ab 1500 bis zur Gegenwart. Im StaBiKat Classic können etwa 14 Mio. Nachweise aktuell durchsucht werden.

StaBiKat-Daten (Ausschnitt) – https://zenodo.org/record/2590752

Sie möchten mit basalen bibliographischen Daten aus unserem Online-Katalog StaBiKat arbeiten? Nach Sprachfamilien organisierte Datensets können wir Ihnen bereits anbieten; ein Anfang ist also gemacht. Dabei handelt es sich um Datensätze bestehend aus Metadaten wie PPN (Katalogidentifier), Autor*in, Titel, Erscheinungsort und -land, Verlag, Erscheinungsjahr und natürlich der Sprachbezeichnung. Sie können folglich ohne Anspruch auf Vollständigkeit hinsichtlich der Gesamtmenge und einzelner Kataloginformationen Daten beziehen. Ebenso ist das Aktualisierungsdatum zu berücksichtigen. Sollten Sie aktuellere Datenstände benötigen, können Sie die dort angebotenen Skripte nutzen, um die Datensets neu zu erstellen.

Welche Informationen fehlen Ihnen hier?

• Datensätze ohne Sprachbezeichnung (etwas weniger als die Hälfte aller SBB-Datensätze),
• Signaturen und Standortinformationen (v.a. um mögliche Kriegsverluste zu erkennen),
• Vorhandensein von Digitalisaten und deren PURL,
• sachlich oder zeitlich eingegrenzte Datensets

Diese Daten stehen über den Gemeinsamen Bibliotheksverbund (GBV) zur Verfügung, an dem die Stiftung Preußischer Kulturbesitz seit 20 Jahren beteiligt ist.

Schnittstellen

Der StaBiKat Classic unterstützt direkt keine Schnittstellen für den Export größerer Datenmengen. Für gezielte Anfragen können jedoch sowohl SRU- als auch unAPI-Schnittstelle des GBV genutzt werden. Gegebenenfalls ist mit der Verbundzentrale des GBV Kontakt aufzunehmen.

SRU – http://sru.k10plus.de/opac-de-1

SRU, hier in der Version 1.1 ist ein HTTP-basiertes Protokoll für die maschinelle Abfrage von bibliographischen Daten. Über diese Schnittstelle können Sie die Daten etwa für Ihre Kataloge, Fachportale oder die Digitalisierung Ihrer Objekte nutzen.

Retrievalsprache ist die Contextual Query Language. Konkrete Abfragen mit überschaubaren Treffermengen können gezielt über die SRU-Schnittstelle des StaBiKat gestellt werden. Die Daten stehen dort in den Formaten Dublin Core (DC, v. 1.1) und Metadata Object Description Schema (MODS, v. 3.4) zur Verfügung.

Suchsyntax und Indices unter: http://sru.k10plus.de/opac-de-1

SRU Basisfunktionen
  • Explain Beschreibung im XML-Standardformat, dies enthält Informationen über
    • den Katalog
    • Indizes und unterstützte Sortierparameter
    • Datenformate
  • Search/retrieve Für Suchanfragen an die Schnittstelle
    • Verwendet CQL (Contextual Query Language) als Retrievalsprache
    • Die Boolschen Operatoren werden unterstützt (and, or, not) (Vgl. Deutsche Nationalbibliothek o.J.d)
Abfragen

SRU-Abfragen werden mittels des http-Protokolls über den Browser übermittelt. Für die Anfrage ist die Basis-URL erforderlich, die dann durch Indizes ergänzt wird, welche mittels eines Gleichheitszeichens [=] verbunden werden.

Eine Liste aller Indizes, Suchattribute die für eine SRU-Abfrage des StabiKat Classic, sind zu finden unter https://sru.k10plus.de/opac-de-1?version=1.1&operation=explain

Hier einige Beispiele:

pica.xtit = Suche in den Titelstichwörter

pica.xslw = Suche in den Schlagwörtern

pica.xprs = Suche nach Person, Autor*in

pica.xver = Suche nach Verlagen

Wenn Sie nun im StabiKat Classic nach Titeln suchen wollen, in denen die Wörter Pupillen und  Edict vorkommen und sich das im MODS-Format ausgeben lassen wollen setzt sich die Abfrage wie folgt zusammen.

http://sru.k10plus.de/opac-de-1 SRU-Basis-URL
?version=1.1 Angabe der verwendeten SRU-Version
&operation=searchRetrieve Befehlt an den Server, dass es sich um eine Suchanfrage handelt
&query= Beginn der Anfrage, die formuliert wird
pica.xtit=pupillen+edict xtit ist der Indizes, damit das Server weiß, dass im Titelstichwort nach Pupillen und Edict gesucht werden soll
maximumRecords=10 Beschränken der  Anfrage auf 10 Treffer
recordSchema=mods Gewünschtes Metadatenschema der SRU-Antwort

Eine komplette Anfrage sieht dann wie folgt aus:

• Maximal 10 Titel im StaBiKat Classic, die die Wörter „Pupillen“ und „Edict“ enthalten, im MODS-Format
http://sru.k10plus.de/opac-de-1?version=1.1&operation=searchRetrieve&query=pica.xtit=pupillen+edict&maximumRecords=10&recordSchema=mods
• Suche nach der Person Konrad Adenauer im gesamten StaBiKat, Ausgabe Dublin Core, Anzeige von maximal 300 Titeln
http://sru.k10plus.de/opac-de-1?version=1.1&operation=searchRetrieve&query=pica.xprs=adenauer,konrad&maximumRecords=300&recordSchema=dc

SRU – K10-PLUS-Verbundkatalog

Die korrespondierenden Abfragen im Bereich des GVK-Verbundes lauten dann:
http://sru.k10plus.de/gvk7?version=1.1&operation=searchRetrieve&query=pica.tit=pupillen+edict&maximumRecords=50&recordSchema=mods
bzw.
http://sru.k10plus.de/gvk7?version=1.1&operation=searchRetrieve&query=pica.prs=adenauer,konrad&maximumRecords=300&recordSchema=dc

Bitte beachten Sie hier, dass die Indizes sich leicht verändert haben. Anstatt pica.xtit ist es nun pica.tit. Für die genaue Auflistung aller Indizes schauen Sie bitte unter folgendem Link nach: https://sru.k10plus.de/gvk7?version=1.1&operation=explain

unAPI

UnAPI bietet eine einfache webbasierte Methode, um einzelne Datensätze in verschiedenen Formaten abzurufen. Die unAPI-Schnittstelle erlaubt dabei keine Suchen über Datenbestände, sondern liefert ausschließlich einzelne, mit einem Identifikator referenzierte Datensätze aus. Jede Anfrage an die Schnittstelle muss insofern also einen eindeutigen Identifikator des jeweiligen Datensatzes sowie das gewünschte Metadatenformat (Vgl. https://wiki.k10plus.de/display/K10PLUS/UnAPI, 1. Abs.) beinhalten.

Möchten Sie einzelne über PPN bekannte Datensätze herunterladen, dann nutzen Sie die unAPI-Schnittstellen von StaBiKat und Verbundkatalog des GBV wie folgt:

StaBiKat Classic – http://unapi.k10plus.de/?id=opac-de-1

Beispielsyntax:
http://unapi.k10plus.de/?id=opac-de-1:ppn:##########&format=dc

Beispiel:
http://unapi.k10plus.de/?id=opac-de-1:ppn:1000127265&format=dc

Verbundkatalog unAPI – http://unapi.k10plus.de/

Beispielsyntax:
http://unapi.k10plus.de/?id=gvk:ppn:##########&format=mods

Beispiel:
http://unapi.k10plus.de/?id=gvk:ppn:178293199&format=mods

Fügen Sie an die Stelle ########## einfach die gewünschte PPN ein und wählen danach das Zielformat aus (beispielsweise „MODS“). Über den GBV besteht alternativ die Möglichkeit, Daten im Pica-, Dublin Core- und MARC-Format zu erhalten. Bitte beachten Sie, dass die unAPI-Schnittstelle des StaBiKat ausschließlich Ergebnisse in den Formaten Dublin Core und MODS liefert.

Lizenz- und Nutzungsbedingungen

Die SBB verfolgt eine Open Data Policy und stellt ihre Metadaten unter der Lizenz CC0 frei zur Verfügung. Die Nutzungsbedingungen für den Schnittstellen-Service bestimmt der GBV.

Beispiel-Datensatz: Metadaten des „Alten Realkatalogs“ (ARK) der Staatsbibliothek zu Berlin (SBB)

Der Datensatz umfasst deskriptive Metadaten zu 2.619.397 Titeln, die zusammen den „Alten Realkatalog“ der Staatsbibliothek zu Berlin bilden. Die Daten sind im Tabellenformat gespeichert und umfassen 375 Spalten. Sie wurden im Dezember 2023 aus dem deutschen Bibliotheksverbundsystem (CBS) heruntergeladen. Exemplarische Aufgaben, die mit diesem Datensatz bearbeitet werden können, sind Studien zur Buchgeschichte zwischen 1501 und 1955, zur paratextuellen Formatierung wissenschaftlicher Bücher zwischen 1800 und 1955 und zur Mustererkennung auf der Basis bibliographischer Metadaten.

Zenodo DOI: https://zenodo.org/doi/10.5281/zenodo.12783813

Lizenz: Creative Commons Namensnennung 4.0 International

Ansprechpersonen

Felix Ostrowski

0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert