Bibliographische Daten aus dem StaBiKat
Einleitung
Ihr Online-Katalog StaBiKat beinhaltet die Metadaten der gedruckten und elektronischen Bestände der Staatsbibliothek zu Berlin mit Erscheinungsjahr ab 1500 bis zur Gegenwart. Im StaBiKat Classic können etwa 14 Mio. Nachweise aktuell durchsucht werden.
StaBiKat-Daten (Ausschnitt) – https://zenodo.org/record/2590752
Sie möchten mit basalen bibliographischen Daten aus unserem Online-Katalog StaBiKat arbeiten? Nach Sprachfamilien organisierte Datensets können wir Ihnen bereits anbieten; ein Anfang ist also gemacht. Dabei handelt es sich um Datensätze bestehend aus Metadaten wie PPN (Katalogidentifier), Autor*in, Titel, Erscheinungsort und -land, Verlag, Erscheinungsjahr und natürlich der Sprachbezeichnung. Sie können folglich ohne Anspruch auf Vollständigkeit hinsichtlich der Gesamtmenge und einzelner Kataloginformationen Daten beziehen. Ebenso ist das Aktualisierungsdatum zu berücksichtigen. Sollten Sie aktuellere Datenstände benötigen, können Sie die dort angebotenen Skripte nutzen, um die Datensets neu zu erstellen.
Welche Informationen fehlen Ihnen hier?
• Datensätze ohne Sprachbezeichnung (etwas weniger als die Hälfte aller SBB-Datensätze),
• Signaturen und Standortinformationen (v.a. um mögliche Kriegsverluste zu erkennen),
• Vorhandensein von Digitalisaten und deren PURL,
• sachlich oder zeitlich eingegrenzte Datensets
Diese Daten stehen über den Gemeinsamen Bibliotheksverbund (GBV) zur Verfügung, an dem die Stiftung Preußischer Kulturbesitz seit 20 Jahren beteiligt ist.
Schnittstellen
Der StaBiKat Classic unterstützt direkt keine Schnittstellen für den Export größerer Datenmengen. Für gezielte Anfragen können jedoch sowohl SRU- als auch unAPI-Schnittstelle des GBV genutzt werden. Gegebenenfalls ist mit der Verbundzentrale des GBV Kontakt aufzunehmen.
SRU – http://sru.k10plus.de/opac-de-1
SRU, hier in der Version 1.1 ist ein HTTP-basiertes Protokoll für die maschinelle Abfrage von bibliographischen Daten. Über diese Schnittstelle können Sie die Daten etwa für Ihre Kataloge, Fachportale oder die Digitalisierung Ihrer Objekte nutzen.
Retrievalsprache ist die Contextual Query Language. Konkrete Abfragen mit überschaubaren Treffermengen können gezielt über die SRU-Schnittstelle des StaBiKat gestellt werden. Die Daten stehen dort in den Formaten Dublin Core (DC, v. 1.1) und Metadata Object Description Schema (MODS, v. 3.4) zur Verfügung.
Suchsyntax und Indices unter: http://sru.k10plus.de/opac-de-1
SRU Basisfunktionen
- Explain Beschreibung im XML-Standardformat, dies enthält Informationen über
- den Katalog
- Indizes und unterstützte Sortierparameter
- Datenformate
- Search/retrieve Für Suchanfragen an die Schnittstelle
- Verwendet CQL (Contextual Query Language) als Retrievalsprache
- Die Boolschen Operatoren werden unterstützt (and, or, not) (Vgl. Deutsche Nationalbibliothek o.J.d)
Abfragen
SRU-Abfragen werden mittels des http-Protokolls über den Browser übermittelt. Für die Anfrage ist die Basis-URL erforderlich, die dann durch Indizes ergänzt wird, welche mittels eines Gleichheitszeichens [=] verbunden werden.
Eine Liste aller Indizes, Suchattribute die für eine SRU-Abfrage des StabiKat Classic, sind zu finden unter https://sru.k10plus.de/opac-de-1?version=1.1&operation=explain
Hier einige Beispiele:
pica.xtit = Suche in den Titelstichwörter
pica.xslw = Suche in den Schlagwörtern
pica.xprs = Suche nach Person, Autor*in
pica.xver = Suche nach Verlagen
Wenn Sie nun im StabiKat Classic nach Titeln suchen wollen, in denen die Wörter Pupillen und Edict vorkommen und sich das im MODS-Format ausgeben lassen wollen setzt sich die Abfrage wie folgt zusammen.
http://sru.k10plus.de/opac-de-1 | SRU-Basis-URL |
?version=1.1 | Angabe der verwendeten SRU-Version |
&operation=searchRetrieve | Befehlt an den Server, dass es sich um eine Suchanfrage handelt |
&query= | Beginn der Anfrage, die formuliert wird |
pica.xtit=pupillen+edict | xtit ist der Indizes, damit das Server weiß, dass im Titelstichwort nach Pupillen und Edict gesucht werden soll |
maximumRecords=10 | Beschränken der Anfrage auf 10 Treffer |
recordSchema=mods | Gewünschtes Metadatenschema der SRU-Antwort |
Eine komplette Anfrage sieht dann wie folgt aus:
• Maximal 10 Titel im StaBiKat Classic, die die Wörter „Pupillen“ und „Edict“ enthalten, im MODS-Format
http://sru.k10plus.de/opac-de-1?version=1.1&operation=searchRetrieve&query=pica.xtit=pupillen+edict&maximumRecords=10&recordSchema=mods
• Suche nach der Person Konrad Adenauer im gesamten StaBiKat, Ausgabe Dublin Core, Anzeige von maximal 300 Titeln
http://sru.k10plus.de/opac-de-1?version=1.1&operation=searchRetrieve&query=pica.xprs=adenauer,konrad&maximumRecords=300&recordSchema=dc
SRU – K10-PLUS-Verbundkatalog
Die korrespondierenden Abfragen im Bereich des GVK-Verbundes lauten dann:
http://sru.k10plus.de/gvk7?version=1.1&operation=searchRetrieve&query=pica.tit=pupillen+edict&maximumRecords=50&recordSchema=mods
bzw.
http://sru.k10plus.de/gvk7?version=1.1&operation=searchRetrieve&query=pica.prs=adenauer,konrad&maximumRecords=300&recordSchema=dc
Bitte beachten Sie hier, dass die Indizes sich leicht verändert haben. Anstatt pica.xtit ist es nun pica.tit. Für die genaue Auflistung aller Indizes schauen Sie bitte unter folgendem Link nach: https://sru.k10plus.de/gvk7?version=1.1&operation=explain
unAPI
UnAPI bietet eine einfache webbasierte Methode, um einzelne Datensätze in verschiedenen Formaten abzurufen. Die unAPI-Schnittstelle erlaubt dabei keine Suchen über Datenbestände, sondern liefert ausschließlich einzelne, mit einem Identifikator referenzierte Datensätze aus. Jede Anfrage an die Schnittstelle muss insofern also einen eindeutigen Identifikator des jeweiligen Datensatzes sowie das gewünschte Metadatenformat (Vgl. https://wiki.k10plus.de/display/K10PLUS/UnAPI, 1. Abs.) beinhalten.
Möchten Sie einzelne über PPN bekannte Datensätze herunterladen, dann nutzen Sie die unAPI-Schnittstellen von StaBiKat und Verbundkatalog des GBV wie folgt:
StaBiKat Classic – http://unapi.k10plus.de/?id=opac-de-1
Beispielsyntax:
http://unapi.k10plus.de/?id=opac-de-1:ppn:##########&format=dc
Beispiel:
http://unapi.k10plus.de/?id=opac-de-1:ppn:1000127265&format=dc
Verbundkatalog unAPI – http://unapi.k10plus.de/
Beispielsyntax:
http://unapi.k10plus.de/?id=gvk:ppn:##########&format=mods
Beispiel:
http://unapi.k10plus.de/?id=gvk:ppn:178293199&format=mods
Fügen Sie an die Stelle ########## einfach die gewünschte PPN ein und wählen danach das Zielformat aus (beispielsweise „MODS“). Über den GBV besteht alternativ die Möglichkeit, Daten im Pica-, Dublin Core- und MARC-Format zu erhalten. Bitte beachten Sie, dass die unAPI-Schnittstelle des StaBiKat ausschließlich Ergebnisse in den Formaten Dublin Core und MODS liefert.
Lizenz- und Nutzungsbedingungen
Die SBB verfolgt eine Open Data Policy und stellt ihre Metadaten unter der Lizenz CC0 frei zur Verfügung. Die Nutzungsbedingungen für den Schnittstellen-Service bestimmt der GBV.
Beispiel-Datensatz: Metadaten des „Alten Realkatalogs“ (ARK) der Staatsbibliothek zu Berlin (SBB)
Der Datensatz umfasst deskriptive Metadaten zu 2.619.397 Titeln, die zusammen den „Alten Realkatalog“ der Staatsbibliothek zu Berlin bilden. Die Daten sind im Tabellenformat gespeichert und umfassen 375 Spalten. Sie wurden im Dezember 2023 aus dem deutschen Bibliotheksverbundsystem (CBS) heruntergeladen. Exemplarische Aufgaben, die mit diesem Datensatz bearbeitet werden können, sind Studien zur Buchgeschichte zwischen 1501 und 1955, zur paratextuellen Formatierung wissenschaftlicher Bücher zwischen 1800 und 1955 und zur Mustererkennung auf der Basis bibliographischer Metadaten.
Zenodo DOI: https://zenodo.org/doi/10.5281/zenodo.12783813
Lizenz: Creative Commons Namensnennung 4.0 International
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!