Digitalisierte Sammlungen – Schnittstellen
Sie kennen vermutlich bereits unsere Digitalisierten Sammlungen, in denen wir aktuell (Stand: April 2024) rund 210.000 digitalisierte Objekte aus dem Bestand der SBB online präsentieren? Mit einer Vielzahl an Features (für aktuell in der Entwicklung befindliche Funktionen siehe auch die Beta-Version der Digitalisierten Sammlungen) hoffen wir, die Suche und das Stöbern in unseren Digitalisaten möglichst einfach und effizient zu gestalten.
Schnittstellen
Die SBB stellt formale und fachlich orientierte Sets zur Verfügung. Sie entsprechen den auf der Eingangsseite der Digitalisierten Sammlungen aufgelisteten Kollektionen. Die digitalisierten Objekte sind hierbei mindestens in einem formalen, zumeist auch zusätzlich in einem oder mehreren fachlichen Sets enthalten. Neben Metadaten und Links zu Bilddateien für bestimmte Bestandsgruppen finden Sie auch Volltexte (v.a. Drucke des 19. und 20. Jahrhunderts). Überwiegend handelt es sich um gemeinfreie Digitalisate; es gilt jedoch immer die Lizenzinformation in den zugehörigen Metadaten.
Darüber hinaus werden umfassende Datendumps aus den Digitalisierten Sammlungen auf Zenodo bereitgestellt.
OAI PMH – https://oai.sbb.berlin
Aktuell verfügen die Digitalisierten Sammlungen über eine OAI-PMH Schnittstelle, über die verschiedene Formate abgerufen werden können.
Jetzt wollen Sie aber gerne selbst Daten beziehen und verarbeiten oder in Ihrer Anwendung integrieren? Nachfolgend präsentieren wir Ihnen anhand von Beispielen, wie Sie die Schnittstelle effektiv nutzen können. Die Abfrage von Metadaten für die Objekte in den Digitalisierten Sammlungen erfolgt über die Nutzung des Standards Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Ein Tutorial zur Benutzung der Schnittstelle finden Sie hier.
Request
OAI-PMH-Anfragen (Requests) werden mittels des HTTP-Protokolls über den Browser übermittelt. Für eine Anfrage (Request) ist eine Basis-URL erforderlich, die durch Schlüsselwortargumente ergänzt wird. Zwischen der Basis-URL und den Schlüsselwortargumenten muss eine Trennung mittels eines Fragezeichens [?] erfolgen.
Die Basis-URL der Staatsbibliothek
Keyword Arguments (Schlüsselwortargumente)
Neben der Basis-URL setzen sich alle Anfragen aus einer Liste von Schlüsselwortargumenten zusammen, die in Form von Schlüssel-Wert-Paaren (key=value) vorliegen. Diese Argumente können in beliebiger Reihenfolge angeordnet werden, wobei mehrere Argumente durch [&] voneinander abgetrennt werden müssen. Es ist zu beachten, dass jede OAI-PMH-Anfrage mindestens ein Schlüssel-Wert-Paar enthalten muss.
Identify
Zeigt allgemeine Informationen zum Repository an, wie zum Beispiel
repositoryName: Ein menschenlesbarer Name für das Repository
baseURL: Die Basis-URL des Repositories
Beispiel: https://oai.sbb.berlin/?verb=Identify
ListSets
Zeigt Informationen zu allen im Repository zur Verfügung stehenden Datensets an.
Beispiel: https://oai.sbb.berlin/?verb=ListSets
ListMetadataFormats
Dient der Auflistung aller im Repository zur Verfügung stehenden Datenformate (oai_dc, mets). Weitere Informationen zum Datenformat Dublin Core (dc) finden sich unter: https://www.dublincore.org/specifications/dublin-core/dces und zum Datenformat METS unter: https://www.loc.gov/standards/mets/METSOverview.v2_de.html. Die Daten der Staatsbibliothek folgen dem METS-Anwendungsprofil für Digitalisierte Medien.
Beispiel: https://oai.sbb.berlin/?verb=ListMetadataFormats
GetRecord
Dient dem Abruf einzelner Datensätze, durch die Angabe der ID des gewünschten Datensatzes.
identifier: Identifikationsnummer des gewünschten Datensatzes
metadataPrefix: Bezeichnung des Datenformats, in dem der Datensatz geliefert werden soll, entweder oai_dc oder mets.
Sie haben ein Objekt in den digitalen Sammlungen gefunden, für das Sie die Metadaten abrufen möchten. Zum Beispiel finden Sie in den digitalisierten Sammlungen E.T.A. Hoffmanns Der goldene Topf. Unter dem Reiter Übersicht sind die vollständigen bibliografischen Angaben verfügbar. Dort finden Sie unter StabiKat (ppn digital) die Identifikationsnummer des Objekts. Diese können Sie dann in Ihre OAI-Anfrage wie folgt integrieren:
Beispiel: oai_dc Datenformat
Beispiel: mets Datenformat
Die METS Datei enthält einen Bereich <fileSec>, die aus Kinderelementen des Typs <fileGrp> bestehen, in denen Referenzen zu den verschiedenen Dateien enthalten sind, die zu diesem digitalen Objekt gehören, meistens Bilder in den Formaten JPG oder PNG, bspw.
https://content.staatsbibliothek-berlin.de/dc/PPN897654226-00000011/full/max/0/default.jpg
ListRecords
Dient dem Abrufen von Datensätze durch Angabe eines Zeitraums (von/bis) und/oder Datensets.
Parameter:
- from/until: Gewünschten Zeitraum angeben im Format (YYYY-MM-DD)
- set: Datenset aus dem die Datensätze stammen
- metadataPrefix: Hier können Sie entscheiden, ob Sie die Daten im oai_dc Format oder mets Format haben wollen.
- resumptionToken: Der resumptionToken erlaubt einen schrittweisen Abruf großer Datensatzmengen, wobei jeder Token eine begrenzte Anzahl von Datensätzen repräsentiert. Dieser Token ist ca. 30 Minuten gültig.
Dort werden die ersten 50 Datensätze angegeben, im Folgenden die nächsten 50:
IIIF
Die Abfrage von Inhalten wie Bildern und Volltexten für die Digitalisierten Sammlungen ist über das International Image Interoperability Framework (IIIF) Protokoll verfügbar.
Aktuell können aus den Digitalisierten Sammlungen Bilder, Metadaten und Volltexte nach dem folgenden Schema abgefragt werden:
https://content.staatsbibliothek-berlin.de/dc/{PPN}-{Page}
Die PPN
ist eine eindeutige Kennung für jeden Buchtitel und kann in den Digitalisierten Sammlungen gefunden werden.
Um gescannte Bilder für ein bestimmtes Objekt zu erhalten, müssen weitere Informationen in der URL spezifiziert werden, die dem IIIF-Standard entsprechen:
/full/{width in pixel},/0/default.jpg
wobei width in pixel
die Höhe automatisch anpasst, z.B.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/1200,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/800,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/250,/0/default.jpg
Der IIIF-Standard erlaubt weitere Bildmanipulationen über die URL. So kann, neben der Anpassung der Größe, ein Ausschnitt des Bildes gewählt und das Bild gedreht werden. Im folgenden Beispiel wird ein 300 x 300 Pixel großer Ausschnitt um 90° gedreht zurück geliefert.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/100,100,300,300/full/90/default.png
Es ist ebenso möglich, das original TIFF Bild zu erhalten, indem default.tif
anstatt default.jpg
in der URL verwendet wird:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.tif
Weitere Möglichkeiten der Manipulation der einzelnen Bilder können der IIIF Image API 2.1.1 entnommen werden, welche der Contentserver implementiert.
Zusätzlich kann der Contentserver weitere Daten über das Objekt ausliefern. Eine Übersicht der Funktionen kann der NGCS routes Dokumentation entnommen werden. Dazu gehört bspw. dynamisches Hightlighting auf den Bildern. Die gehighlighteten Bereiche werden genauso definiert wie Ausschnitte des Bildes. Als weiterer Parameter kann eine Farbe als Hex-Code angegeben werden: https://content.staatsbibliothek-berlin.de/dc/PPN646236717-00000011/full/1200,/0/default.jpg?highlight=55,100,120,100|1150,460,110,80&highlightColor=ff0000
Nach Spezifikation in der IIIF Presentation API wird das IIIF Manifest des Objektes unter der folgenden URL ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300/manifest
Dieses Manifest kann in jeden IIIF Viewer geladen werden, bspw. in den Mirador Viewer, der von der SBB gehostet wird:
https://mirador.staatsbibliothek-berlin.de/?manifest=https://content.staatsbibliothek-berlin.de/dc/PPN897443810/manifest&manifest=https://content.staatsbibliothek-berlin.de/PPN876457189/manifest
Neben dem Manifest können die Metadaten auch im METS/MODS Format geladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.mets.xml
Volltexte
Zu ca. 26.000 Drucken hält die SBB derzeit Volltexte bereit. Ein Ausbau in Umfang und Qualität wird angestrebt. Durch Hinzufügen der Seitenzahl in der URL werden anstatt der METS Daten die OCR Dateien im ALTO Format seitenweise ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0009.ocr.xml für Seite 9,
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0010.ocr.xml für Seite 10 usw.
Die OCR-Daten können auch komplett als ZIP Datei herunterladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.ocr.zip
Lizenz- und Nutzungsbedingungen
Die SBB verfolgt eine Open Data Policy und ist darum bestrebt, sämtliche Digitalisate von vor 1920 erschienenen Werken als gemeinfrei unter einer Public Domain Mark 1.0 Lizenz zur Verfügung zu stellen. In Ausnahmefällen sowie für später als 1920 erschienene Werke finden teils abweichende Lizenzen Anwendung.
Die jeweils für ein Objekt gültige Lizenz können Sie in den Digitalisierten Sammlungen erkennen, wenn Sie sich die vollständigen bibliographischen Angaben zum Objekt anzeigen lassen.
und dort nach unten scrollen bis zum Punkt Lizenz / Rechteinfo
Selbstverständlich finden Sie diese Angaben auch in den Metadaten im METS-Format unter <mods:accessCondition>
Spezielle Datensets
Für den Ende August 2019 in der SBB stattgefundenen Hackathon Coding Gender : Women In Cultural Data wurden thematische Datensets bereitgestellt, die hier beschrieben und aufgeführt sind.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!