Digitalisierte Sammlungen – Schnittstellen

Sie kennen vermutlich bereits unsere Digitalisierten Sammlungen, in denen wir aktuell (Stand: April 2024) rund 210.000 digitalisierte Objekte aus dem Bestand der SBB online präsentieren? Mit einer Vielzahl an Features (für aktuell in der Entwicklung befindliche Funktionen siehe auch die Beta-Version der Digitalisierten Sammlungen) hoffen wir, die Suche und das Stöbern in unseren Digitalisaten möglichst einfach und effizient zu gestalten.

Schnittstellen

Die SBB stellt formale und fachlich orientierte Sets zur Verfügung. Sie entsprechen den auf der Eingangsseite der Digitalisierten Sammlungen aufgelisteten Kollektionen. Die digitalisierten Objekte sind hierbei mindestens in einem formalen, zumeist auch zusätzlich in einem oder mehreren fachlichen Sets enthalten. Neben Metadaten und Links zu Bilddateien für bestimmte Bestandsgruppen finden Sie auch Volltexte (v.a. Drucke des 19. und 20. Jahrhunderts). Überwiegend handelt es sich um gemeinfreie Digitalisate; es gilt jedoch immer die Lizenzinformation in den zugehörigen Metadaten.

Darüber hinaus werden umfassende Datendumps aus den Digitalisierten Sammlungen auf Zenodo bereitgestellt.

OAI PMH – https://oai.sbb.berlin

Aktuell verfügen die Digitalisierten Sammlungen über eine OAI-PMH Schnittstelle, über die verschiedene Formate abgerufen werden können.

Jetzt wollen Sie aber gerne selbst Daten beziehen und verarbeiten oder in Ihrer Anwendung integrieren? Nachfolgend präsentieren wir Ihnen anhand von Beispielen, wie Sie die Schnittstelle effektiv nutzen können. Die Abfrage von Metadaten für die Objekte in den Digitalisierten Sammlungen erfolgt über die Nutzung des Standards Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Ein Tutorial zur Benutzung der Schnittstelle finden Sie hier.

Request

OAI-PMH-Anfragen (Requests) werden mittels des HTTP-Protokolls über den Browser übermittelt. Für eine Anfrage (Request) ist eine Basis-URL erforderlich, die durch Schlüsselwortargumente ergänzt wird. Zwischen der Basis-URL und den Schlüsselwortargumenten muss eine Trennung mittels eines Fragezeichens [?] erfolgen.

Die Basis-URL der Staatsbibliothek

https://oai.sbb.berlin

Keyword Arguments (Schlüsselwortargumente)

Neben der Basis-URL setzen sich alle Anfragen aus einer Liste von Schlüsselwortargumenten zusammen, die in Form von Schlüssel-Wert-Paaren (key=value) vorliegen. Diese Argumente können in beliebiger Reihenfolge angeordnet werden, wobei mehrere Argumente durch [&] voneinander abgetrennt werden müssen. Es ist zu beachten, dass jede OAI-PMH-Anfrage mindestens ein Schlüssel-Wert-Paar enthalten muss.

Identify

Zeigt allgemeine Informationen zum Repository an, wie zum Beispiel
repositoryName: Ein menschenlesbarer Name für das Repository

baseURL: Die Basis-URL des Repositories

Beispiel: https://oai.sbb.berlin/?verb=Identify

ListSets

Zeigt Informationen zu allen im Repository zur Verfügung stehenden Datensets an.

Beispiel: https://oai.sbb.berlin/?verb=ListSets

ListMetadataFormats
Dient der Auflistung aller im Repository zur Verfügung stehenden Datenformate (oai_dc, mets). Weitere Informationen zum Datenformat Dublin Core (dc) finden sich unter: https://www.dublincore.org/specifications/dublin-core/dces und zum Datenformat METS unter: https://www.loc.gov/standards/mets/METSOverview.v2_de.html. Die Daten der Staatsbibliothek folgen dem METS-Anwendungsprofil für Digitalisierte Medien.

Beispiel: https://oai.sbb.berlin/?verb=ListMetadataFormats

GetRecord

Dient dem Abruf einzelner Datensätze, durch die Angabe der ID des gewünschten Datensatzes.

identifier: Identifikationsnummer des gewünschten Datensatzes

metadataPrefix: Bezeichnung des Datenformats, in dem der Datensatz geliefert werden soll, entweder oai_dc oder mets.

Sie haben ein Objekt in den digitalen Sammlungen gefunden, für das Sie die Metadaten abrufen möchten. Zum Beispiel finden Sie in den digitalisierten Sammlungen E.T.A. Hoffmanns Der goldene Topf. Unter dem Reiter Übersicht sind die vollständigen bibliografischen Angaben verfügbar. Dort finden Sie unter StabiKat (ppn digital) die Identifikationsnummer des Objekts. Diese können Sie dann in Ihre OAI-Anfrage wie folgt integrieren:
Beispiel: oai_dc Datenformat

https://oai.sbb.berlin/?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:digital.staatsbibliothek-berlin.de:PPN897654226

Beispiel: mets Datenformat

https://oai.sbb.berlin/?verb=GetRecord&metadataPrefix=mets&identifier=oai:digital.staatsbibliothek-berlin.de:PPN897654226

Die METS Datei enthält einen Bereich <fileSec>, die aus Kinderelementen des Typs <fileGrp> bestehen, in denen Referenzen zu den verschiedenen Dateien enthalten sind, die zu diesem digitalen Objekt gehören, meistens Bilder in den Formaten JPG oder PNG, bspw.

https://content.staatsbibliothek-berlin.de/dc/PPN897654226-00000011/full/max/0/default.jpg

ListRecords

Dient dem Abrufen von Datensätze durch Angabe eines Zeitraums (von/bis) und/oder Datensets.

Parameter:

  • from/until: Gewünschten Zeitraum angeben im Format (YYYY-MM-DD)
  • set: Datenset aus dem die Datensätze stammen
  • metadataPrefix: Hier können Sie entscheiden, ob Sie die Daten im oai_dc Format oder mets Format haben wollen.
  • resumptionToken: Der resumptionToken erlaubt einen schrittweisen Abruf großer Datensatzmengen, wobei jeder Token eine begrenzte Anzahl von Datensätzen repräsentiert. Dieser Token ist ca. 30 Minuten gültig.

Beispiel: https://oai.sbb.berlin/?verb=ListIdentifiers&metadataPrefix=oai_dc&set=illustrierte.liedflugschriften

Dort werden die ersten 50 Datensätze angegeben, im Folgenden die nächsten 50:

https://oai.sbb.berlin/?verb=ListIdentifiers&resumptionToken=metadataPrefix%3Doai_dc%26set%3Dillustrierte.liedflugschriften%26cursor%3D50%26batch_size%3D51

IIIF

Die Abfrage von Inhalten wie Bildern und Volltexten für die Digitalisierten Sammlungen ist über das International Image Interoperability Framework (IIIF) Protokoll verfügbar.

Aktuell können aus den Digitalisierten Sammlungen Bilder, Metadaten und Volltexte nach dem folgenden Schema abgefragt werden:
https://content.staatsbibliothek-berlin.de/dc/{PPN}-{Page}

Die PPN ist eine eindeutige Kennung für jeden Buchtitel und kann in den Digitalisierten Sammlungen gefunden werden.

Um gescannte Bilder für ein bestimmtes Objekt zu erhalten, müssen weitere Informationen in der URL spezifiziert werden, die dem IIIF-Standard entsprechen:
/full/{width in pixel},/0/default.jpg wobei width in pixel die Höhe automatisch anpasst, z.B.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/1200,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/800,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/250,/0/default.jpg

Der IIIF-Standard erlaubt weitere Bildmanipulationen über die URL. So kann, neben der Anpassung der Größe, ein Ausschnitt des Bildes gewählt und das Bild gedreht werden. Im folgenden Beispiel wird ein 300 x 300 Pixel großer Ausschnitt um 90° gedreht zurück geliefert.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/100,100,300,300/full/90/default.png

Es ist ebenso möglich, das original TIFF Bild zu erhalten, indem default.tif anstatt default.jpg in der URL verwendet wird:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.tif

Weitere Möglichkeiten der Manipulation der einzelnen Bilder können der IIIF Image API 2.1.1 entnommen werden, welche der Contentserver implementiert.

Zusätzlich kann der Contentserver weitere Daten über das Objekt ausliefern. Eine Übersicht der Funktionen kann der NGCS routes Dokumentation entnommen werden. Dazu gehört bspw. dynamisches Hightlighting auf den Bildern. Die gehighlighteten Bereiche werden genauso definiert wie Ausschnitte des Bildes. Als weiterer Parameter kann eine Farbe als Hex-Code angegeben werden: https://content.staatsbibliothek-berlin.de/dc/PPN646236717-00000011/full/1200,/0/default.jpg?highlight=55,100,120,100|1150,460,110,80&highlightColor=ff0000

Nach Spezifikation in der IIIF Presentation API wird das IIIF Manifest des Objektes unter der folgenden URL ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300/manifest

Dieses Manifest kann in jeden IIIF Viewer geladen werden, bspw. in den Mirador Viewer, der von der SBB gehostet wird:
https://mirador.staatsbibliothek-berlin.de/?manifest=https://content.staatsbibliothek-berlin.de/dc/PPN897443810/manifest&manifest=https://content.staatsbibliothek-berlin.de/PPN876457189/manifest

Neben dem Manifest können die Metadaten auch im METS/MODS Format geladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.mets.xml

Volltexte

Zu ca. 26.000 Drucken hält die SBB derzeit Volltexte bereit. Ein Ausbau in Umfang und Qualität wird angestrebt. Durch Hinzufügen der Seitenzahl in der URL werden anstatt der METS Daten die OCR Dateien im ALTO Format seitenweise ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0009.ocr.xml für Seite 9,
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0010.ocr.xml für Seite 10 usw.

Die OCR-Daten können auch komplett als ZIP Datei herunterladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.ocr.zip

Lizenz- und Nutzungsbedingungen

Die SBB verfolgt eine Open Data Policy und ist darum bestrebt, sämtliche Digitalisate von vor 1920 erschienenen Werken als gemeinfrei unter einer Public Domain Mark 1.0 Lizenz zur Verfügung zu stellen. In Ausnahmefällen sowie für später als 1920 erschienene Werke finden teils abweichende Lizenzen Anwendung.

Die jeweils für ein Objekt gültige Lizenz können Sie in den Digitalisierten Sammlungen erkennen, wenn Sie sich die vollständigen bibliographischen Angaben zum Objekt anzeigen lassen.

und dort nach unten scrollen bis zum Punkt Lizenz / Rechteinfo

Selbstverständlich finden Sie diese Angaben auch in den Metadaten im METS-Format unter <mods:accessCondition>

Spezielle Datensets

Für den Ende August 2019 in der SBB stattgefundenen Hackathon Coding Gender : Women In Cultural Data wurden thematische Datensets bereitgestellt, die hier beschrieben und aufgeführt sind.

Ansprechpersonen

0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert