Digitalisierte Sammlungen
Einleitung
Sie kennen vermutlich bereits unsere Digitalisierten Sammlungen, in denen wir aktuell (Stand: November 2020) rund 175.000 digitalisierte Objekte aus dem Bestand der SBB online präsentieren? Mit einer Vielzahl an Features (für aktuell in der Entwicklung befindliche Funktionen siehe auch die Beta-Version der Digitalisierten Sammlungen) hoffen wir, die Suche und das Stöbern in unseren Digitalisaten möglichst einfach und effizient zu gestalten.
Die SBB stellt formale und fachlich orientierte Sets zur Verfügung. Sie entsprechen den auf der Eingangsseite der Digitalisierten Sammlungen aufgelisteten Kollektionen. Die digitalisierten Objekte sind hierbei mindestens in einem formalen, zumeist auch zusätzlich in einem oder mehreren fachlichen Sets enthalten.
Welche Daten werden angeboten? Die Staatsbibliothek stellt neben Metadaten und Bilddateien für bestimmte Bestandsgruppen (v.a. Drucke des 19. und 20. Jahrhunderts) auch Volltexte zur Verfügung.
Jetzt wollen Sie aber gerne selbst Daten beziehen und verarbeiten oder in Ihrer Anwendung integrieren? Zu diesem Zweck stellen wir Ihnen verschiedene technische Möglichkeiten über Schnittstellen (APIs) bereit.
Schnittstellen
Aktuell verfügen die Digitalisierten Sammlungen über zwei Schnittstellen, OAI-PMH und IIIF.
1. OAI-PMH – https://oai.sbb.berlin
Die Abfrage von Metadaten für die Objekte in den Digitalisierten Sammlungen erfolgt über die Nutzung des Standards Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Es ist eine Fülle von Anwendungen in den verschiedensten Programmiersprachen für die Abfrage der OAI-PMH Schnittstelle frei im Web verfügbar.
Die Basis-URL der OAI-PMH Schnittstelle der Digitalisierten Sammlungen der SBB ist
https://oai.sbb.berlin
Mit den sechs Basisfunktionen, die OAI-PMH zur Verfügung stellt, können Abfragen wie die folgenden generiert werden:
- „Welche Metadatenformate werden von der API zur Verfügung gestellt?“
https://oai.sbb.berlin/?verb=ListMetadataFormats
- „Welche Digitalisierten Sets/Datenkollektionen gibt es?“
https://oai.sbb.berlin/?verb=ListSets
Die SBB implementiert DublinCore (DC) für die allgemeinen bibliothekarischen Metadaten und METS als Container für alle Metadaten (auch solche, welche die Struktur des digitalen Objektes betreffen). Darin eingebettet sind die bibliographischen Metadaten zum Objekt im MODS-Format.
Durch die Kombination von OAI-PMH Funktionen und DC-Metadaten können genauere Anfragen formuliert werden, wie beispielsweise
- „Welche digitalisierten Inkunabeln existieren?“
https://oai.sbb.berlin/?verb=ListIdentifiers&metadataPrefix=oai_dc&set=inkunabeln
Die Antwort enthält einen eindeutigen Bezeichner (id) für jedes digitale Objekt, die PPN
, bspw. oai:digital.staatsbibliothek-berlin.de:PPN867445300
. Mit dieser PPN
können weitere Informationen über das digitale Objekt abgefragt werden
https://oai.sbb.berlin/?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adigital.staatsbibliothek-berlin.de%3APPN867445300
Wenn in der Anfrage der Parameter metadataPrefix
in mets
geändert wird, werden die vollständigen METS Metadaten inklusive aller Referenzen zu in Beziehung stehenden Dateien (Bilder, OCR) zurück gegeben
https://oai.sbb.berlin/?verb=GetRecord&metadataPrefix=mets&identifier=oai%3Adigital.staatsbibliothek-berlin.de%3APPN867445300
Die METS Datei enthält einen Bereich <fileSec>
, die aus Kinderelementen des Typs <fileGrp>
bestehen, in denen Referenzen zu den verschiedenen Dateien enthalten sind, die zu diesem digitalen Objekt gehören, meistens Bilder in den Formaten JPG oder PNG, bspw.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.png
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.tif
Sämtliche METS-Dateien können über die OAI-PMH mit folgender Abfrage abgerufen werden:
https://oai.sbb.berlin/?verb=ListIdentifiers&metadataPrefix=mets&set=all
Am Fuß der ersten Seite findet man dann ein resumptionToken, in dessen Textknoten das Token für die zweite Seite steht; das gibt man dann beim Folgerequest an und erhält die zweite Seite, d.h.
https://oai.sbb.berlin/?verb=ListRecords&resumptionToken=metadataPrefix%3Dmets%26set%3Dall%26cursor%3D10%26batch_size%3D11
danach folgt
https://oai.sbb.berlin/?verb=ListRecords&resumptionToken=metadataPrefix%3Dmets%26set%3Dall%26batch_size%3D11%26cursor%3D20
und so weiter.
2. IIIF
Die Abfrage von Inhalten wie Bildern und Volltexten für die Digitalisierten Sammlungen ist über das International Image Interoperability Framework (IIIF) Protokoll verfügbar.
Aktuell können aus den Digitalisierten Sammlungen Bilder, Metadaten und Volltexte nach dem folgenden Schema abgefragt werden:
https://content.staatsbibliothek-berlin.de/dc/{PPN}-{Page}
Die PPN
ist eine eindeutige Kennung für jeden Buchtitel und kann in den Digitalisierten Sammlungen gefunden werden.
Um gescannte Bilder für ein bestimmtes Objekt zu erhalten, müssen weitere Informationen in der URL spezifiziert werden, die dem IIIF-Standard entsprechen:
/full/{width in pixel},/0/default.jpg
wobei width in pixel
die Höhe automatisch anpasst, z.B.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/1200,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/800,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/250,/0/default.jpg
Der IIIF-Standard erlaubt weitere Bildmanipulationen über die URL. So kann, neben der Anpassung der Größe, ein Ausschnitt des Bildes gewählt und das Bild gedreht werden. Im folgenden Beispiel wird ein 300 x 300 Pixel großer Ausschnitt um 90° gedreht zurück geliefert.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/100,100,300,300/full/90/default.png
Es ist ebenso möglich, das original TIFF Bild zu erhalten, indem default.tif
anstatt default.jpg
in der URL verwendet wird:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.tif
Weitere Möglichkeiten der Manipulation der einzelnen Bilder können der IIIF Image API 2.1.1 entnommen werden, welche der Contentserver implementiert.
Zusätzlich kann der Contentserver weitere Daten über das Objekt ausliefern. Eine Übersicht der Funktionen kann der NGCS routes Dokumentation entnommen werden. Dazu gehört bspw. dynamisches Hightlighting auf den Bildern. Die gehighlighteten Bereiche werden genauso definiert wie Ausschnitte des Bildes. Als weiterer Parameter kann eine Farbe als Hex-Code angegeben werden: https://content.staatsbibliothek-berlin.de/dc/PPN646236717-00000011/full/1200,/0/default.jpg?highlight=55,100,120,100|1150,460,110,80&highlightColor=ff0000
Nach Spezifikation in der IIIF Presentation API wird das IIIF Manifest des Objektes unter der folgenden URL ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300/manifest
Dieses Manifest kann in jeden IIIF Viewer geladen werden, bspw. in den Mirador Viewer, der von der SBB gehostet wird:
https://mirador.staatsbibliothek-berlin.de/?manifest=https://content.staatsbibliothek-berlin.de/dc/PPN897443810/manifest&manifest=https://content.staatsbibliothek-berlin.de/PPN876457189/manifest
Neben dem Manifest können die Metadaten auch im METS/MODS Format geladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.mets.xml
Volltexte
Zu ca. 26.000 Drucken hält die SBB derzeit Volltexte bereit. Ein Ausbau in Umfang und Qualität wird angestrebt. Durch Hinzufügen der Seitenzahl in der URL werden anstatt der METS Daten die OCR Dateien im ALTO Format seitenweise ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0009.ocr.xml für Seite 9,
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0010.ocr.xml für Seite 10 usw.
Die OCR-Daten können auch komplett als ZIP Datei herunterladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.ocr.zip
Lizenz- und Nutzungsbedingungen
Die SBB verfolgt eine Open Data Policy und ist darum bestrebt, sämtliche Digitalisate von vor 1920 erschienenen Werken als gemeinfrei unter einer Public Domain Mark 1.0 Lizenz zur Verfügung zu stellen. In Ausnahmefällen sowie für später als 1920 erschienene Werke finden teils abweichende Lizenzen Anwendung.
Die jeweils für ein Objekt gültige Lizenz können Sie in den Digitalisierten Sammlungen erkennen, wenn Sie sich die vollständigen bibliographischen Angaben zum Objekt anzeigen lassen.
und dort nach unten scrollen bis zum Punkt Lizenz / Rechteinfo
Selbstverständlich finden Sie diese Angaben auch in den Metadaten im METS-Format unter <mods:accessCondition>
Spezielle Datensets
Für den Ende August 2019 in der SBB stattgefundenen Hackathon Coding Gender : Women In Cultural Data wurden thematische Datensets bereitgestellt, die hier beschrieben und aufgeführt sind.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!