Digitalisierte Sammlungen

Einleitung

Sie kennen vermutlich bereits unsere Digitalisierten Sammlungen, in denen wir aktuell (Stand: Mai 2019) rund 153.000 digitalisierte Objekte aus dem Bestand der SBB online präsentieren? Mit einer Vielzahl an Features (für aktuell in der Entwicklung befindliche Funktionen siehe auch die Beta-Version der Digitalisierten Sammlungen) hoffen wir, die Suche und das Stöbern in unseren Digitalisaten möglichst einfach und effizient zu gestalten.

Die SBB stellt formale und fachlich orientierte Sets zur Verfügung. Sie entsprechen den auf der Eingangsseite der Digitalisierten Sammlungen aufgelisteten Kollektionen. Die digitalisierten Objekte sind hierbei mindestens in einem formalen, zumeist auch zusätzlich in einem oder mehreren fachlichen Sets enthalten.

Welche Daten werden angeboten? Die Staatsbibliothek stellt neben Metadaten und Bilddateien für bestimmte Bestandsgruppen (v.a. Drucke des 19. und 20. Jahrhunderts) auch Volltexte zur Verfügung.

Jetzt wollen Sie aber gerne selbst Daten beziehen und verarbeiten oder in Ihrer Anwendung integrieren? Zu diesem Zweck stellen wir Ihnen verschiedene technische Möglichkeiten über Schnittstellen (APIs) bereit.

Schnittstellen

Aktuell verfügen die Digitalisierten Sammlungen über zwei Schnittstellen, OAI-PMH und IIIF.

1. OAI-PMH – https://digital.staatsbibliothek-berlin.de/oai (https://oai.sbb.berlin)

Die Abfrage von Metadaten für die Objekte in den Digitalisierten Sammlungen erfolgt über die Nutzung des Standards Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Es ist eine Fülle von Anwendungen in den verschiedensten Programmiersprachen für die Abfrage der OAI-PMH Schnittstelle frei im Web verfügbar.

Die Basis-URL der OAI-PMH Schnittstelle der Digitalisierten Sammlungen der SBB ist
https://digital.staatsbibliothek-berlin.de/oai (https://oai.sbb.berlin)

Mit den sechs Basisfunktionen, die OAI-PMH zur Verfügung stellt, können Abfragen wie die folgenden generiert werden:

Die SBB implementiert DublinCore (DC) für die allgemeinen bibliothekarischen Metadaten und METS als Container für alle Metadaten (auch solche, welche die Struktur des digitalen Objektes betreffen). Darin eingebettet sind die bibliographischen Metadaten zum Objekt im MODS-Format.

Durch die Kombination von OAI-PMH Funktionen und DC-Metadaten können genauere Anfragen formuliert werden, wie beispielsweise

Die Antwort enthält einen eindeutigen Bezeichner (id) für jedes digitale Objekt, die PPN, bspw. oai:digital.staatsbibliothek-berlin.de:PPN867445300. Mit dieser PPN können weitere Informationen über das digitale Objekt abgefragt werden
https://digital.staatsbibliothek-berlin.de/oai?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adigital.staatsbibliothek-berlin.de%3APPN867445300

Wenn in der Anfrage der Parameter metadataPrefix in mets geändert wird, werden die vollständigen METS Metadaten inklusive aller Referenzen zu in Beziehung stehenden Dateien (Bilder, OCR) zurück gegeben
https://digital.staatsbibliothek-berlin.de/oai?verb=GetRecord&metadataPrefix=mets&identifier=oai%3Adigital.staatsbibliothek-berlin.de%3APPN867445300

Die METS Datei enthält einen Bereich <fileSec>, die aus Kinderelementen des Typs <fileGrp> bestehen, in denen Referenzen zu den verschiedenen Dateien enthalten sind, die zu diesem digitalen Objekt gehören, meistens Bilder in den Formaten JPG oder PNG, bspw.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.png
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.tif

2. IIIF

Die Abfrage von Inhalten wie Bildern und Volltexten für die Digitalisierten Sammlungen ist über das International Image Interoperability Framework (IIIF) Protokoll verfügbar.

Aktuell können aus den Digitalisierten Sammlungen Bilder, Metadaten und Volltexte nach dem folgenden Schema abgefragt werden:
https://content.staatsbibliothek-berlin.de/dc/{PPN}-{Page}

Die PPN ist eine eindeutige Kennung für jeden Buchtitel und kann in den Digitalisierten Sammlungen gefunden werden.

Um gescannte Bilder für ein bestimmtes Objekt zu erhalten, müssen weitere Informationen in der URL spezifiziert werden, die dem IIIF-Standard entsprechen:
/full/{width in pixel},/0/default.jpg wobei width in pixel die Höhe automatisch anpasst, z.B.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/1200,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/800,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/250,/0/default.jpg

Der IIIF-Standard erlaubt weitere Bildmanipulationen über die URL. So kann, neben der Anpassung der Größe, ein Ausschnitt des Bildes gewählt und das Bild gedreht werden. Im folgenden Beispiel wird ein 300 x 300 Pixel großer Ausschnitt um 90° gedreht zurück geliefert.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/100,100,300,300/full/90/default.png

Es ist ebenso möglich, das original TIFF Bild zu erhalten, indem default.tif anstatt default.jpg in der URL verwendet wird:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.tif

Weitere Möglichkeiten der Manipulation der einzelnen Bilder können der IIIF Image API 2.1.1 entnommen werden, welche der Contentserver implementiert.

Zusätzlich kann der Contentserver weitere Daten über das Objekt ausliefern. Eine Übersicht der Funktionen kann der NGCS routes Dokumentation entnommen werden.
Nach Spezifikation in der IIIF Presentation API wird das IIIF Manifest des Objektes unter der folgenden URL ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300/manifest

Dieses Manifest kann in jeden IIIF Viewer geladen werden, bspw. in den Mirador Viewer, der von der SBB gehostet wird:
https://mirador.staatsbibliothek-berlin.de/?manifest=https://content.staatsbibliothek-berlin.de/dc/PPN897443810/manifest&manifest=https://content.staatsbibliothek-berlin.de/PPN876457189/manifest

Neben dem Manifest können die Metadaten auch im METS/MODS Format geladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.mets.xml

Volltexte

Zu ca. 26.000 Drucken hält die SBB derzeit Volltexte bereit. Ein Ausbau in Umfang und Qualität wird angestrebt. Durch Hinzufügen der Seitenzahl in der URL werden anstatt der METS Daten die OCR Dateien im ALTO Format seitenweise ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0009.ocr.xml für Seite 9,
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0010.ocr.xml für Seite 10 usw.

Die OCR-Daten können auch komplett als ZIP Datei herunterladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.ocr.zip

Lizenz- und Nutzungsbedingungen

Die SBB verfolgt eine Open Data Policy und ist darum bestrebt, sämtliche Digitalisate von vor 1920 erschienenen Werken als gemeinfrei unter einer Public Domain Mark 1.0 Lizenz zur Verfügung zu stellen. In Ausnahmefällen sowie für später als 1920 erschienene Werke finden teils abweichende Lizenzen Anwendung.

Die jeweils für ein Objekt gültige Lizenz können Sie in den Digitalisierten Sammlungen erkennen, wenn Sie sich die vollständigen bibliographischen Angaben zum Objekt anzeigen lassen.

und dort nach unten scrollen bis zum Punkt Lizenz / Rechteinfo

Selbstverständlich finden Sie diese Angaben auch in den Metadaten im METS-Format unter <mods:accessCondition>

Spezielle Datensets

Für den Ende August 2019 in der SBB stattgefundenen Hackathon Coding Gender : Women In Cultural Data wurden thematische Datensets bereitgestellt, die hier beschrieben und aufgeführt sind.

Ansprechpersonen

0 Kommentare

Dein Kommentar

An Diskussion beteiligen?
Hinterlasse uns Deinen Kommentar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.