Beiträge

Digitalisierte Sammlungen

Einleitung

Sie kennen vermutlich bereits unsere Digitalisierten Sammlungen, in denen wir aktuell (Stand: Mai 2019) rund 153.000 digitalisierte Objekte aus dem Bestand der SBB online präsentieren? Mit einer Vielzahl an Features (für aktuell in der Entwicklung befindliche Funktionen siehe auch die Beta-Version der Digitalisierten Sammlungen) hoffen wir, die Suche und das Stöbern in unseren Digitalisaten möglichst einfach und effizient zu gestalten.

Die SBB stellt formale und fachlich orientierte Sets zur Verfügung. Sie entsprechen den auf der Eingangsseite der Digitalisierten Sammlungen aufgelisteten Kollektionen. Die digitalisierten Objekte sind hierbei mindestens in einem formalen, zumeist auch zusätzlich in einem oder mehreren fachlichen Sets enthalten.

Welche Daten werden angeboten? Die Staatsbibliothek stellt neben Metadaten und Bilddateien für bestimmte Bestandsgruppen (v.a. Drucke des 19. und 20. Jahrhunderts) auch Volltexte zur Verfügung.

Jetzt wollen Sie aber gerne selbst Daten beziehen und verarbeiten oder in Ihrer Anwendung integrieren? Zu diesem Zweck stellen wir Ihnen verschiedene technische Möglichkeiten über Schnittstellen (APIs) bereit.

Schnittstellen

Aktuell verfügen die Digitalisierten Sammlungen über zwei Schnittstellen, OAI-PMH und IIIF.

1. OAI-PMH – https://oai.sbb.berlin

Die Abfrage von Metadaten für die Objekte in den Digitalisierten Sammlungen erfolgt über die Nutzung des Standards Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Es ist eine Fülle von Anwendungen in den verschiedensten Programmiersprachen für die Abfrage der OAI-PMH Schnittstelle frei im Web verfügbar.

Die Basis-URL der OAI-PMH Schnittstelle der Digitalisierten Sammlungen der SBB ist
https://oai.sbb.berlin

Mit den sechs Basisfunktionen, die OAI-PMH zur Verfügung stellt, können Abfragen wie die folgenden generiert werden:

Die SBB implementiert DublinCore (DC) für die allgemeinen bibliothekarischen Metadaten und METS als Container für alle Metadaten (auch solche, welche die Struktur des digitalen Objektes betreffen). Darin eingebettet sind die bibliographischen Metadaten zum Objekt im MODS-Format.

Durch die Kombination von OAI-PMH Funktionen und DC-Metadaten können genauere Anfragen formuliert werden, wie beispielsweise

Die Antwort enthält einen eindeutigen Bezeichner (id) für jedes digitale Objekt, die PPN, bspw. oai:digital.staatsbibliothek-berlin.de:PPN867445300. Mit dieser PPN können weitere Informationen über das digitale Objekt abgefragt werden
https://oai.sbb.berlin/?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adigital.staatsbibliothek-berlin.de%3APPN867445300

Wenn in der Anfrage der Parameter metadataPrefix in mets geändert wird, werden die vollständigen METS Metadaten inklusive aller Referenzen zu in Beziehung stehenden Dateien (Bilder, OCR) zurück gegeben
https://oai.sbb.berlin/?verb=GetRecord&metadataPrefix=mets&identifier=oai%3Adigital.staatsbibliothek-berlin.de%3APPN867445300

Die METS Datei enthält einen Bereich <fileSec>, die aus Kinderelementen des Typs <fileGrp> bestehen, in denen Referenzen zu den verschiedenen Dateien enthalten sind, die zu diesem digitalen Objekt gehören, meistens Bilder in den Formaten JPG oder PNG, bspw.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.png
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.tif

2. IIIF

Die Abfrage von Inhalten wie Bildern und Volltexten für die Digitalisierten Sammlungen ist über das International Image Interoperability Framework (IIIF) Protokoll verfügbar.

Aktuell können aus den Digitalisierten Sammlungen Bilder, Metadaten und Volltexte nach dem folgenden Schema abgefragt werden:
https://content.staatsbibliothek-berlin.de/dc/{PPN}-{Page}

Die PPN ist eine eindeutige Kennung für jeden Buchtitel und kann in den Digitalisierten Sammlungen gefunden werden.

Um gescannte Bilder für ein bestimmtes Objekt zu erhalten, müssen weitere Informationen in der URL spezifiziert werden, die dem IIIF-Standard entsprechen:
/full/{width in pixel},/0/default.jpg wobei width in pixel die Höhe automatisch anpasst, z.B.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/1200,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/800,/0/default.jpg
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/250,/0/default.jpg

Der IIIF-Standard erlaubt weitere Bildmanipulationen über die URL. So kann, neben der Anpassung der Größe, ein Ausschnitt des Bildes gewählt und das Bild gedreht werden. Im folgenden Beispiel wird ein 300 x 300 Pixel großer Ausschnitt um 90° gedreht zurück geliefert.
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/100,100,300,300/full/90/default.png

Es ist ebenso möglich, das original TIFF Bild zu erhalten, indem default.tif anstatt default.jpg in der URL verwendet wird:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-00000001/full/full/0/default.tif

Weitere Möglichkeiten der Manipulation der einzelnen Bilder können der IIIF Image API 2.1.1 entnommen werden, welche der Contentserver implementiert.

Zusätzlich kann der Contentserver weitere Daten über das Objekt ausliefern. Eine Übersicht der Funktionen kann der NGCS routes Dokumentation entnommen werden.
Nach Spezifikation in der IIIF Presentation API wird das IIIF Manifest des Objektes unter der folgenden URL ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300/manifest

Dieses Manifest kann in jeden IIIF Viewer geladen werden, bspw. in den Mirador Viewer, der von der SBB gehostet wird:
https://mirador.staatsbibliothek-berlin.de/?manifest=https://content.staatsbibliothek-berlin.de/dc/PPN897443810/manifest&manifest=https://content.staatsbibliothek-berlin.de/PPN876457189/manifest

Neben dem Manifest können die Metadaten auch im METS/MODS Format geladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.mets.xml

Volltexte

Zu ca. 26.000 Drucken hält die SBB derzeit Volltexte bereit. Ein Ausbau in Umfang und Qualität wird angestrebt. Durch Hinzufügen der Seitenzahl in der URL werden anstatt der METS Daten die OCR Dateien im ALTO Format seitenweise ausgeliefert:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0009.ocr.xml für Seite 9,
https://content.staatsbibliothek-berlin.de/dc/PPN867445300-0010.ocr.xml für Seite 10 usw.

Die OCR-Daten können auch komplett als ZIP Datei herunterladen werden:
https://content.staatsbibliothek-berlin.de/dc/PPN867445300.ocr.zip

Lizenz- und Nutzungsbedingungen

Die SBB verfolgt eine Open Data Policy und ist darum bestrebt, sämtliche Digitalisate von vor 1920 erschienenen Werken als gemeinfrei unter einer Public Domain Mark 1.0 Lizenz zur Verfügung zu stellen. In Ausnahmefällen sowie für später als 1920 erschienene Werke finden teils abweichende Lizenzen Anwendung.

Die jeweils für ein Objekt gültige Lizenz können Sie in den Digitalisierten Sammlungen erkennen, wenn Sie sich die vollständigen bibliographischen Angaben zum Objekt anzeigen lassen.

und dort nach unten scrollen bis zum Punkt Lizenz / Rechteinfo

Selbstverständlich finden Sie diese Angaben auch in den Metadaten im METS-Format unter <mods:accessCondition>

Spezielle Datensets

Für den Ende August 2019 in der SBB stattgefundenen Hackathon Coding Gender : Women In Cultural Data wurden thematische Datensets bereitgestellt, die hier beschrieben und aufgeführt sind.

Ansprechpersonen

ZEFYS

Einleitung

Das ZEitungsinFormationssYStem ZEFYS bietet Zugang zu digitalisierten historischen Zeitungen der Staatsbibliothek zu Berlin.

ZEFYS weist derzeit insgesamt 276.015 Ausgaben von 193 historischen Zeitungen aus Deutschland und deutschen Zeitungen des Auslands nach. Angeboten werden Images der Zeitungsseiten sowie Metadaten der Zeitungsausgaben. Für einzelne Zeitungen können zusätzlich Volltexte benutzt werden. Das Angebot wird ausgebaut. Folgende umfangreichere Zeitungsverläufe stehen neben vielen Einzelausgaben oder -jahrgängen verschiedener Zeitungen zur Verfügung:

1. Berliner Tageblatt (ZDB-ID: 341834-0)
Digitalisiert: 1878-1928 (ZDB-ID: 2764651-8)
Bearbeitete Beilagen: Der Montag; Wochen-/Monatsausgabe; Technische Rundschau

2. Berliner Börsenzeitung (ZDB-ID: 1114705-2)
Digitalisiert: 1857; 1872-1930 (ZDB-ID: 2436020-X)

3. Volks-Zeitung : Organ für Jedermann aus dem Volke (ZDB-ID: 532361-7)
Digitalisiert: 1856-1858; 1890-1904 (ZDB-ID: 2797453-4)

4. Berliner Volkszeitung (=Nachfolger der Volks-Zeitung) (ZDB-ID: 749588-2)
Digitalisiert: 1904-1930 (ZDB-ID: 2797174-0)

5. Norddeutsche Allgemeine Zeitung (ZDB-ID: 125912-X)
Digitalisiert: 1878-1918 (ZDB-ID: 2802868-5)

6. Deutsche Allgemeine Zeitung (=Nachfolger der Norddeutschen Allgemeinen Zeitung) (ZDB-ID: 1064181-6)
Digitalisiert: 1918/19-1922 (ZDB-ID: 2807323-X)

7. Deutsche allgemeine Zeitung : DAZ. Ausgabe Groß-Berlin (Nachfolger der Deutschen Allgemeinen Zeitung) (ZDB-ID: 788922-7)
Digitalisiert: 1922-1930 (ZDB-ID: 2811315-9)

Schnittstellen

IIIF

Die Abfrage von Inhalten wie Bildern und Volltexten für die Digitalisierten Zeitungen (ZEFYS) ist über das International Image Interoperability Framework (IIIF) Protokoll verfügbar.

Aktuell können aus den Digitalisierten Zeitungen Bilder und Metadaten nach dem folgenden Schema abgefragt werden:
https://content.staatsbibliothek-berlin.de/zefys/SNP{ZDB-ID}-{YYYYMMDD}-{Issue}-{Page}-{Article}-{Version}

Die ZDB-ID ist eine eindeutige Kennung für jeden Zeitungstitel und kann sowohl im Zeitungsportal ZEFYS oder direkt bei der ZDB gefunden werden. Für den Datenabruf ist die ZDB-ID der digitalisierten Zeitung zu benutzen.

Weiterhin muss ein Datum im Format YYYYMMDD angegeben werden, bspw. 18900101 für die Ausgabe vom 01. Januar 1890. Die Information, an welchen Daten bereits digitalisierte Ausgaben einzelner Zeitungen vorliegen, kann wiederum über das Zeitungsportal ZEFYS abgerufen werden.

Um gescannte Bilder für die gewünschte Zeitung zu erhalten, müssen weitere Informationen in der URL spezifiziert werden, die dem IIIF-Standard entsprechen:
/full/{width in pixel},/0/default.jpg wobei width in pixelfrei gewählt werden kann und die Höhe sich automatisch anpasst, z.B.
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-1-0-0/full/1200,/0/default.jpg
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-1-0-0/full/250,/0/default.jpg

Der IIIF-Standard erlaubt weitere Bildmanipulationen über die URL. So kann, neben der Anpassung der Größe, ein Ausschnitt des Bildes gewählt oder das Bild gedreht werden. Im folgenden Beispiel wird ein 300 x 300 Pixel großer Ausschnitt um 90° gedreht zurück geliefert.
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-1-0-0/1000,1000,300,300/full/90/default.png

Es ist ebenso möglich das originale TIFF Bild zu erhalten, indem default.tif anstatt default.jpg in the URL verwendet wird:
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-1-0-0/full/full/0/default.tif

Mit dem Anfügen der Seitenzahl 0 und der Endung .xml an die URL der einzelnen Ausgabe, kann man das METS Dokument mit den Metadaten des einzelnen Zeitungstitels erhalten, bspw.:
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-0-0-0.xml

Weitere funktionierende Beispiele:
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-1-0-0/full/full/0/default.tif -> TIF, Seite 1
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-1-0-0/full/1200,/0/default.jpg -> JPG, Seite 1
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-1-0-0.pdf -> PDF, Seite 1
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-0-0-0.pdf -> PDF, alle Seiten
https://content.staatsbibliothek-berlin.de/zefys/SNP27974534-19010712-0-0-0-0.xml -> METS

Volltexte

Für das Projekt Amtspresse Preußens liegen Volltexte in verschiedenen Formaten vor.

Für das Teltower Kreisblatt liegen die Daten im ALTO Format vor. Gegenüber der Auslieferung der METS Datei muss hier zum einen
die Ausgabe mit dem Buchstaben A und die Seitenzahl in der URL angepasst werden.
Dadurch werden anstatt der METS Daten die OCR-Daten im ALTO Format für jede Seite einzeln ausgeliefert:
https://content.staatsbibliothek-berlin.de/zefys/SNP25128437-18580109-A-1-0-0.xml für Seite 1,
https://content.staatsbibliothek-berlin.de/zefys/SNP25128437-18580109-A-2-0-0.xml für Seite 2 usw.

Für die weiteren Zeitungen mit Volltext, Provinzial-Correspondenz und Neueste Mittheilungen, liegen die Daten in einem freien XML-Format vor.
Hier muss die Ausgabe mit dem Buchstaben F angegeben werden, die Seite mit 0, da hier der gesammte Volltext als eine Datei ausgeliefert wird.
Beispiele für eine Auslieferung dieser Daten sind für die Provinzial-Correspondenz:
https://content.staatsbibliothek-berlin.de/zefys/SNP9838247-18770117-F-0-0-0.xml
und für die Neueste Mittheilungen:
https://content.staatsbibliothek-berlin.de/zefys/SNP11614109-18930721-F-0-0-0.xml

Lizenz- und Nutzungsbedingungen

Die hier angebotenen Zeitungen stehen unter Public Domain Mark 1.0. Es bestehen keine Lizenz- und Nutzungseinschränkungen.

Ansprechpersonen

Hans-Jörg Lieder; Clemens Neudecker; George Dogaru