Jump to ContentJump to Main Navigation
Show Summary Details
More options …

Bibliotheksdienst

Editor-in-Chief: Gerlach, Annette / Koelges, Barbara

12 Issues per year

Online
ISSN
2194-9646
See all formats and pricing
More options …
Volume 49, Issue 7 (Jun 2015)

Issues

OCR für Drucke der Frühen Neuzeit? Erfahrungen und Perspektiven am Beispiel von Funeralschriften

Using OCR for early printed books? Experiences and perspectives, taking funeral writings as an example

Maria Federbusch
  • Corresponding author
  • Staatsbibliothek zu Berlin – Preußischer Kulturbesitz, Abteilung Historische Drucke, 10102 Berlin, Tel.: 030/266 436601
  • Email
  • Other articles by this author:
  • De Gruyter OnlineGoogle Scholar
Published Online: 2015-06-10 | DOI: https://doi.org/10.1515/bd-2015-0082

Zusammenfassung:

Kann die automatische Texterkennung (OCR) für Alte Drucke erfolgreich eingesetzt werden? Welcher Aufwand ist dazu erforderlich? Welche Ergebnisse können erzielt werden? Neben diesen zum Teil nur angerissenen Fragen werden die materialbedingten Herausforderungen benannt und ihre Auswirkungen auf den OCR-Workflow erläutert. Der Fokus liegt hierbei auf Optimierungsmöglichkeiten hinsichtlich der erreichten Qualitäten. Den Ausgangspunkt bilden Erfahrungen eines von der Deutschen Forschungsgemeinschaft geförderten Pilotprojekts zur OCR von Funeralschriften an der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz.

Abstract:

Is it possible to successfully use optical character recognition (OCR) software for early printed books? Which expenditure is needed? Which results can be produced? Apart from these questions which partly are only touched on, the challenges coming with the material are named and their effects on the OCR workflow are explained. The focus is on optimising possibilities regarding the quality achieved. Experiences collected during a pilot project dealing with the OCR of funeral writings at the Berlin State Library – Prussian Cultural Heritage Foundation, which was promoted by the German Research Foundation, serve as the starting point.

Schlüsselwörter: : Alte Drucke; OCR; Funeralschriften

Keywords: : early printed books; OCR; funeral writings

1 Einführung und Zielsetzung

Die Digitalisierung von Drucken der Frühen Neuzeit hat sich als Arbeitsfeld von Bibliotheken in den vergangenen Jahren etabliert. Allein durch die von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekte im Rahmen von VD 161 , VD 172 und VD 183 entstanden hunderttausende Digitalisate, wobei der Fokus auf der qualitativ hochwertigen Imagedigitalisierung lag. Von der geisteswissenschaftlichen Forschung nachgefragte Volltexte jedoch konnten nur in ausgewählter Menge und überschaubarer Anzahl i. d. R. durch manuelle Erfassung in speziellen Projekten4 bereitgestellt werden. Bibliotheken spielten hierbei eine untergeordnete Rolle. Zur Koordinierung und automatisierten Unterstützung entsprechender Bemühungen hat die DFG im Mai 2014 eine „Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR)“5 ausgelobt. Bereits in den Jahren 2010 und 2011 führte die Staatsbibliothek zu Berlin (SBB) ein von der DFG gefördertes Pilotprojekt durch, in dessen Mittelpunkt die Erprobung ausgewählter OCR-Software zur Zeichenerkennung von Funeralschriften, einer seriellen Quelle6 der Frühen Neuzeit, stand.

2 Ausgangslage: Vielfalt vorliegender Drucke

Angesichts der regionalen, sprachlichen und zeitlich begründeten Vielfalt des Druckaufkommens der Frühen Neuzeit wird deutlich, dass von einer sehr differenzierten Materialbasis auszugehen ist. Die Bandbreite reicht von Inkunabeln über vielfältige Drucke des 16. Jahrhunderts (z. B. Aldinen, Einblattdrucke, Flugschriften) bis zu teils illustrierten bzw. mit Musiknotationen versehenen Drucken aus dem 17. und 18. Jahrhundert. Offenbar wird die Vielfalt der Schriftarten, -größen und -schnitte. Besondere Herausforderungen für eine OCR ergeben sich jedoch nicht unbedingt aus dem Alter der Drucke, sondern ganz entscheidend aus den Eigenschaften der verwendeten Schriften. Von besonderem Interesse sind Schriftgrad, Linienstärke und Laufweite der einzelnen Buchstaben sowie die Eindeutigkeit im Gebrauch. Auch Druckbesonderheiten (Schmuckschriften, Initialen, Abkürzungen) haben eine bestimmende Wirkung, sind doch oftmals Sorgfalt und Mühe der Setzer und Drucker hinsichtlich der angestrebten Vielfalt für eine OCR nicht dienlich. Hierfür beispielhaft sind Figurengedichte, die als untrennbare Einheit von Bild und Text anzusehen sind und zusätzlich durch ungewöhnliche Textverläufe und Worttrennungen auffallen. Eine sinnvolle automatische Erkennung erscheint oft kaum möglich. Einmal mehr zeigt sich in dieser Gedichtform die Berechtigung verschiedener sich ergänzender Sichten auf Digitalisate.

 Figurengedicht aus einer Funeralschrift von 1685, S. 114.7http://resolver.staatsbibliothek-berlin.de/SBB000056DD000000118.
Abb. 1:

Figurengedicht aus einer Funeralschrift von 1685, S. 114.7

Zu den intrinsischen Aspekten sind weiterhin Verunreinigungen, handschriftliche Eintragungen und Unterstreichungen sowie Textverluste zu zählen. Entstanden sind diese aufgrund des Alters der Drucke und der wechselvollen Geschichte einzelner Exemplare. So weisen verschiedene Provenienzspuren wie Eigentumsvermerke, handschriftliche Eintragungen aller Art oder spätere Bindemaßnahmen auf Eigentümerwechsel hin. Unsachgemäßer Umgang und Transport hinterließen Spuren wie Wasser- oder Brandschäden, auch Abdrücke von getrockneten Pflanzen und Verfärbungen. Hinzu kommen Widerdruck und schlechte Papierqualitäten.

3 Intrinsische Aspekte bei der Beschreibung von Funeralschriften

Funeralschriften sind personale Gelegenheitsschriften. Ihre Erstellung und ihr Gebrauch sind vor allem für das 17. Jahrhundert kennzeichnend. Die stärkste Verbreitung fanden die Funeralschriften im mitteldeutschen Raum. Diese zeitliche und regionale Komponente spiegelt sich auch in der bedeutenden Funeralschriftensammlung der Staatsbibliothek zu Berlin wider.8 Generelle Phänomene der Zeit wie die Vielfalt barocker Schriften (vornehmlich gebrochene Schriften, vereinfacht als Fraktur bezeichnet), variierende Rechtschreibung und die Wiedergabe von Originalzitaten in fremden Sprachen tragen zur Komplexität der Ausgangslage bei. Hinsichtlich der Funeralschriften9 sind hier lateinische, griechische und hebräische Originalzitate erwähnenswert. Diese Zitate wurden immer auch typographisch durch die Verwendung anderer Schriften (z. B. Antiqua kursiv) hervorgehoben. Ebenso fällt in den Predigten die Häufung von Marginalien auf, die in sehr kleinen Schriften gesetzt wurden. Anwendung fanden sie vornehmlich zur Angabe von Bibelstellen, die zudem stark abgekürzt wurden.

4 Optimierungsmöglichkeiten von OCR

Während ein konservatorisch schlecht erhaltener Druck nur sehr bedingt durch gezielte Maßnahmen beim Scannen, bei der Binarisierung oder der Bildnachbearbeitung für eine OCR aufbereitet werden kann, ergeben sich für die mit Schrift und Sprache verbundenen Aspekte Optimierungsmöglichkeiten im OCR-Workflow10 durch Training und den Einsatz von passenden Wörterbüchern. Die Kenntnis der zu prozessierenden Drucke, d. h. ihre Sichtung und Gruppierung ist demzufolge ein wesentlicher Erfolgsfaktor. Im Projekt wurde eine Gruppierung und Vorsortierung anhand der Versalie „M“ bzw. dem Auftreten verschiedener Varianten der Gemeinen „s“ in Abstimmung mit dem Erscheinungsjahr versucht. Die Wahl dieser Zeichen begründete sich durch ihre Varianz im Erscheinungsbild und ihr gehäuftes Vorkommen.

Zu erwähnen ist, dass natürlich die Qualität der OCR auch begrenzt wird durch Faktoren, die im Prozess selbst, besonders in der Funktionsweise der Software ihre Ursache haben. Unabhängig von ihrer Konfigurierbarkeit beeinflusst die Art der Binarisierung, Segmentierung, OCR-Klassifikation oder Wörterbucheinbindung die Ergebnisse selbstredend. Zusätzlich existieren derzeit Grenzen der OCR, die darin begründet liegen, dass sie i. d. R. einzelseitenbasiert abläuft und daher die Eigenschaften der Vorlage als Ganzes keine Berücksichtigung finden.

5 Verfahren automatischer Bearbeitung – ein Pilotprojekt an der Staatsbibliothek zu Berlin

Die Idee des Pilotprojekts war es, gattungsspezifisch anhand der Funeralschriften die Möglichkeiten einer automatischen Texterkennung zu testen. Ausgegangen wurde von der Annahme, dass inhaltlich und formal verwandte Drucke ähnliche OCR-Konfigurations- und Optimierungsszenarien durchlaufen können. Der Aufwand, gattungsspezifische Hilfsmittel zu schaffen und anzupassen, sollte folglich am Beginn der Prozessierung eines ganzen Bestandssegments stehen. Der Form nach sind Funeralschriften im Einzelnen Leichenpredigten, Abdankungsreden, Lebensläufe und Epicedien, wobei es sich bei Letzteren oftmals um Gedichte handelt. Es zeichnen sich folglich Analogien zu bereits digitalisierten Alten Drucken aus Theologie und Literatur ab.

Im Pilotprojekt wurden in der Hauptsache Szenarien für die Prozessierung von Textmengen erprobt. Diesbezüglich liefen Tests und Vergleiche von zwei Softwareprodukten wiederholt unter verschiedenen Konstellationen ab. Es handelte sich einerseits um die OCR-Software BIT-Alpha der französischen Firma Bureau Ingénieur Tomasi und andererseits um HK-OCR FR9, eine die ABBYY FineReader-Engine-9 nutzende Softwareumgebung der Firma Herrmann und Kraemer. Die Erfahrungen haben gezeigt: Training zahlt sich aus – spezielle auf das (möglichst vorsortierte) Material abgestimmte Musterbibliotheken sind allgemeinen und übergreifenden Musterbeständen überlegen. Hierzu reicht es aus, einige Seiten zu trainieren. Die Schwierigkeit liegt jedoch darin, die Vielfalt vorkommender Schriften entsprechend zu analysieren und geeignete Trainingsbelege auszuwählen. Materialkenntnis und Erfahrungen mit Alten Drucken wirken sich vorteilhaft aus.11

Speziell der Einsatz einer gattungsbezogenen Wortliste12 erzielte Fortschritte, selbst wenn ihr Umfang begrenzt war (vgl. dazu das Beispiel in Abb. 2). Zu sehen sind hier stellvertretend die Ergebnisse verschiedener Probeläufe unter veränderter Konfiguration.

 Texterkennung mit HK-OCR FR9 ohne spezifische Konfiguration (oben links) vs. Texterkennung nach Training mit Wortliste (oben rechts) – Vergleich mit manuell erfasstem Text (unten rechts).
Abb. 2:

Texterkennung mit HK-OCR FR9 ohne spezifische Konfiguration (oben links) vs. Texterkennung nach Training mit Wortliste (oben rechts) – Vergleich mit manuell erfasstem Text (unten rechts).

Je vielfältiger Layout und Schriften erscheinen, desto mehr sinkt die Qualität der Texterkennung. Folglich wurden Texte in sehr heterogener Qualität prozessiert, zumal für das Training nur ein sehr kleines Zeitfenster zur Verfügung stand. Die Staatsbibliothek hat trotzdem entschieden, die Texte unabhängig von der zunächst erreichten Qualität zu veröffentlichen, um eine Nachvollziehbarkeit der Projektergebnisse zu ermöglichen.13

 Darstellung von Bild und Text in den Digitalisierten Sammlungen der Staatsbibliothek.14http://resolver.staatsbibliothek-berlin.de/SBB000055DE00000049.
Abb. 3:

Darstellung von Bild und Text in den Digitalisierten Sammlungen der Staatsbibliothek.14

6 Spezielle Projektergebnisse

Die Texte serieller Quellen der Frühen Neuzeit werden in der Masse auswertbar, selbst wenn ein Suchergebnis fehlerbehaftet ist und nicht alle eigentlich relevanten Inhalte widerspiegeln wird. Zu erreichen ist in jedem Fall die Erweiterung herkömmlicher Suchmöglichkeiten. Vorzugsweise die Suche nach Namen, die in den Drucken Erwähnung finden, verspricht zusätzliche Entdeckungen auch in „schmutziger“ OCR. Besonders in Gelegenheitsschriften werden Personen in vielfältigen Zusammenhängen, vor allem in Lebensläufen, Trauerzügen, Widmungen und Stammbäumen genannt. Bei einer ausreichend großen Quellenbasis könnten über eine Volltextsuche Aktionsradius und Schaffenszeit aufgeführter Personen (z. B. von behandelnden Ärzten) ermittelt werden. Um derartige Analysen durchzuführen, wird es notwendig, über eine hinreichend große Textmenge zu verfügen, weswegen die weitere Volltextgenerierung dieser seriellen Quellen eine vordringliche Aufgabe darstellt. Selbst bei der im Projekt erstellten kleinen Textmenge lässt sich diese Wirkungsweise bereits erkennen wie das Beispiel in Abb. 4 anhand einer Namenssuche zeigt.

 Schmutziger OCR-Text zur Erweiterung der Suchmöglichkeiten von Namen: Trefferliste mit Angabe des Volltextschnipsels (links), erkannte Personennamen inkl. Fehler (rechts).15http://resolver.staatsbibliothek-berlin.de/SBB00003C8700000004.
Abb. 4:

Schmutziger OCR-Text zur Erweiterung der Suchmöglichkeiten von Namen: Trefferliste mit Angabe des Volltextschnipsels (links), erkannte Personennamen inkl. Fehler (rechts).15

7 Ausblick

Wie können die gesammelten Erfahrungen für umfangreiche Textmengen genutzt werden? Zu nennen ist in erster Linie der Ausbau der vorhandenen gattungsspezifischen Wortliste. In den vergangenen Jahren wurden durch große Digitalisierungsprojekte neben Katalogisaten auch Strukturdaten zu Imagedigitalisaten erfasst (allein im VD 18 sind bereits über eine Mio. Strukturdaten enthalten). Bildet man eine große Textgruppe theologischer und literarischer Drucke, die in den digitalisierten Sammlungen der Staatsbibliothek knapp die Hälfte der Druckschriften darstellen, so könnten bereits jetzt Strukturdaten (i. d. R. Kapitelüberschriften) von knapp 25.000 Werken für eine Wortliste Verwendung finden; nutzt man die Daten weiterer Projekte, sind es erheblich mehr. Sinnvoll wäre zudem die Speicherung von Wörterbüchern in einem softwareunabhängigen Format, um einen anwenderseitigen Austausch zu erleichtern.

Ferner stellt sich die Frage, wie die auf diese Weise erstellten Texte verbessert werden können. Derzeit lassen sich mehrere Strategien ableiten:

Mehrfache OCR-Prozessierung für besonders schwierige Texte, die z. B. durch eine automatische Auswertung der mitgelieferten Statistikdaten auffallen

Speziell die originalen Textdateien von Abbyy Finereader enthalten interne Informationen über die Qualität der OCR. Auch wenn diese Parameter (v. a. Konfidenzwerte) ohne weitere Erläuterungen schwer interpretierbar sind, lassen sich statistische „Ausreißer“ ermitteln. Für diese Texte kann eine erneute Prozessierung mit angepassten Parametern sinnvoll sein. Das gilt natürlich ebenso für Texte, die durch andere Hinweise als besonders schlecht eingestuft wurden. Interessant werden in diesem Zusammenhang Tools zur Qualitätsabschätzung und -evaluation, wie sie beispielsweise im IMPACT-Projekt16 untersucht bzw. entwickelt wurden.

Kooperationen mit Institutionen und Projekten zur Korrektur und Auszeichnung der Texte

Vorausgesetzt, die betrachteten Bestände sind auch in anderen Projekten von besonderem Interesse, bieten sich Gewinn bringende Kooperationen an. Im speziellen Fall arbeitet die SBB für das Korpus von Simon-Dach-Trauergedichten zur Nachkorrektur der Texte mit dem Deutschen Textarchiv der Berlin-Brandenburgischen Akademie der Wissenschaften17 zusammen.

Korrekturen wesentlicher Strukturen

Oft ist eine Nachkorrektur aller Texte in ihrer Vollständigkeit unrealistisch, weswegen auch eine Teilkorrektur relevanter Inhalte wie Überschriften, Namen und Marginalien wesentlich zur verbesserten Nutzung beitragen kann. Auch hierfür wurde Software entwickelt, die eine Nachkorrektur der Texte inklusive Aktualisierung der Koordinaten realisiert. Die Einbeziehung Freiwilliger zur Textkorrektur könnte beispielsweise auf dieser Stufe ansetzen.

Semantische Auszeichnung

Volltexte von Drucken der Frühen Neuzeit enthalten i. d. R. Inhalte, deren Auszeichnung als Entitäten für den Aufbau semantischer Bezüge sowohl innerhalb einer Datenbasis als auch in übergreifenden Zusammenhängen interessant ist. Dahingehend werden auf dem Gebiet der Named-entity recognition (NER) Fortschritte gemacht. Die Staatsbibliothek beabsichtigt als nächsten Schritt eine Anreicherung der Texte durch die semantische Auszeichnung verschiedener speziell für die Gattung evidenter Informationen wie Personen- oder Ortsnamen, Krankheiten, Berufsbezeichnungen und Bibelstellen, wobei neben der manuellen Auszeichnung auch automatische Möglichkeiten getestet werden sollen.

Es bleibt abzuwarten, welche grundlegenden Fortschritte die durch die DFG initiierten OCR-Projekte machen werden. Interessant wird es, der Frage nachzugehen, wie diese Erfahrungen auf differierende und verteilte Druckschriftenbestände aus der Frühen Neuzeit übertragen werden können. Besondere Herausforderungen ergeben sich aus der kollaborativen Arbeit verschiedener Institutionen und der Zusammenschau von Volltexten verschiedener Herkunft hinsichtlich ihrer Präsentation und Interaktion durch die Benutzer.

Maria Federbusch:

Footnotes

  • https://opacplus.bib-bvb.de/TouchPoint_touchpoint/start.do?SearchProfile=Altbestand&SearchType=2 [Zugriff, auch bei allen folgenden Links: 02.04.2015]. 

  • http://gso.gbv.de/DB=1.28/. 

  • http://vd18.de/. 

  • Hierzu zählt vor allem eine Vielzahl digitaler Editionen akademischer Projekte. Als OCR-Projekt für Drucke der Frühen Neuzeit ist lediglich „Helmstedter Drucke Online“ der Herzog-August-Bibliothek Wolfenbüttel zu nennen: http://www.hab.de/de/home/wissenschaft/projekte/helmstedter-drucke-online.html. 

  • http://www.dfg.de/foerderung/info_wissenschaft/2014/info_wissenschaft_14_25/index.html. 

  • Als serielle Quellen werden in der Geschichtswissenschaft Quellen bezeichnet, die in gleichartiger Form und Erscheinung in großer Menge vorliegen und für quantitative Analysemethoden genutzt werden können. 

  • http://resolver.staatsbibliothek-berlin.de/SBB000056DD000000118. 

  • Bereits digital verfügbar ist gut die Hälfte der Sammlung, nämlich 7.100 Funeralschriften. 

  • http://staatsbibliothek-berlin.de/die-staatsbibliothek/abteilungen/historische-drucke/sammlungen/bestaende/personale-gelegenheitsschriften/. 

  • Ein vereinfachter OCR-Workflow wird mit folgenden Einzelschritten beschrieben: 1. Vorbereitung des Materials, 2. Binarisierung, 3. Segmentierung, 4. OCR-Klassifikation, 5. Nachbearbeitung. 

  • Ausführliche Ergebnisse siehe: Federbusch, Maria; Polzin, Christian: Volltext via OCR – Möglichkeiten und Grenzen. Berlin 2013 (Beiträge aus der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz 43). http://staatsbibliothek-berlin.de/fileadmin/user_upload/zentrale_Seiten/historische_drucke/pdf/SBB_OCR_STUDIE_WEBVERSION_Final.pdf. 

  • Verwendung fanden: Vokabular aus Titelfassungen von Funeralschriften, Thesauri der Personalschriftenstelle, Krankheitsbezeichnungen des Vereins für Computergenealogie und einige wenige manuell erfasste Referenztexte. 

  • http://staatsbibliothek-berlin.de/die-staatsbibliothek/abteilungen/historische-drucke/projekte/funeralschriften/ – dort Liste bzw. 1.066 Texte direkt abrufen unter: http://digital.staatsbibliothek-berlin.de/suche/?tx_goobit3_sbb_search%5Bfulltext%5D=true&tx_goobit3_sbb_search%5Bsquery%5D=%28DC%3Atheologie%29 %20AND%20FULLTEXT%3Atrue&tx_goobit3_sbb_search%5Blink%5D=0&tx_goobit3_sbb_search%5Border%5D=BYCREATOR&tx_goobit3_sbb_search%5Breverse%5D=0. 

  • http://resolver.staatsbibliothek-berlin.de/SBB000055DE00000049. 

  • http://resolver.staatsbibliothek-berlin.de/SBB00003C8700000004. 

  • http://digitisation.eu. 

  • http://www.deutschestextarchiv.de/. 

About the article

Maria Federbusch

Maria Federbusch


Published Online: 2015-06-10

Published in Print: 2015-06-15


Citation Information: Bibliotheksdienst, ISSN (Online) 2194-9646, ISSN (Print) 0006-1972, DOI: https://doi.org/10.1515/bd-2015-0082.

Export Citation

© 2015 by De Gruyter. This work is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 License. BY-NC-ND 4.0

Comments (0)

Please log in or register to comment.
Log in