Elisa Herrmann

OCR-D – Koordinierte Förderinitiative zur Weiterentwicklung von OCR-Verfahren

Accessible
De Gruyter Saur | Published online: December 5, 2017

Zusammenfassung

Das Projekt OCR-D hat zum Ziel, das Verfahren der automatischen Texterkennung für historische Texte des 16.–19. Jahrhunderts weiterzuentwickeln. Im vorliegenden Artikel werden der derzeitige Arbeitsstand, das Funktionsmodell als Ergebnis der ersten Projektphase und die Herausforderungen der einzelnen Prozessschritte beschrieben. Für diese sollen nach Abschluss der Bedarfsanalyse in der primären Phase ab 2018 durch Modulprojekte Lösungen erarbeitet werden. Der Artikel basiert auf einem Vortrag auf dem 106. Bibliothekartag in Frankfurt a. M. von Dr. Thomas Stäcker und Elisa Herrmann.

Abstract

The OCR-D project aims at developing further the process of automatic text capture for historical texts of the 16th to 19th century. The following article describes the current state of work, the functioning model as the result of the first project phase and the challenges of the single process steps for which solutions shall be worked out after the completion of the requirement analysis in the primary phase from 2018 onwards. The article is based on a lecture held by Dr Thomas Stäcker and Elisa Herrmann on the 106. Bibliothekartag(German Librarians’ Day) in Frankfurt/Main.

1 Entwicklung der Digitalisierung und OCR in Deutschland

Durch die Verzeichnisse der im deutschen Sprachraum erschienenen Drucke des 16.–18. Jahrhunderts (VD16, VD17, VD18) ist in den vergangenen 30 Jahren ein beträchtlicher Teil des schriftlichen kulturellen Erbes im deutschen Sprachraum nachgewiesen und seit 2006 digitalisiert worden. In mehreren Kampagnen durch die Deutsche Forschungsgemeinschaft (DFG) gefördert, wurden damit die Forschungsbedingungen erheblich verbessert. Ein nächster zwingender Schritt ist die Transformation der Image-Dateien in maschinenlesbare Form, um somit eine Volltextsuche zu ermöglichen.

Auf dem DFG-Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“ im März 2014 kam ein Expertengremium zu der Ansicht, dass eine dringende Notwendigkeit für freien Zugang zu historischen Textkorpora und lexikalischen Ressourcen zum Training von vorhandenerSoftware zur Texterkennung bestehe.[1] Ebenso müssen Open-Source-OCR-Engines zur Verbesserung der Textgenauigkeit weiterentwickelt werden, wie auch Anwendungen für die Nachkorrektur der automatisch erstellten Texte. Das gesamte schriftliche Kulturerbe als Volltext für Recherche und weitere Bearbeitung, etwa für digitale Editionen, zur Verfügung zu stellen, sei nicht nur eine Vision, sondern angesichts der jüngsten technischen Entwicklungen im Bereich der Optical Character Recognition (OCR) ein realistisches Szenario. Dafür seien neben den technischen Herausforderungen auch die Optimierung entsprechender Workflows, Standards und Verfahren der Langzeitarchivierung mit Blick auf zukünftige Anforderungen an den OCR-Prozess erforderlich.

Als zentrales Ergebnis dieses Workshops stand fest, dass eine koordinierte Fördermaßnahme der DFG notwendig ist.

2 Das Projekt OCR-D[2]

Im September 2015 wurde dieser Entschluss durch den Start der „Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR)“, kurz OCR-D, verwirklicht. Seitdem versucht das Vorhaben einen Lückenschluss zwischen Forschung und Praxiseinsatz, indem für die Entwicklungsbedarfe Lösungen erarbeitet und der aktuelle Forschungsstand zur OCR mit den Anforderungen aus der Praxis zusammen gebracht werden.

OCR-D versteht sich dabei als Koordinierungsgremium und Netzwerk zugleich, bringt Entwickler, Forscher und Anwender zusammen, um aktuelle Erkenntnisse aus der Forschung mit den Anforderungen aus der Praxis in einer praktikablen Lösung zu vereinen. Das DFG-geförderte Projekt wird federführend von der Herzog August Bibliothek Wolfenbüttel (HAB) sowie der Berlin-Brandenburgischen Akademie der Wissenschaften in Berlin (BBAW), der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz (SBB) und dem Karlsruher Institut für Technologie (KIT) durchgeführt

In der ersten Projektphase wurden (Entwicklungs-) Bedarfe analysiert und eine Koordinierungsinfrastruktur für die zweite Projektphase aufgebaut, in welcher Modulprojekte Lösungen für die erkannten Bedarfe umsetzen sollen.

2.1 Phase I: Das Funktionsmodell

Das wesentliche Arbeitsergebnis der ersten Projektphase ist das Funktionsmodell als beispielhafter OCR-Prozess. Auf Basis bestehender Workflows aus Digitalisierungszentren sowie aktuellen Forschungserkenntnissen wurde ein Modell erstellt, welches alle möglichen Prozessschritte abbildet. Das Modell untergliedert die Bearbeitung des Images bzw. Textes in vier Bearbeitungsebenen, auf denen die algorithmischen Verfahren angewandt werden: Dokument, Seite, Absatz (bzw. Textzone) und Zeile.

Das Funktionsmodell verdeutlicht, dass der OCR-Prozess bereits einige Schritte vor der eigentlichen Texterkennung beginnt. Im Preprocessingwird das Bild-Digitalisat für die folgenden Bearbeitungen vorbereitet. Prozessschritte dieser Vorverarbeitung können dabei das Zuschneiden (Cropping), das Begradigen (Deskewing) und Entzerren (Dewarping) der Seiten sowie das automatische Bereinigen (Despeckling) sein. Das Preprocessing wird meist durch die Binarisierung abgeschlossen, bei der das Bild in eine Grafik mit lediglich schwarzen und weißen Pixeln umgewandelt wird. Je nach Material und verwendeter Texterkennungsmethode kann auf einzelne Schritte des Preprocessings verzichtet werden.

Abb. 1: Das OCR-D-Funktionsmodell.

Abb. 1:

Das OCR-D-Funktionsmodell.

So vorbereitet wird das Image an die Layout-Erkennung übergeben, bei der die Seite in Text- und Nicht-Textzonen und weiter bis auf einzelne Textzeilen unterteilt wird. Dabei können die einzelnen Schritte des Preprocessing nochmals auf Absatz- und/oder Zeilenebene wiederholt werden. Insbesondere die Zeilenerkennung und die Erkennung der Baseline spielen in den neueren OCR-Verfahren mittels Neuronaler Netze eine bedeutende Rolle. Als Baseline wird die Grundline bzw. Schriftlinie bezeichnet, anhand derer sich die OCR-Engine orientieren und bspw. Krümmungen der Zeile erkennen kann. Die größten Herausforderungen der Layout-Erkennung stellen komplexe Layouts, etwa mehrspaltige Texte oder Marginalien dar.

Im Anschluss erfolgt die eigentliche Texterkennung mittels OCR-Software. Bei vielen Digitalisierungsvorhaben werden noch klassische Verfahren der Optical Character Recognition eingesetzt, bei der der Text in einzelne Zeichen segmentiert und anschließend mit einer Formdatenbank verglichen wird. Neuere Ansätze arbeiten segmentierungsfrei auf Grundlage Neuronaler Netze. Die Praxistauglichkeit für Massenprozessierungen mit den neuen OCR-Engines gilt es jedoch noch zu prüfen. Eine Schwierigkeit der Texterkennung stellt vor allem der Schrifttypen- und Sprachmix, teilweise auf Wortebene, dar.

Abb. 2: Vergleich der Software Tesseract mit den klassischen Verfahren und OCRopus, das bereits moderne Ansätze verfolgt.Tesseract Open Source OCR Engine. https://github.com/tesseract-ocr/tesseract [Zugriff: 16.10.2017]., The OCRopus OCR System. https://github.com/tmbdev/ocropus [Zugriff: 16.10.2017]. Alle Fehler wurden rot markiert, Vokale mit hochgestelltem e wurden in diesem Fall als richtig angesehen, wenn sie als Umlaut ausgegeben wurden.

Abb. 2:

Vergleich der Software Tesseract mit den klassischen Verfahren und OCRopus, das bereits moderne Ansätze verfolgt.[3], [4] Alle Fehler wurden rot markiert, Vokale mit hochgestelltem e wurden in diesem Fall als richtig angesehen, wenn sie als Umlaut ausgegeben wurden.

Die anschließende Document Analysis untersucht das Dokument auf seine Struktur. Durch die Region Classification, als Teil der Document Analysis, werden die layout-semantischen Funktionen der einzelnen Textregionen, etwa Überschrift, Seitenzahl oder Marginalie, bestimmt. Aus diesen erkannten Strukturelementen wird im zweiten Schritt die Dokumentenstruktur erfasst. Dies ermöglicht etwa automatisch Inhaltsverzeichnisse zu generieren.

Zu diesem Zeitpunkt im Prozess ist es unwahrscheinlich, dass der erkannte OCR-Text bereits eine gewünschte Qualität von >99% Textgenauigkeit hat, wie bspw. in der Fallstudie zur historischen OCR im Rahmen des RIDGES-Projekt der Humboldt Universität zu Berlin nachgewiesen wurde.[5] Diese Umstände erfordern in vielen Fällen eine Nachkorrektur der OCR-Ergebnisse. Diesekann manuell, dann oft auch in Form von Crowdsourcing-Projekten, oder halbautomatisch mittels entsprechender Software durchgeführt werden. Tools dafür bieten die Möglichkeit, potentiell falsch erkannte Wörter hervorzuheben und schlagen ggf. Wörterbucheinträge für die Korrektur vor. Vollautomatische Nachkorrekturverfahren werden auf Grund der variierenden Schreibweise sowie zum Teil starker dialektaler Einflüsse, mitunter auch innerhalb eines Dokumentes, in historischen Materialien derzeit nicht in der Praxis angewandt.

Der fertige OCR-Text wird abschließend unter einer freien Lizenz in leicht zugänglichen Repositories zur Verfügung gestellt und langzeitarchiviert. Die Herausforderung in der Langzeitarchivierung besteht insbesondere darin, laufend stattfindende Textverbesserungen, etwa bei Crowdsourcing-Kampagnen, zentral nachzuweisen, um den jeweils besten Text anbieten zu können.

Eine Besonderheit des Funktionsmodells liegt in der Qualitätsmessung an verschiedenen Prozessschritten, statt wie bisher üblich am Prozessende. Durch Qualitätssicherungsmethoden an geeigneter Stelle soll schon frühzeitig in den Prozess eingegriffen werden können, um die Nachbearbeitung zu minimieren. Derzeitig wird in den DFG-Praxisregeln zur Digitalisierung das Bernoulli-Verfahren zur Qualitätsermessung empfohlen. Dabei wird der OCR-Text stichprobenartig mit den Bild-Digitalisaten bzw. Originalen manuell oder interaktiv mittels entsprechender Softwarelösungen auf Fehler untersucht. Die erfassten Differenzen werden dann auf den gesamten Text hochgerechnet, um die Gesamtfehlerquote zu bestimmen.[6] Da nicht jeder einzelne Fehler gezählt werden muss, um eine Einschätzung der Textgenauigkeit zu erhalten, lässt sich durch diese Methode im Vergleich zum herkömmlichen Abzählen aller Fehler bereits zeit- und ressourcensparend arbeiten, jedoch ist auch dieses Verfahren noch zu zeitintensiv für den Einsatz in der Massendigitalisierung. Erstrebenswert und im Fokus dieses Projekts ist daher eine Methode zur automatischen Qualitätsbestimmung, ohne Ground-Truth-Abgleich. Ground-Truth bezeichnet hierbei die originalgetreue, maschinenlesbare Darstellung des digitalisierten Dokuments, mit deren Hilfe die Qualität des OCR-Prozessergebnisses mittels Abgleich bestimmt werden kann. Die Erstellung dieses dokument-spezifischen Ground-Truths erfolgt derzeit teilweise oder in Gänze durch manuelle Transkription des Textes. In OCR-D werden daher Methoden untersucht, die weniger zeit- und kostenintensiv sind und die die Qualität ohne Verwendung dokument-spezifischen Ground-Truth ermitteln. Bei der Lösung dieses Problems ergeben sich weitere anforderungsspezifische Fragen, etwa was als Fehler betrachtet wird. Ist ein nicht erkanntes Satzzeichen in der Fußnote genauso problematisch für die spätere Forschungsarbeit wie ein nicht erkanntes Zeichen in einem Eigenwort? Generell stellt das Projekt einen stärkeren Zusammenhang zwischen der Qualitätsmetrik und den späteren Nutzungsszenarien her. Eine Qualitätsbestimmung in „sehr gut“, „gut“ und „schlecht“ soll vermieden werden. Vielmehr soll den Nutzenden vermittelt werden, wofür ein Text mit einer Genauigkeit von 85% benutzt werden kann und worin die Schwächen liegen.

2.2 Phase II: Die Modulprojekte

Das vorgestellte Funktionsmodell zeigt die möglichen zu bearbeitenden Prozessschritte des OCR-Prozesses auf. Jedoch muss in Abhängigkeit der Anforderung an das Ergebnis und des zugrunde liegenden Materials nicht jeder einzelne davon zwingend durchlaufen werden. Bei der Erarbeitung des Modells sind auch die dazugehörigen vorhandenen Lösungen betrachtet worden. Als Ergebnis dieser Analyse sind Bedarfe beschrieben worden, für die keine oder ungenügende Softwareangebote bestehen, um die Transformation der historischen Texte aus den VD16-18 massentauglich prozessieren zu können. Im März 2017 veröffentlichte die DFG daher eine Ausschreibung für Modulprojekte die für einzelne Problemfelder Lösungen erarbeiten sollen. Die sechs Module sind: Bildvorverarbeitung (Modul 1), Layouterkennung (Modul 2), Textoptimierung (Modul 3), Modelltraining (Modul 4), Langzeitarchivierung und Persistenz (Modul 5) und Qualitätssicherung (Modul 6).

Derzeit durchlaufen die Modulprojektanträge den Begutachtungsprozess bei der DFG, die Projektstarts werden ab 2018 erfolgen.

2.3 Ausblick

Die OCR-Prozessierung ist bereits heute in den meisten DFG-geförderten Digitalisierungsvorhaben, etwa zur Zeitschriftendigitalisierung, zwingender Bestandteil der Projektarbeit und die Ergebnisse aus OCR-D werden weiterhin für zukünftige Digitalisierungsprojekte weitreichende Veränderungen mit sich bringen. Neben der Vorbereitung der Transformation der Titel aus den VD-Projekten in maschinenlesbare Form sollen auch Vorschläge für die Aktualisierung der DFG-Praxisregeln „Digitalisierung“ auf Grundlage der neuen Erkenntnisse erarbeitet werden. Nicht zuletzt soll so im Geiste europäischer und nationaler Agenden die mit der Imagedigitalisierung begonnene und derzeit noch andauernde Medienkonversion des gesamten im deutschen Sprachraum erschienenen schriftlichen kulturellen Erbes mittel- bis langfristig durch eine Wandlung in qualitativ hochwertigen Volltext vollendet werden.

Anmerkung:

Präsentation am 30.05.2017 beim 106. Bibliothekartag. Link zur Präsentation: urn:nbn:de:0290-opus4-30040 [Zugriff: 26.10.2017].

Published Online: 2017-12-05
Published in Print: 2017-12-20

© 2018 by De Gruyter