Jump to ContentJump to Main Navigation
Show Summary Details
More options …

ABI Technik

Zeitschrift für Automation, Bau und Technik im Archiv-, Bibliotheks- und Informationswesen

Editor-in-Chief: Söllner, Konstanze

Ed. by Brandtner, Andreas / Haas, Edeltraud / Kriese, Sven / Schnelling, Heiner / Sommer, Dorothea

4 Issues per year

Online
ISSN
2191-4664
See all formats and pricing
More options …
Volume 35, Issue 1 (Apr 2015)

Issues

Evaluation von automatisch erzeugten OCR-Daten am Beispiel der Allgemeinen Zeitung

Maria Wernersson
Published Online: 2015-04-18 | DOI: https://doi.org/10.1515/abitech-2015-0014

Zusammenfassung

Im Jahr 2014 wurde eine Schätzung der OCR-Genauigkeit von 11 354 digitalisierten Seiten aus der Allgemeinen Zeitung [Allgemeine Zeitung: Herausgegeben in Augsburg (1807–1882), München (1882–1929).] durchgeführt. Die getesteten Zeitungsbände stammen aus dem Zeitraum 1871–1921. Um die Genauigkeit zu schätzen, wurden Regeln für die Bewertung der Fehler aufgestellt, Textstichproben automatisch per Skript erstellt und die Stichproben manuell ausgewertet.

Mit einer geschätzten Zeichengenauigkeit zwischen 94,70 Prozent und 97,65 Prozent (Konfidenzzahl: 95 Prozent) [Mit der (berechneten) Anzahl der Zeichen im Scan als Grundmenge. Siehe auch: „Problemstellung: Zeichen-Grundmenge aus dem Scan oder aus der OCR?“ in Abschnitt 3.4 und die Bemerkung dazu in Abschnitt 5.1.] wurde ein gutes, zufriedenstellendes Resultat erreicht. Außer der Zeichengenauigkeit wurde auch die Erkennung des Leseflusses und des Formats geprüft.

Bei der Evaluierung von OCR-Genauigkeit gilt es viele Faktoren zu beachten. Dies trifft vor allem auf den späteren Vergleich verschiedener Evaluierungen zu, weil Faktoren wie Fehlerklassifikation und Zweck der Digitalisierung variieren können.

Abstract

In 2014, OCR accuracy was estimated on the basis of 11,354 digitized pages of the newspaper Allgemeine Zeitung [Allgemeine Zeitung: published in Augsburg (1807–1882), München (1882–1929).]. The evaluated collections of newspapers spanned the years 1871–1921. For the estimation, a set of error classification rules was set up, sample snippets of recognized text were chosen automatically by a script and the samples were manually evaluated.

The character accuracy was estimated to lie between 94.70 percent and 97.65 percent (level of confidence: 95 percent) [Calculated with an estimated number of characters in the scan – see more under: „Problemstellung: Zeichen-Grundmenge aus dem Scan oder aus der OCR?“ in part 3.4 and further on in part 5.1.] which can be considered as fairly good. Beside character accuracy, reading order and format recognition were tested.

There are multiple aspects to take into account when estimating OCR accuracy, especially in regard to comparing different evaluations in which factors like error classification or the purpose of the respective digitization might vary.

About the article

Published Online: 2015-04-18

Published in Print: 2015-04-01


Citation Information: ABI Technik, ISSN (Online) 2191-4664, ISSN (Print) 0720-6763, DOI: https://doi.org/10.1515/abitech-2015-0014.

Export Citation

© 2015 by Walter de Gruyter Berlin Boston. Copyright Clearance Center

Comments (0)

Please log in or register to comment.
Log in