Skip to content
Publicly Available Published by De Gruyter Saur August 7, 2015

Jenseits der Cloud: Metadaten- und Datenmanagement in der bibliothekarischen Infrastruktur

Teil 2: Text- und Datamining (mit Schwerpunkt auf der Deutschen Nationalbibliothek [DNB])

  • Reinhard Altenhöner

    Reinhard Altenhöner

    EMAIL logo
From the journal Bibliotheksdienst

Zusammenfassung:

In der laufenden Diskussion um die zukünftige Informationsinfrastruktur spielen – auch vor dem Hintergrund einer entsprechenden Förderinitiative der DFG – bibliothekarische Metadaten, ihre Erzeugung und -verwaltung sowie die Träger der entsprechenden Systeme in einem globalen Kontext eine Rolle. Der erste Teil dieses Beitrags versuchte sich an einer Verortung der laufenden Bemühungen einerseits, er beleuchtete aus Sicht des Autors wesentliche Perspektiven und den absehbar erreichbaren Stand. Damit eng verknüpft ist der vorliegende zweite Teil, der sich mit dem Einsatz von Text- und Datamining-Verfahren in Bibliotheken mit einem Schwerpunkt auf den Aktivitäten der Deutschen Nationalbibliothek beschäftigt.

Abstract:

Library metadata, their generation and management as well as the suppliers of the relevant systems in a global context play a role in the current discussion about the future information infrastructure – considering also a relevant promotion initiative of the DFG (German Research Foundation). The first part of this article tried to localise the current efforts. It focused on – according to the author – essential perspectives and the level that can be reached within the foreseeable future. Closely linked to it is the second part presented in the following. It deals with the use of text and datamining processes in libraries, with a main stress on the activities of the German National Library.

1 Einleitung

Im ersten Teil dieses zweiteiligen Beitrags[1] ging es um eine Beschreibung und Einschätzung der aktuellen Aktivitäten zur Internationalisierung und Neuformierung der bibliographischen Infrastruktur in Deutschland. Die Schwierigkeiten, auf die das CIB-Projekt stößt, wurden ebenso deutlich wie die Grenzen des technologischen Anspruchs.[2] Im Wesentlichen soll das Ziel der Internationalisierung der deutschsprachigen Kataloginfrastruktur als Umbau innerhalb der bestehenden Infrastruktur und der dort zum Einsatz kommenden Werkzeuge erfolgen. Die derzeit verfolgten kurz- und mittelfristigen Lösungsansätze für eine globalisierte Metadatenproduktion und -haltung setzen auf tradierten Infrastrukturen auf, die sich organisatorisch und technisch häufig als Hemmnisse erweisen, wenn es z. B. um den Bedarf intensivierter Synchronisationsmechanismen geht. Der verfolgte Weg bremst insofern innovative Ansätze, auf die Dauer aber gelingt hoffentlich eine insgesamt effizientere und transparentere Datenhaltung und -bearbeitung. Dass moderne Ansätze zur (verteilten) Datenhaltung im Rahmen der CIB-Initiative kaum eine Rolle spielen, ist angesichts des Fördervolumens und der Prämissen der Förderung durch die DFG verständlich, aber bedauerlich. Dennoch bestehen diese Ansätze, mittlerweile hat sich eine Linked Open Data Community etabliert und sie entwickelt sich weiter.[3] Die Welt der Metadaten, gewachsenes Wissen um die adäquate Auszeichnung von Objekten mit Metainformationen, bleibt dabei ein grundlegendes Gerüst, auf dem wiederum andere Aktivitäten aufsetzen.

Wenn sich in der Perspektive einer einzelnen Bibliothek, aber auch in der Perspektive der Infrastrukturschicht insgesamt, tatsächlich durch den Wegfall von Aufgaben wie der Administration eines Lokalsystems potentiell Freiräume für andere Aktivitäten ergeben, sollte es immer darum gehen, die Relevanz der Bibliothek für ihr jeweiliges Umfeld zu belegen und damit letztlich ihren Fortbestand zu sichern. Aber auf welchen Arbeitsfeldern lohnt sich der Einsatz besonders?[4]

Hier ein umfassendes Portfolio relevanter Zukunftsfelder für Bibliotheken auszubreiten, ist wohl kaum möglich. An einigen Punkten soll aber, ausgehend von grundsätzlichen Beobachtungen, kursorisch benannt werden, wo Entwicklungspotentiale bestehen – vorausgesetzt die geeigneten Werkzeuge und Ressourcen stehen dafür zur Verfügung:

Bibliotheken und ihre Sammlungen. Die Relevanz historisch gewachsener Sammlungen von Bibliotheken nimmt zu, allerdings nur in dem Maße, wie diese Sammlungen im Netz sichtbar sind. Die Digitalisierung und noch viel mehr der Aufschluss dieser Information für die Suche nach Material und die Arbeit damit setzen geeignete technische Verfahren voraus. Insbesondere die Analyse der entstehenden Daten und darauf aufsetzende Tools sind dabei von Bedeutung; an der Qualität der hier erzielten Ergebnisse bemisst sich zunehmend die Wahrnehmung von Bibliotheken und ihres Beitrags zur Informationsinfrastruktur.

Die scheinbare „Rückwärtsgewandtheit“ dieses Ansatzes (weil eben auf alte Sammlungen ausgerichtet) mag man bedauern, aber dies ist die Kehrseite der historisch gewachsenen Sammel- und Auswahlfunktion von Bibliotheken und Kulturerbeeinrichtungen allgemein. Natürlich bestehen daneben andere Aufgaben, die sich auf aktuelles Material im Netz beziehen, aber auf diesem Feld können Bibliotheken in der Breite nicht konkurrieren, sondern müssen sich in engeren Nischen abbilden.

Die Verfügbarkeit des Netzes als universeller Angebots- und Austauschplattform mit geringen Hürden für den Zugang ist in diesem Sinne auch eine große Chance für vom Vergessen bedrohtes Material aus Bibliotheken. Die retrospektive Zugänglichmachung der historischen Sammlungen darf so nicht nur einfach die Bereitstellung der digitalen Version als Imagewüste umfassen, sondern muss auch den Anspruch haben, erweiterte Zugänge zu dem Material unter Nutzung geeigneter Analyseverfahren im Zusammenspiel mit potenten Technologiepartnern zu ermöglichen.

Vernetzung und Persistenz. Der Abgleich von Datensets, die Übernahme, Analyse und Anreicherung von Daten und die Verknüpfung von Informationen mit entitätenbasierten Identifiern sind wesentliche Bausteine für eine zukünftige Infrastruktur. Das Erleben der kulturellen Domäne als ganzheitlichem, in sich semantisch verknüpftem, virtuellem Raum ist dabei das große Ziel. Diese Vernetzung von Information knüpft unmittelbar an die Digitalisierung und die Datenanalyse an: Die Ermittlung der Bezüge zwischen verschiedenen Datensets – wie beispielsweise Personen oder Orte, die in verschiedenen Kontexten vorkommen – erweitert den potentiell möglichen Zugang nochmals stark.

Relevante Expertise vor Ort. Ein weiteres, die genannten Punkte quasi klammerndes Merkmal von Bibliotheken ist ihre Expertise in der Beschreibung von Objekten, ihrer Kartierung auf der Informationslandkarte. Sichtbar wird dies u. a. an Instrumenten wie der GND und den Regelwerken als gemeinsamem übergreifenden Rahmen. Bibliotheken machen Daten auch vor Ort sichtbar und verständlich. Gleichzeitig verfügen die Bibliotheken über Abläufe, Verfahren und Kooperationsnetzwerke, die für die Sichtbarkeit lokal entstehender (und relevanter) Daten und Dienste (selbst erstellter, aber auch der von anderen) in größeren Kontexten sorgen (Hochschulrepositorien in ihrer Funktion als Hochschulbibliographie, die Ausstattung von Lehrenden mit IDs, …). Mit diesem Profil können Bibliotheken ein wichtiger Faktor vor Ort sein. Sie unterstützen Wissenschaftler oder Nutzer bei ihrem Bestreben, im Konzert der internationalen Wissenschaft eine möglichst hohe Sichtbarkeit und Akzeptanz zu gewinnen – die Bibliothek also als Brücke in die Informationswelt. Das klassische Instrument der Hochschulbibliographie wird so z. B. zu einem interessanten und für die Nutzer der Einrichtung relevanten neuen Dienst mit potentiell weiteren Funktionen bei der Verteilung und Verknüpfung von Daten. Diese Funktion kann aber nur gefüllt werden, wenn Daten aus der eigenen „Produktion“ mit anderen verknüpft sind – auch dazu bedarf es entsprechender Analyseverfahren.

Für Aktivitäten auf allen genannten Arbeitsfeldern ist die Verfügbarkeit der geeigneten technischen Werkzeuge eine entscheidende Voraussetzung. Einen besonderen Schwerpunkt bildet dabei das Thema Datenanalyse, das hier mit Fokus auf die Aktivitäten der DNB insbesondere im Bereich Text- und Datamining vertieft wird.

2 Schöne neue Big-Data-Welt: Text-/Datamining

Das Begriffspärchen Text-/Datamining (TDM) beschreibt etwas präziser und technischer, was das Schlagwort von den „Big Data“, in dessen Gefolge die schöne ältere Terminologie verstärkt auftaucht, inzwischen eher verdeckt: Es geht darum, große Datenmengen, die sich mit den traditionellen Verfahren und Instrumenten der Informationstechnik nicht mehr adäquat bearbeiten lassen, mit skalierenden Werkzeugen zu analysieren. Die Datenmengen, um die es dabei geht, sind gigantisch; es geht um Aufzeichnungsdaten aus maschinellen Prozessen, um Informationen zu komplexen Abläufen, um Nutzungsdaten, wie sie in täglichen Interaktionen entstehen. In solchen Datenströmen sollen Muster oder Abweichungen entdeckt werden, um z. B. daraus Vorhersagen für ein zukünftiges Verhalten (eines Käufers) abzuleiten. Gerade deshalb schwingen bei „Big Data“ – inzwischen in der freien Wirtschaft aber auch im öffentlichen Kontext (z. B. in Förderinitiativen) als Marketingbegriff eingeführt – auch negative Konnotationen etwa im Bereich der persönlichen Informationsfreiheit und Persönlichkeitsrechte mit.[5] Das Aufzeichnen von Nutzeraktivitäten und die Auswertung erfolgt durchaus auch schon im bibliothekarischen Kontext und ein Suchraumanbieter wie proquest wirbt ganz offen damit.[6]

Für den Begriff des „Data-/Textmining“ gibt es keine deutschsprachige begriffliche Entsprechung. Inhaltlich werden bei der Analyse großer Datenmengen oft statistische Auswertungen genutzt, um daraus Informationen für den Zugang, zu spezifischen Fragestellungen oder für die Weiterverarbeitung zu extrahieren. Von Vorteil ist dabei, wenn die Daten strukturiert vorliegen und so die Möglichkeit besteht, bestimmte Kennzeichen bei Objektbeschreibungen gezielt miteinander zu vergleichen. Gegenstand der Analysen sind oft kleine Informationspartikel wie Tweets, Blogs, auch andere Materialien wie Präsentationen oder Gebrauchstexte aller Art und es liegt nahe, die Techniken auch im Bereich der Webarchivierung zu nutzen.[7] Der „Big Data Hype“ führt auch dazu, dass das Analyseverfahren selbst – letztlich also die Algorithmik, die methodisch eingesetzt wird – stärker in den Blick rückt.

Wichtige Ergebnisse solcher Analyseläufe bestehen in der Aufdeckung von Relationen zu bereits vorhandener Information aus oder auch als Querbezüge zwischen einzelnen Objekten in dem jeweils analysierten Datenset. Kann ich Gruppen bilden, die ähnliche Aussagen enthalten oder sich auf bestimmte Gegenstände beziehen?[8]

In der Szene sind in den letzten Jahren aufgrund der geschilderten Anforderungen eine Reihe innovativer Werkzeuge entstanden, die als Schlagwörter die Szene bereichern wie der MapReduce-Algorithmus von Google (ein Paradigma zur parallelen Abarbeitung von Aufgaben in einem Cluster) und das darauf basierende Framework Hadoop der Apache Foundation zur Bereitstellung und Nutzung einer (verteilten) Rechnerinfrastruktur, aber auch NoSQL-Datenbanken wie MongoDB, die auf den klassischen relationalen Datenbankansatz verzichten und als strukturierter Datenspeicher bezeichnet werden können – ohne die Skalierungsprobleme einer SQL-basierten Datenbank.

TDM selbst ist kein neuer Ansatz und wird seit Langem in vielen Einsatzfeldern benutzt, beispielsweise auch bei der Bewertung der Qualität von Informationsobjekten für eine bestimmte Frage oder bei linguistischen Analysen. Die Aufgabe der Mustererkennung und des Mustervergleichs prädestiniert TDM aber auch für Einsätze im bibliothekarischen Umfeld. Neu ist im Kern, dass für solche Verfahren nun auch eine entsprechende skalierende Infrastruktur zu Verfügung steht. Diese selbst kann auch für ganz klassische Infrastrukturanforderungen genutzt werden, also z. B. für die Haltung einer konventionellen Datenbankinfrastruktur wie dem Wordcat.[9]

Außerhalb des Bibliothekswesens spielen automatische Verfahren zur Extraktion von Information aus Volltexten und die Bezugsetzung zu vorhandenen Wissenssystemen bereits heute eine wichtige Rolle. Sie werden insbesondere bei der Suche eingesetzt, um den Recall, also die Zahl und Breite eines Treffersets zu erhöhen. Diese Entwicklung beflügelt die Verfügbarkeit geeigneter Technologien für bibliothekarische Anwendungen zusätzlich.

3 Bedarfslage in der DNB

Es liegt auf der Hand, dass sich mit der starken Zunahme digital verfügbaren Materials zunehmend die Frage stellt, wie solche Methoden sinnvoll im Kontext der bibliothekarisch/bibliographischen Arbeit eingesetzt werden können. Dies gilt in besonderem Maße für die Deutsche Nationalbibliothek, die sich spätestens mit dem seit 2006 auch offiziell auf digitale Publikationen („Netzpublikationen“) ausgeweiteten Sammelauftrag einem früher ungeahnten Massenphänomen ausgesetzt sieht, das gleichzeitig aber aufgrund der digitalen Verfügbarkeit der Volltexte auch Potentiale für den Einsatz automatisierter Verfahren aufweist. Das soll anhand von Einsatzszenarien in der DNB im Folgenden vertieft werden. In der DNB werden natürlich aus der Palette möglicher Einsatzbereiche von Werkzeugen und auch der dahinter stehenden Verfahren im Bereich TDM nur einzelne Bausteine in spezifischen Arbeitsfeldern genutzt; es wird aber schon hier deutlich, dass ihr Einsatz sich lohnt.[10]

Im Fall der DNB muss allerdings festgehalten werden, dass hier die Anforderung an die Konfidenz der automatischen Erschließung besonders hoch ist – die Daten werden an Abnehmer weitergereicht, die zuverlässige Information erwarten.

4 Umsetzung in der DNB

Die DNB setzt seit 2009 verstärkt auf Daten-Analyseverfahren. Dabei standen und stehen die Metadaten im Mittelpunkt. Dieser Weg hängt eng mit der grundlegenden Funktion der DNB als nationalbibliographischer Verzeichniseinrichtung zusammen: Die DNB ist eine der weltweit größten Metadatenlieferanten für bibliographische Metadaten. Datennachnutzer erwarten – das zeigen Kundenforen immer wieder – regelwerksbasierte, formatkorrekt strukturierte Medadaten, nach Möglichkeit intellektuell beschriebene Objekte in gleichbleibend verlässlicher Qualität. Angesichts der eingehenden und gesammelten Mengen ist allerdings auch klar, dass dies zunehmend weniger auf traditionellen Wegen erfolgen kann. Von insgesamt rund 800.000 Objekten, die jedes Jahr in der Bibliothek eingehen, ist mit rasch steigender Tendenz schon jetzt nahezu die Hälfte digital (die DNB zählt hier nicht files, sondern abgrenzbare intellektuelle Ressourcen).

Die DNB ist so einerseits der Tradition verhaftet und wird daran gemessen, inwieweit sie die entsprechenden Anforderungen erfüllt, andererseits aber steht sie immer mehr unter dem Zwang, die bestehenden Prozesse durch (teil)automatisierte Abläufe zu ergänzen. Eine besondere Herausforderung besteht darin, hier die Balance zwischen einem in der Relation zum Gesamtsammelspektrum kleiner werdenden Anteil vertieft erschlossener Materialen und dem nur durch Automatismen erfassten Anteil zu halten bzw. ein zu weitgehendes Auseinanderbrechen der Erschließungsaktivitäten zu verhindern.[11]

Ein Prinzip der DNB ist, mit allen Materialarten grundsätzlich ähnlich umzugehen: Basis ist das Katalogsystem, in dem Daten zusammengeführt werden, auch eine vereinfachte Erschließung orientiert sich immer an dem bestehenden Regelwerk und an bestehenden Basisinstrumenten der Erschließung, nämlich der GND und der DDC als zentralen Knoten für Erschließungsleistungen aller Art. Die gewonnenen Daten reichern einerseits die Datendienste an, andererseits werden sie auch zur Verbesserung der Suche in den Angeboten der DNB genutzt.

Nach einigen Vorläufer-Projekten bildet das strategische Vorhaben PETRUS (Prozessunterstützende Software für die digitale Deutsche Nationalbibliothek) ab 2009 die Klammer, unter der verschiedene Ansätze zusammengezogen wurden.[12] Ziel von PETRUS war es, ein prozessorientiertes Vorgehen zur weitgehend automatischen Erschließung für letztlich alle Medienwerke im Sammelauftrag der DNB zu entwickeln. Dabei waren erweiterte Nutzeranforderungen für die Suche (z. B. die Feinerschließung auf Artikelebene) und für die Nachnutzung von Daten ebenso zu berücksichtigen wie nationalbibliographische Anforderungen. Ziel war und ist es nicht, die intellektuelle Erschließung zu ersetzen. Sie soll durch softwaregestützte Verfahren der automatischen Indexierung und Metadatenextraktion nachhaltig und effizient so unterstützt werden, dass sie sich auf das Notwendige konzentrieren kann.

Von Anfang an war kein monolithisches System angedacht, sondern eine modulare Zusammenführung verschiedener Ansätze und Verfahren. So wurden in das Vorhaben auch schon bestehende Ansätze eingebracht und sie ergänzen heute die Palette im Handlungsrepertoire. Mit der 2013 erfolgten organisatorischen Zusammenfassung in einer Organisationseinheit für die genannten Verfahren ist die Projektphase zwar abgeschlossen, aber die kontinuierliche Weiterentwicklung und Ergänzung der Verfahren ist konstitutiv für den Gesamtansatz.

Die verschiedenen Ansätze und ihr systematisches Zusammenspiel sind hier systematisch zusammengefasst.

Abb. 1:  Aktivitäten der DNB im Bereich Text-/Datenanalyse.
Abb. 1:

Aktivitäten der DNB im Bereich Text-/Datenanalyse.

5 Metadaten-basierte Ansätze in der DNB

Die Übernahme von Fremddaten ist eine in der DNB schon viele Jahre eingeführte Praxis, den größten Anteil machen die Marketinginformation des Buchhandels bzw. seiner Aggregatoren aus, aber in wachsendem Maße werden Daten auch aus Repositorien und anderen Quellen eingespielt.

Neben der Nutzung der Metadaten als Basisinformation für Erwerbungszwecke dienen sie auch zur weiteren Anreicherung: beispielsweise zur Übernahme von Erschließungsinformation – ggf. auch in anderen Erschließungsframeworks – aus anderen Verbundsystemen oder von internationalen Partnern oder zur Übernahme von verknüpften Digitalisaten von Titelblättern und Inhaltsverzeichnissen.

Ähnlich funktionierend, aber gewissermaßen noch „einfacher“ ist die „Vererbung“ intellektuell gewonnener Erschließungsinformation einer Druckausgabe auf eine Online-Publikation. Dazu müssen vorliegende Metadatensätze auch bei abweichenden Schreibweisen erkannt und zugeordnet werden. Davon profitiert der nur schwach erschlossene Metadatensatz einer Online-Publikation. In diesem Szenario setzt die DNB patternbasierte Abgleichsmethoden aus dem Umfeld des Katalogsystems ein. Der Abgleich lohnt sich: In der DNB wird jeder Neuzugang zunächst am vorhandenen Bestand abgeglichen, mehr als 40.000 Nachweise konnten 2013 ihre Information „vererben“.[13]

Ein ähnliches Vorgehen ist für die automatische Generierung von Datensätzen in der PND/GND kennzeichnend, wo beim Import neuer Titel Relationen zwischen Personennamen und Titeldaten erzeugt werden. Dahinter steht ein automatisierter Abgleich von aus Fremdquellen eingehenden Personennamen an der GND und die Verknüpfung bzw. Neuanlage von Namen. Entscheidend ist in diesem Feld die Qualitätssicherung in Form einer intellektuellen Prüfung nach Erreichen bestimmter Schwellwerte (z. B. wenn ein Name mit mehreren Titeln verknüpft und damit relevant ist).

Aber auch der Abgleich von mit unterschiedlichen Erschließungssystematiken behandelten Datensets ist lohnend; so werden in der DNB Erschließungsdaten, die auf dem Standardthesaurus Wirtschaft fußen, über eine Konkordanz automatisiert mit GND-Daten angereichert.

Auch hier kommen bislang traditionelle Werkzeuge des Metadatenmanagements zum Einsatz. Strukturierte Metadaten werden mit konventionellen Methoden feldweise abgeglichen und sequentiell in Erscheinungsbäumen zugeordnet. Allerdings wurde bei datenseitig intensiveren Anforderungen deutlich, dass die Laufzeiten dieser Verfahren sehr groß werden. Dies wird insbesondere dann hinderlich, wenn es um die Durchprobung variierender Algorithmen geht, d. h. um schnelle Ergebnisse aus großen Datenmengen, um den jeweils verfolgten Ansatz zu optimieren.

Vor diesem Hintergrund startete die DNB 2010 mit „Culturegraph“ einen neuen Ansatz,[14] um unter Nutzung der o. g. Entwicklungen im „Big-Data-Umfeld“ eine leistungsfähigere Infrastruktur zur Verfügung zu haben. In Zusammenarbeit insbesondere mit dem hbz (Hochschulbibliothekszentrum NRW) entstand so eine Plattform für große Datenmengen bestehend auf der einen Seite aus dem DataHub, das die Nutzerinteraktion übernimmt und die Daten bereitstellt, zum anderen dem eigentlichen Lab-Bereich (DataLab), in dem die Berechnungen erfolgen. Dazu wurde technisch ein Hadoop-Cluster genutzt, auf dem als nichtrelationale schemafreie Datenbank HBase läuft.[15]

Inhaltliche Ziele waren von Anfang an Datenabgleiche für Metadaten, also ihre Analyse, Verknüpfung und referenzierbare Bereitstellung als Linked Open Data.[16]

Eine laufende Anwendung im Rahmen von Culturegraph ist inzwischen die Analyse und Zusammenführung von den Daten der deutschen Verbundsysteme und anderer Datenquellen geworden: Zuletzt wurden über 140 Mio. Datensätze eingelesen, auf Ähnlichkeiten analysiert und geclustert, d. h. gebündelt. Über 30 % der Sätze sind Teil eines Bündels. Es liegt nahe, auf der Basis dieser Bündel die Zusammenführung von Katalogsystemen zu planen. Eine weitere an die oben genannte Möglichkeit des Austauschs von Erschließungsinformationen anknüpfende Aktivität ist die maschinelle Erstellung einer Konkordanz zwischen verschiedenen Erschließungssystemen, beispielsweise der Regensburger Verbundklassifikation (RVK) und der DDC.[17]

6 Maschinelle Generierung von Metadaten

Die automatische Generierung von Metadaten ist immer wieder probiert worden, oft mit unbefriedigenden Ergebnissen. Sie erfolgt in der Regel auf der Basis einer mehrstufigen Auswertung vorliegender Digitalisate (Layoutanalyse, syntaktische Analyse, semantischer Abgleich) und sie funktioniert dann besonders gut, wenn die prozessierte Materialart (z. B. Dissertationen) strikten Layout-Vorgaben folgt. In der DNB wird ein entsprechendes Verfahren der Innsbrucker Universität inzwischen mit guten Ergebnissen produktiv eingesetzt.[18]

7 (Voll)textbasierte Ansätze in der DNB

Wenn in den bisher genannten Verfahren im Ansatz jedenfalls vorhandene Metadaten den Ausgangspunkt für Analysen bilden, so sind es im Folgenden Verfahren, die auf vorhandenen oder eigens generierten Volltexten aufsetzen.

Einen Schwerpunkt bildet dabei die automatische Einordnung der Netzpublikationen in die Systematik der DDC-Sachgruppen (DNB-Sachgruppen). Die Kür stellt gewissermaßen die automatische Vergabe von Schlagwörtern auf Grundlage des kontrollierten Vokabulars der GND dar.[19]

In beiden Verfahren kommt ein im Rahmen einer europaweiten Ausschreibung ausgewähltes Verfahren der Firma averbis zum Einsatz, die Averbis Extraction Platform, die eine Weiterentwicklung des UIMA-Frameworks der Apache Foundation darstellt.[20] Je nach Einsatzbereich werden für das Anlernen der Software rein statistische Algorithmen genutzt, ist die Zahl der Terme (Schlagwortvergabe auf Basis der GND) zu groß, kommen linguistische Verfahren hinzu. Während die Vergabe der DNB-Sachgruppen mittlerweile im Routinebetrieb ist und für den größten Teil der Netzpublikationen eingesetzt wird, wird an einer flächendeckenden Einführung der automatisierten verbalen Erschließung für die Netzpublikationen noch gearbeitet. Weitere Arbeiten betreffen englischsprachige Dokumente sowie die Vergabe von Kurznotationen für medizinische Schriften.

In der Praxis zeigt sich immer wieder, dass komplette Volltexte sowohl unter Performanz als auch unter Ergebnisgesichtspunkten problematisch sind. Daher wird nun auf systematisch gezogene Ausschnitte rekurriert (insbesondere die Anfangspassagen bei Monographien, weil diese bereits in den Einleitungen oft die relevanten Informationen enthalten). Gleichzeitig wird an der weiteren Optimierung der Durchsatzgeschwindigkeit der Software gearbeitet, dabei setzt die Firma stark auf Werkzeuge aus dem Big-Data-Umfeld.[21]

8 Named Entity Recognition and Disambiguation (NERD)

Eine wichtige Anforderung in der Erschließung ist die Erkennung von Entitäten, nicht nur Personen, sondern auch Körperschaften, Orten oder auch Eigennamen aller Art. In diesem 2013/2014 in Zusammenarbeit mit dem Max-Planck-Institut für Informatik (Saarbrücken) (MPII) durchgeführten Vorhaben ging es darum, NERD prototypisch in der DNB einzuführen und die aus dem Verfahren resultierenden Potentiale für den Rechercheprozess zu evaluieren. Ein Schwerpunkt lag dabei auf der Erschließungsunterstützung durch die Nutzung der gewonnenen Entitäteninformationen z. B. durch das Vorschlagen möglicher Schlagworte.

Zu Grunde gelegt wurde das AIDA-Verfahren des MPII, das angepasst und optimiert wurde (insbesondere für die deutsche Sprache).[22] Als Wissensquelle zu Grunde gelegt wurden die Wikipedia sowie die GND; Letztere erwies sich dabei wegen der hohen Zahl von Eintragungen und der für diesen Zweck nicht ausreichenden Homogenität der Daten als von begrenztem Wert. Im Projekt wurden umfangreiche Datenbestände von DNB-Daten verarbeitet und Messungen zu Verarbeitungsgeschwindigkeit und Ergebnisqualität durchgeführt. Die praktische Einsetzbarkeit des Verfahrens und die prinzipielle Qualität der gewonnenen Daten konnten belegt werden.

Eine wesentliche Fragestellung des Projekts war die nach dem konkreten Nutzen des Verfahrens. Hierzu wurden zwei Demonstratoren entwickelt. Zum einen wurde der DNB-Bookviewer mit Entitätsinformationen zum aktuell betrachteten Dokument angereichert. Dabei zeigte sich, dass die Häufigkeit von Entitätserwähnungen in vielen Dokumenten relativ gering ist, sodass die Vorteile des Verfahrens nicht wirklich ausgespielt werden können. Bei dem zweiten Demonstrator wurde die Volltextrecherche um eine Entitätensuche ergänzt. Eine kleine Benutzerstudie belegte – wenig überraschend – die deutlich verbesserte Qualität der Suche aus der Perspektive des Nutzers – auch fehlerhafte Zuweisungen werden hier toleriert.[23]

Für die DNB bestätigt das Projekt vermutete Nutzeffekte beim Einsatz entsprechender Verfahren. Vor allem konnten Zweifel an der Leistungsfähigkeit solcher Ansätze, die nach Erfahrungen in früheren Projekten bestanden,[24] überzeugend aufgelöst werden. Damit liegt eine gute Ausgangsbasis vor, um nun im nächsten Schritt auf den produktiven Betrieb gerichtete Aktivitäten zu starten.

9 Resümee

In der DNB kommen sowohl klassische Verfahren des Metadatenvergleichs auf Basis der bibliographischen Datenbank zum Einsatz als auch Werkzeuge, die auf Technologien des TDM und damit auf Volltexten und ihrer Analyse basieren. Zum Teil werden die Ansätze auch konkurrierend eingesetzt, um die jeweiligen Vorzüge einzelner Vorgehensweisen besser zu verstehen.

TDM zeigt seine Relevanz besonders dann, wenn es um große Mengen geht. Seiner Herkunft und seinen Haupteinsatzgebieten nach sind kurze Texte oder Abschnitte geeigneter, dennoch können – bei geeigneten Vorverarbeitungsverfahren – auch umfangreichere Texte verarbeitet werden. Es ist absehbar, dass entsprechende Verfahren insbesondere da, wo eine granulare Erschließung derzeit in Bibliotheken kaum geleistet wird, nämlich im Bereich der Artikeldaten oder von Digitalisaten, noch deutlich relevanter werden.

Nicht alle Ansätze sind erfolgreich bzw. werden akzeptiert: So entstand im Rahmen eines Projekts in Zusammenarbeit mit einer Firma prototypisch ein Empfehlungssystem für Fachreferenten, das vor allem auf den bereits erschlossenen Daten, also der intellektuellen Erschließungspraxis der DNB aus vielen Jahren basierte. Mangelnde Indexerkonsistenz, zu viele neue Terme, Bedeutungsverschiebungen in der (Wissenschafts)Welt verhinderten aber eine Nachnutzung. Auf der Habenseite stehen aber ein deutlich besseres Problembewusstsein sowie vielversprechende Ansätze zur Visualisierung von Erschließungsergebnissen.

Derzeit werden viele Ressourcen auf das Thema Metadatenhaltung und Katalogisierung im internationalen Kontext konzentriert. Es ist zu hoffen, dass die laufenden Projekte auch auf diesem Feld – neben den Aktivitäten auf dem Gebiet der vormals lokalen Systeme – Effizienzgewinne erbringen. Entstehende Freiräume sollten genutzt werden u. a. für Weiterentwicklungen rund um LOD, verteilte Datenhaltung, Datenanalyse- und -verknüpfungswerkzeuge. Bezugsrahmen bleibt – jedenfalls für die DNB – das klassische Arbeitssystem zur Erschließung von Objekten, aber die entsprechenden Regelwerke müssen angepasst werden und die Ergebnisse aus automatischen Verfahren integrieren. Was die Verfahren der Datenanalyse selbst angeht, ist deutlich geworden, dass schon heute nennenswerte Materialmengen auf diese Weise bearbeitet werden, sowohl für die Erstellung von Metadaten als auch für die Anreicherung von Such-Indices. Die DNB wird hier ihre Anstrengungen noch intensivieren; ein wesentlicher Punkt ist dabei auch der Ausbau des Qualitätssicherungssystems, von dem aus die Anstöße für weitere Verfahrensoptimierungen gegeben werden.

About the author

Reinhard Altenhöner

Reinhard Altenhöner

Reinhard Altenhöner:

Published Online: 2015-08-07
Published in Print: 2015-08-17

© 2015 by Walter de Gruyter Berlin Boston

Downloaded on 30.11.2023 from https://www.degruyter.com/document/doi/10.1515/bd-2015-0107/html
Scroll to top button