Skip to content
BY 4.0 license Open Access Published by De Gruyter May 7, 2022

Bestandsentwicklung in der Webarchivierung – Einsatzmöglichkeiten für Methoden der Digital Humanities

Collection Development in Web Archiving – Support from the Digital Humanities
Katharina Schmid ORCID logo, Astrid Schoger ORCID logo and Konstanze Weimer ORCID logo
From the journal ABI Technik

Zusammenfassung

Die Auswahl archivwürdiger Websites für kuratierte Webarchivsammlungen ist ein ressourcenintensiver Prozess. Methoden der Digital Humanities, insbesondere der Text- und Linkanalyse, können gewinnbringend zur Unterstützung der Bestandsentwicklung in der selektiven Webarchivierung angewendet werden. In diesem Beitrag wird ein im Rahmen eines DFG-Projekts entwickeltes und an der Bayerischen Staatsbibliothek prototypisch umgesetztes Verfahren vorgestellt. Die Möglichkeiten und Herausforderungen des Einsatzes computergestützter Methoden beim Bestandsausbau in der Webarchivierung werden bewertet.

Abstract

Selecting websites for archiving is very resource intensive. Methods from the digital humanities, especially computational text and link analysis, can support the selection process. This paper presents an approach that was developed and implemented prototypically at the Bavarian State Library in the context of a research project funded by the German Research Foundation (DFG). It discusses opportunities and challenges of using computational methods for collection development in web archiving.

1 Digitale Bestandsentwicklung, Webarchivierung und Digital Humanities

In Bibliotheken, Archiven und anderen Kultur- und Wissenschaftseinrichtungen schreitet die digitale Bestandsentwicklung durch die Sammlung digitaler Objekte sowie die Digitalisierung eigener Bestände beziehungsweise die digitale Produktion immer weiter voran. Dies eröffnet ihnen neue Möglichkeiten, nicht nur ihre zentrale Dienstleistung, die Bereitstellung der Bestände in unterschiedlichsten Nutzungsszenarien, neu zu gestalten, sondern auch Arbeitsprozesse zu optimieren und zu automatisieren.

Digitale Sammlungen ermöglichen die Anwendung computergestützter Analyseverfahren, beispielsweise des Text- und Data-Mining, sowie die Anreicherung, Annotation und Vernetzung von Inhalten.[1] Dieser Mehrwert erschließt sich vor allem dann, wenn digitale Inhalte in verschiedene Anwendungskontexte integriert und „außerhalb oder innerhalb der technischen Infrastrukturen der Kultureinrichtungen vernetzt, angereichert, wieder- und weiterverwendet“ werden.[2] Damit sind die Einrichtungen vor die Herausforderung gestellt, die klassischen Prozesse der Medienbearbeitung für digitale Sammlungen anzupassen, um deren Mehrwerte gewinnbringend nutzen zu können. Beispielsweise verwenden Bibliotheken Verfahren der automatischen verbalen und klassifikatorischen Sacherschließung, die auf der Textanalyse der digital vorliegenden Inhaltsverzeichnisse, Zusammenfassungen oder Volltexte basieren.[3] Zudem bereiten sie Digitalisate so auf, dass die Daten für eigene Mehrwertdienste verwendet oder als Forschungsdaten nachgenutzt werden können. Über öffentlich zugängliche APIs (Application Programming Interface) wie IIIF (International Image Interoperability Framework) können so beispielsweise Abbildungen virtuell in verschiedene andere Angebote, die sich dieser öffentlichen Schnittstellen bedienen, integriert oder anderweitig zusammengeführt und weiterbearbeitet werden.[4] Die Einrichtungen beteiligen sich am Aufbau von Forschungsinfrastrukturen, die Daten zusammen mit Werkzeugen und dem nötigen Fachwissen zur wissenschaftlichen Nutzung anbieten. Sie garantieren zudem die Vertrauenswürdigkeit und die Langzeitverfügbarkeit der Daten.[5] Ein weiterer Anwendungsfall ist der Einsatz von computergestützten Methoden im Bereich der Bestandsentwicklung, der im Folgenden im Kontext der Webarchivierung untersucht werden soll.

Die Webarchivierung stellt einen Baustein in der digitalen Bestandsentwicklung von Bibliotheken, Archiven sowie Forschungseinrichtungen dar. National- und Regionalbibliotheken sowie Archive sammeln Websites aufgrund ihrer Verantwortung für die Sicherung des kulturellen Erbes, zum Teil legitimiert durch Pflichtabgaberegelungen (Pflichtexemplar-, Bibliotheks- sowie Archivgesetze).[6] Forschungseinrichtungen ergänzen ihre wissenschaftlichen Sammlungen mit Webarchiven.[7]

Ziel der Webarchivierung ist es, wissenschaftlich relevante Informationsressourcen des Web dauerhaft zu erhalten und zugänglich zu machen, indem kuratierte Sammlungen von Webarchiven angelegt und ihre Langzeitverfügbarkeit sichergestellt wird. Dafür werden zu archivierende Websites gemäß eines Sammel- und Archivierungsprofils gezielt ausgewählt. Dies können Websites mit regionalem Bezug sein oder wissenschaftlich relevante Websites eines fachlichen Sammelschwerpunkts. Ein Sonderfall des selektiven Harvestings stellen zeitlich begrenzte Sammlungen zu Ereignissen wie Naturkatastrophen, Wahlen oder Sportereignissen dar, sogenannte Event-Crawls. Zu unterscheiden ist dieses selektive Verfahren von Domain-Crawls, die die flächendeckende Sammlung und Archivierung aller Websites einer Top-Level-Domain (zum Beispiel ~.de) zum Ziel haben.

Ein von der Deutschen Forschungsgemeinschaft (DFG) gefördertes exploratives Projekt der Bayerischen Staatsbibliothek in Kooperation mit dem Lehrstuhl für Digital Humanities und dem Jean-Monnet-Lehrstuhl für Europäische Politik der Universität Passau widmet sich der Frage, wie innovative Verfahren und Werkzeuge der Digital Humanities auf Webarchive angewendet werden können. Dabei geht es einerseits darum, Webarchive für die wissenschaftliche Forschung aufzubereiten, und andererseits darum, den Bestandsausbau von Webarchiven durch computergestützte Verfahren zu vereinfachen und zu verbessern.

In diesem Beitrag soll gezeigt werden, wie Methoden der Text- und Linkanalyse, die auch zu den Digital Humanities zählen, gewinnbringend zur Unterstützung der Bestandsentwicklung in der selektiven Webarchivierung angewendet werden können. Im Abschnitt 2 werden zunächst einige Ansätze aus der Forschung zu (teil-)automatisierten Verfahren zum Bestandsausbau in der Webarchivierung vorgestellt, bevor im Abschnitt 3 der prototypische Einsatz der Linkkontextanalyse zur Erzeugung von Auswahllisten potentiell archivwürdiger Websites[8] beschrieben wird. Abschließend werden in Abschnitt 4 die Einsatzmöglichkeiten und Grenzen der computergestützten Bestandsentwicklung in der Webarchivierung bewertet.

2 Einsatz von computergestützten Methoden zur Unterstützung bei der Auswahl von Websites für Webarchive

Anhand einiger Beispiele soll gezeigt werden, welche computergestützten Methoden in der Webarchivierung erprobt und eingesetzt werden, um relevante Websites für spezifische Sammlungen zu identifizieren. Je nach Sammlung sind Relevanzkriterien unterschiedlich definiert, sodass auch die eingesetzten Methoden unterschiedlich ausfallen können. Wir beschreiben im Folgenden Methoden zur Auswahl anhand formaler Kriterien wie Sprache oder regionale Zugehörigkeit sowie inhaltlicher Kriterien wie ein Bezug zu bestimmten Themen oder Ereignissen.

2.1 Formale Selektionskriterien

Bei Domain-Crawls, die eine Top-Level-Domain (zum Beispiel ~.de) zu einem bestimmten Zeitpunkt abbilden sollen, lässt sich die Relevanz einer Publikation anhand der URL überprüfen. Für Länder oder Regionen, die nicht über eine eigene Top-Level-Domain verfügen oder deren Publikationen über verschiedene Domains verteilt sind, muss eine alternative Relevanzmetrik definiert werden. Das dänische Webarchiv beispielsweise durchsucht Websites nach dänischen Telefonnummern, um zu erkennen, ob Websites in Dänemark publiziert wurden.[9] Die Bibliotheca Alexandrina wiederum experimentiert mit maschinellem Lernen, um ägyptische Websites anhand landestypischer sprachlicher Eigenschaften von arabischsprachigen Websites anderer Länder zu unterscheiden.[10] Aufgrund der Größe des Web können auch breit angelegte Domain-Crawls nur einen Teil der vorhandenen Webinhalte erfassen. Es kann deshalb sinnvoll sein, den Crawl auf besonders beliebte Webpublikationen zu beschränken. Erste Hinweise auf die Popularität gibt die Anzahl der Links, die auf eine Publikation verweisen. Das Internet Archive wertet darum die Netzwerkstruktur des Web aus, um seine Crawls entsprechend auszurichten und bestimmte Inhalte zu priorisieren.[11]

2.2 Inhaltliche Selektionskriterien

Für die Erstellung thematischer Sammlungen muss die inhaltliche Relevanz einer Webressource beurteilt werden. Suchmaschinen greifen für diese Aufgabe unter anderem auf Metadaten zurück, mit denen Publikationen ausgezeichnet werden. Spezielle HTML Meta-Tags erlauben es, Zusatzinformationen wie Schlüsselwörter anzugeben, die den Inhalt des Dokuments beschreiben und es so leichter auffindbar machen. Auch Twitter-Hashtags ermöglichen es, Nachrichten in einen größeren Diskussionskontext zu stellen und thematisch zu verorten.

Das französische Institut national de l’audiovisuel[12] (INA) nutzt Twitter-Hashtags, um über die Twitter-API gezielt Tweets für seine COVID-19 Sammlung abzurufen. Schwierigkeiten ergeben sich daraus, dass der Sammelbereich des INA gesetzlich auf Frankreich beschränkt ist, bei einer Filterung anhand von Hashtags der Bezug zu Frankreich jedoch nicht immer garantiert ist, da Hashtags wie „COVID19“ länderübergreifend verwendet werden.[13] Auch die Anwendung DocNow,[14] die in einem US-amerikanischen Forschungsprojekt entwickelt wurde, nutzt Hashtags, um über die Twitter-API nach Beiträgen zu bestimmten Themen oder Ereignissen zu suchen. Anders als INA extrahiert die Anwendung aus den Tweets Links auf externe Ressourcen, archiviert diese jedoch nicht automatisch. Stattdessen sammelt DocNow Informationen aus den HTML Meta-Tags der einzelnen Dokumente und visualisiert diese, um den Kuratierenden einen Überblick über die potentiell archivwürdigen Ressourcen zu vermitteln und sie so bei der Auswahlentscheidung zu unterstützen.

Ergänzend oder falls Metadaten nicht zur Verfügung stehen, kann der Textinhalt der Webressourcen selbst ausgewertet werden. Als Relevanzmaß dient dabei die Häufigkeit bestimmter Begriffe, die vorab intellektuell für ein Thema oder ein Ereignis vorgegeben oder aus Beispieldokumenten extrahiert wurden. Auch Verfahren zur automatischen Erkennung und Klassifikation von Eigennamen (Named Entity Recognition, NER) kommen zum Einsatz, um beispielsweise Ortsnamen in Texten zu identifizieren und mit dem Schauplatz eines Ereignisses oder dem regionalen Fokus einer Sammlung abzugleichen. Das vom L3S Research Center der Universität Hannover entwickelte System iCrawl nutzt diese Verfahren für selektive Crawls.[15]

Event-Crawls als eine Sonderform der selektiven Crawls können ebenfalls auf diese Weise automatisiert werden. Die an der Virginia Tech entwickelte IDEAL Software beschreibt dazu Ereignisse über die drei Aspekte Zeitraum, Ort und Thema. Mittels Named Entity Recognition, Worthäufigkeitsanalysen und eigenen Heuristiken bestimmt die Software Ort, Thema und Publikationsdatum einer Webressource, gleicht diese mit dem anfangs definierten Ereignismodell ab und priorisiert sie entsprechend.[16]

Um den Crawlaufwand zu reduzieren, kann auch zunächst nur die verlinkende Ressource analysiert und von ihrem Relevanzwert auf den der Linkziele geschlossen werden. Dieses Vorgehen beruht auf der Annahme, dass Webseiten zu einem bestimmten Thema ihrerseits wieder auf thematisch ähnliche Seiten verweisen. Um den direkten inhaltlichen Bezug zum Linkziel sicherzustellen, berücksichtigen sowohl iCrawl als auch IDEAL den unmittelbaren Kontext des Links bei der Textanalyse besonders. Huurdeman et al. haben bereits gezeigt, dass selbst aus kleinen Textbestandteilen wie dem Ankertext eines Links aussagekräftige Beschreibungen von verlinkten Websites gewonnen werden können.[17]

Trotz dieser verschiedenen Ansätze konnten sich vollständig automatisierte Verfahren bisher nicht flächendeckend etablieren, was auch eine Interviewserie zu COVID-19-Sammlungen an acht europäischen Webarchiven und dem International Internet Preservation Consortium (IIPC)[18] zeigt: Die zu archivierenden Ressourcen werden weiterhin überwiegend intellektuell und in Abstimmung mit internen und externen Expertinnen und Experten ausgewählt. Wo automatische Auswahlverfahren zum Einsatz kommen, wie zum Beispiel beim Event-Crawl des portugiesischen Webarchivs zur Europawahl, sind zusätzliche intellektuelle Prüfschritte zur Qualitätssicherung nötig.[19] Was die Auswahlentscheidung so komplex macht, ist das Zusammenspiel verschiedener Selektionskriterien, zu denen neben der inhaltlichen und wissenschaftlichen Relevanz insbesondere auch der rechtliche Status gehören. Den bisher entwickelten automatisierten Verfahren gelingt es nicht, diese Kriterien umfassend abzubilden und dabei die einzelnen Aspekte sinnvoll gegeneinander abzuwägen.

3 Linkkontextanalyse zur Unterstützung des Bestandsausbaus in der Webarchivierung am Beispiel der Bayerischen Staatsbibliothek

Die Bayerische Staatsbibliothek betreibt selektive Webarchivierung. Der ressourcenintensive Prozess von der Auswahl, der Rechteklärung, der Sammlung und Archivierung bis zur formalen und inhaltlichen Erschließung und Bereitstellung zielt auf die Archivierung umfangreicherer Websites oder zumindest großer Teile einer Website, die aus einer Vielzahl von einzelnen Webpages bestehen, ab. Websites werden von Fachexpertinnen und -experten an der Bibliothek aufgrund ihrer wissenschaftlichen Relevanz und der thematischen Zugehörigkeit oder dem Bezug zu den Sammelschwerpunkten (Bavarica, Osteuropa, Musik-, Geschichts- und Altertumswissenschaften) ausgewählt und in der Regel fortlaufend ein- bis zweimal jährlich gecrawlt.

Im Rahmen des DFG-Projekts zur Anwendung von Methoden der Digital Humanities auf Webarchive wurde untersucht, wie dieser ressourcenintensive intellektuelle Auswahlprozess durch computerbasierte Methoden unterstützt werden kann. Das prototypisch umgesetzte Verfahren soll dabei die beschriebenen Rahmenbedingungen der Webarchivierung an der Bayerischen Staatsbibliothek berücksichtigen. Da Websites in Deutschland nur unter gewissen Voraussetzungen ohne Genehmigung der Urheberinnen und Urheber gecrawlt und ausgewertet werden dürfen,[20] soll hier ein Verfahren konzipiert werden, das nur auf den bereits archivierten Websites aufsetzt. Ferner soll der Auswahlprozess nicht vollständig automatisch ablaufen, sondern Fachexpertinnen und -experten aktiv einbeziehen. Sie entscheiden, welche Websites in die Sammlung aufgenommen werden, wobei sie der Algorithmus unterstützt. Zu diesem Zweck werden aus einer bestehenden Webarchivsammlung die ausgehenden Links und ihr textueller Kontext extrahiert und so aufbereitet, dass Fachexpertinnen und -experten gezielt nach weiteren Websites zu bestimmten Themen suchen können.

Die Qualität der Ausgangsdokumente beeinflusst den Erfolg des Verfahrens entscheidend. Geht man von einer kuratierten Sammlung aus, in der Webpublikationen von Fachexpertinnen und -experten ausgewählt und erschlossen wurden, so ist ihre inhaltliche und wissenschaftliche Relevanz sichergestellt. Da Webinhalte sehr dynamisch sind, sollte zudem von möglichst aktuellen Publikationen ausgegangen werden.

3.1 Datenextraktion

Das entwickelte prototypische Verfahren wurde auf einen Ausschnitt der Sammlung „Bavarica“ der Bayerischen Staatsbibliothek angewendet, die Websites mit Bayernbezug umfasst. Die Sammlung ist thematisch breit angelegt und orientiert sich an den von der Bayerischen Bibliographie abgedeckten Sachgebieten.[21] Schwerpunkte bilden Geschichte, Volkskunde, Kunst und Kultur, insbesondere Literatur, Religion, Natur und Umwelt, Gesellschaft und Soziales.[22] Nicht alle Themen aus der Sammlungsbeschreibung sind in gleichem Umfang vertreten. Für das Experiment wurden 117 archivierte Zeitschnitte von verschiedenen Websites ausgewählt, die im zweiten Halbjahr 2018 gecrawlt wurden.

Die archivierten Webdaten sind im standardisierten ISO-Format WARC[23] abgelegt, das als Containerformat unterschiedliche Datentypen und Dateiformate aufnehmen kann. Um Links und den sie umgebenden Kontext aus den archivierten HTML-Dateien zu extrahieren, wurde das Archives Unleashed Toolkit[24] verwendet. Die Auswertung der WARC-Dateien ergab rund 32 000 verschiedene externe Links.

Als Linkkontext wird hier der Textinhalt des Elternelements bezeichnet, in welches das HTML-Linkelement eingebettet ist. Abbildung 1 zeigt ein Beispiel: Der Link-Tag mit dem Ankertext „www.edzerdla.de“ ist eingebettet in einen Paragraph-Tag, der aus mehreren vollständigen Sätzen besteht und verrät, dass es sich um die Website eines fränkischen Mundartfestivals handelt.

3.2 Suche im Linkkontext

Für die Aufbereitung des Linkkontexts wurden zwei verschiedene Verfahren verwendet: Die Volltextsuche mit der Suchmaschine Apache Solr[25] sowie die Textähnlichkeitssuche mit der Suchmaschine vespa[26] und SentenceTransformers,[27] einem Software-Framework, das den semantischen Gehalt von Texten mithilfe neuronaler Netzwerke erfasst. Die beiden Ansätze unterscheiden sich grundlegend darin, wie sprach- und fachspezifisches Wissen dargestellt wird und in die Auswertung einfließt. Bei der Volltextindexierung wird das sprachliche Wissen intellektuell definiert und in den Regeln festgehalten, nach denen die Texte verarbeitet werden. Sie legen beispielsweise fest, wie Texte in einzelne Bestandteile zerlegt werden oder nach welchen Regeln Wörter auf ihren Wortstamm zurückgeführt werden. Hintergrundwissen muss ähnlich explizit vorgegeben werden. Ohne das nötige geographische Wissen liefert eine Suche nach dem Begriff „Bayern“ keinen Treffer für Dokumente, die nur den Namen der bayerischen Landeshauptstadt enthalten. Das taxonomische Verhältnis von München zu Bayern muss durch eine entsprechende Aufschlüsselung der Oberbegriffe in die verschiedenen Unterbegriffe dargestellt werden. Da Begriffe isoliert betrachtet und nicht in ihrem Kontext ausgewertet werden, kann nicht kontextabhängig zwischen den verschiedenen Bedeutungen eines Begriffs unterschieden werden. Eine Suche nach der Region „Franken“ enthält darum möglicherweise auch Suchtreffer, die sich auf die Währung „Franken“ beziehen.

Abb. 1: Link im Kontext (rotes Rechteck, eigene Hervorhebung) auf der archivierten Website des unterfränkischen Dialektinstituts (https://langzeitarchivierung.bib-bvb.de/wayback/20180704104419/http://udi.germanistik.uni-wuerzburg.de/wp/fraenkisches-mundartfestival-in-burgbernheim/)

Abb. 1:

Link im Kontext (rotes Rechteck, eigene Hervorhebung) auf der archivierten Website des unterfränkischen Dialektinstituts (https://langzeitarchivierung.bib-bvb.de/wayback/20180704104419/http://udi.germanistik.uni-wuerzburg.de/wp/fraenkisches-mundartfestival-in-burgbernheim/)

Bei Netzwerkmodellen wie den SentenceTransformers dagegen ist Sprach- und Fachwissen implizit in den Beispieldaten enthalten, mit denen das Modell trainiert wird. Die Gesetzmäßigkeiten, die das Modell während seines Trainings aus den Beispieldaten ableitet, schlagen sich nieder in Netzwerkparametern wie der Stärke der Verbindungen zwischen einzelnen Netzwerkkomponenten. Ein vortrainiertes Netzwerk kann mit eigenen Beispieldaten für spezielle Anwendungsfälle trainiert und angepasst werden. SentenceTransformers erhalten als Eingabe natürlichsprachige Sätze und bilden diese derart auf einen Vektorraum ab, dass Sätze mit ähnlichem semantischem Gehalt nahe beieinander liegen. Diese Repräsentation kann für die Textähnlichkeitssuche genutzt werden, indem der Kosinus des Winkels zwischen den Satzvektoren berechnet und als Maß für die inhaltliche Nähe genutzt wird. Anders als bei der Volltextsuche werden die Begriffe nicht einzeln, sondern in ihrem Satzzusammenhang ausgewertet, sodass mehrdeutige Begriffe kontextabhängig interpretiert werden können.

Die Anfragesyntax unterscheidet sich deutlich bei Volltext- und Textähnlichkeitssuche: Bei der Volltextsuche wird anhand einzelner Begriffe gesucht. Mit Apache Solr können Suchbegriffe je nach Konfiguration auch explizit ausgeschlossen oder durch Boolesche Operatoren verknüpft werden. Auf diese Weise können Suchergebnisse genauer eingegrenzt werden. Demgegenüber ist die Textähnlichkeitssuche mit natürlichsprachigen Sätzen etwas unpräziser.

Im Kontext von SentenceTransformers stehen verschiedene vortrainierte Modelle zur Verfügung. Um zu überprüfen, welche Ergebnisse mit vortrainierten Modellen bei überschaubarem Aufwand erreicht werden können, wurde zunächst darauf verzichtet, ein Modell für unseren speziellen Anwendungsfall nachzutrainieren. Das von uns ausgewählte Modell[28] erlaubt es, die semantische Ähnlichkeit von Sätzen über Sprachgrenzen hinweg zu beurteilen. Für Webarchivsammlungen, die vielfach Inhalte in verschiedenen Sprachen enthalten, ist diese Fähigkeit besonders relevant. Das Modell deckt unter anderem die Sprachen Deutsch und Englisch ab und eignet sich für die Beurteilung des extrahierten Linkkontexts, da es speziell auf die Beurteilung kurzer Textteile wie einzelner Sätze ausgerichtet ist. Es handelt sich zudem um ein kleineres Netzwerkmodell, das neben der Performanz auch auf Geschwindigkeit optimiert ist, was für die fortlaufende Indexierung neuer Linkkontexte von Vorteil ist.

Abb. 2: Textähnlichkeitssuche im Linkkontext mit Filterung nach thematischen Schlagworten. Die Ergebnisse sind pro Domain zusammengefasst

Abb. 2:

Textähnlichkeitssuche im Linkkontext mit Filterung nach thematischen Schlagworten. Die Ergebnisse sind pro Domain zusammengefasst

Neben der gezielten Suche nach bestimmten Themen ermöglicht unser Ansatz auch eine explorative Suche anhand von Facetten. Die verlinkten Ressourcen können dabei inhaltlich anhand der Schlagworte gefiltert werden, die für ihre jeweilige Ursprungswebsite im Rahmen der Sacherschließung zusätzlich zur Systematik der Bayerischen Bibliographie an der Bayerischen Staatsbibliothek intellektuell vergeben wurden. Für unseren Test wurden die sachlichen Metadaten über die öffentliche MarcXML-Schnittstelle des OPAC[29] abgerufen und die Linkextrakte entsprechend angereichert.

Automatische Relevanzbewertungen sollten bei Bedarf begründet und zumindest in Teilen intellektuell nachvollzogen werden können. Im Fall der Volltextsuche kann Transparenz dadurch erzeugt werden, dass neben der Ziel-URL auch der Linkkontext angezeigt wird, in dem die Suchbegriffe farblich hervorgehoben sind. Falsch-positive Ergebnisse aufgrund mehrdeutiger Begriffe sind so zum Beispiel leicht zu erkennen. Für die Textähnlichkeitssuche ist Transparenz schwerer herstellbar. Verhaltensmuster und Bewertungskriterien lassen sich nur indirekt erschließen, indem mehrere Anfragen gestellt und vergleichend ausgewertet werden.

3.3 Bewertung des Tests

Da das vorgestellte Verfahren der Suche im Linkkontext stark von der Qualität und Vielfalt der Ausgangsdokumente abhängt, eignet es sich vor allem zur weiteren Vervollständigung von Sammlungen in Themenbereichen, die bereits in ihren Grundzügen erfasst wurden. Für die systematische Erfassung neuer Themenfelder müssen zusätzliche Informationsquellen wie Verzeichnisse relevanter Einrichtungen, Vereinsregister oder Ähnliches herangezogen werden. Auch Vorschläge von Nutzerinnen und Nutzern oder Partnerinstitutionen spielen eine wichtige Rolle.

Sowohl für die Volltext- als auch für die Textähnlichkeitssuche gilt, dass die Verfahren nicht ohne Anpassungen von einem inhaltlichen Kontext auf den anderen übertragen werden können. Die Relevanzprüfung setzt je nach Sammlung unterschiedliches sprachliches und fachliches Hintergrundwissen voraus, weshalb Fachexpertinnen und -experten in die Kuratierung der Sammlung einbezogen werden. Vortrainierte Sprachmodelle wie die SentenceTransformers bringen ein gewisses Sprach- und Weltwissen mit, spezielles Domänenwissen wie zu den Regionen Bayerns kann jedoch auch bei ihnen nicht vorausgesetzt werden. Entsprechende Anpassungen der Verfahren sind aufwendig und können nur im engen Austausch mit den Fachexpertinnen und -experten vorgenommen werden.

Abb. 3: Anzeige eines Treffers in der Volltextsuche. Die Suchbegriffe „Dialekt“ und „Fränkisch“ sind im Linkkontext farblich hervorgehoben, um die intellektuelle Prüfung zu erleichtern

Abb. 3:

Anzeige eines Treffers in der Volltextsuche. Die Suchbegriffe „Dialekt“ und „Fränkisch“ sind im Linkkontext farblich hervorgehoben, um die intellektuelle Prüfung zu erleichtern

Um das vorgestellte Verfahren weiter auszubauen, sollten systematisch weitere Kriterien für die Archivierungswürdigkeit ermittelt werden. Eine wichtige Informationsquelle sind Experteninterviews mit den Kuratierenden: In ersten Gesprächen wurde bereits angemerkt, dass die Verfügbarkeit der verlinkten Ressource nach Möglichkeit vorab ermittelt und in die Bewertung einbezogen werden sollte. Da der arbeitsintensive Workflow der selektiven Webarchivierung in Gedächtnisorganisationen meistens komplette Websites oder zumindest größere Teile einer Website in den Fokus nimmt, sollte bei der Bewertung der Archivwürdigkeit zudem berücksichtigt werden, ob eine Domain nur einzelne oder mehrere inhaltlich relevante Dokumente umfasst. Hinweise darauf könnte die Anzahl der verschiedenen verlinkten URLs liefern, die zur selben Domain gehören, oder auch die Pfadtiefe der verlinkten URL.

Die Auswahl von geeigneten Websites für die Archivierung stellt nur einen Teilschritt des ressourcenintensiven Prozesses des kuratierten Bestandsausbaus in der Webarchivierung dar. Ein weiterer komplexer und zeitaufwendiger Schritt im Bereich der selektiven Webarchivierung unter strengen rechtlichen Vorgaben ist die Qualitätskontrolle der einzelnen Zeitschnitte auf Vollständigkeit der zentralen Inhalte, Konsistenz, Erhalt des Erscheinungsbilds und der Funktionalität.[30] Auch bei der Automatisierung beziehungsweise der Computerunterstützung dieses Arbeitsschrittes gibt es noch Entwicklungsbedarf und Potential für den Einsatz von Methoden der Digital Humanities.

4 Fazit und Ausblick

Im Projekt hat sich gezeigt, dass eine vollständige Automatisierung des Bestandsausbaus aufgrund des komplexen Zusammenspiels verschiedener Archivierungskriterien derzeit nicht umsetzbar ist. Es wurde darum ein Ansatz gewählt, bei dem Fachexpertinnen und -experten in ihrer intellektuellen Auswahlentscheidung unterstützt werden, indem die verfügbaren Angaben zu einer Webressource automatisch aufbereitet und strukturiert zur Entscheidungsfindung dargestellt werden.

Als hilfreich hat sich dabei ein iteratives Vorgehen erwiesen, bei dem zunächst ein Prototyp mit eingeschränkter Funktionalität entwickelt und gemeinsam mit den Fachexpertinnen und -experten als späteren Anwendern evaluiert wird. In einem ersten Schritt wurde versucht, die inhaltliche Relevanz durch computergestützte Verfahren zu ermitteln. Im prototypischen Einsatz können dann schrittweise zusätzliche Archivierungskriterien ermittelt, in Metriken gefasst und in die automatische Prüfung einbezogen werden. Auf diese Weise wird garantiert, dass die Anforderungen und das Expertenwissen der späteren Anwenderinnen und Anwender unmittelbar in die Entwicklung einfließen.

Im Hinblick auf neue Verfahren zur Relevanzbeurteilung, die auf künstlichen neuronalen Netzwerken basieren, wurde deutlich, dass die mangelnde Transparenz und Nachvollziehbarkeit derzeit noch eine große Hürde für den Einsatz im Bestandsausbau darstellt. Bei „Deep Learning“-Modellen, die anhand von Beispieldaten trainiert werden, besteht die Gefahr, dass sich Vorurteile und Unausgewogenheiten aus den Beispieldaten auch in den Sammlungen niederschlagen.[31] Hier müssen Methoden gefunden werden, um die Bewertungen durch das Netzwerk transparenter zu machen und so unerwünschte Bewertungskriterien leichter identifizieren zu können.

Zumindest vorläufig bleibt die letztliche Auswahlentscheidung für oder gegen die Aufnahme einer Website in eine kuratierte Sammlung damit eine intellektuelle, die von geschultem, erfahrenem Fachpersonal durchgeführt und von Werkzeugen wie den oben beschriebenen nur unterstützt werden kann. Dennoch bieten automatisierte Verfahren in Ergänzung und Kombination mit der intellektuellen Auswahl einen vielversprechenden Ansatz, um den Bestandsausbau in der Webarchivierung ressourceneffizienter zu gestalten.

Published Online: 2022-05-07
Published in Print: 2022-05-05

© 2022 Katharina Schmid, Astrid Schoger und Konstanze Weimer, publiziert von De Gruyter.

Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.

Scroll Up Arrow