In der zweiten ViFa-Förderphase wurden die Voraussetzungen geschaffen, um das Linguistik-Portal mit Linked Open Data (LOD) zu vernetzen. Diese Vernetzung generiert zweifachen Nutzen: Auf der einen Seite ermöglicht sie die Integration von linguistisch relevanten LOD-Ressourcen in die Portal-Suche, auf der anderen Seite ermöglicht sie durch die damit einhergehende Veröffentlichung von bibliografischen Metadaten die Nachnutzung dieser Daten durch die LOD-Community. Dank der stark gestiegenen Verbreitung und Akzeptanz von LOD werden immer mehr freie, linguistisch relevante Ressourcen nach Linked-Data-Prinzipien4 gemäß der entsprechenden W3C-Standards5 aufbereitet. So entstand auch die Linguistic Linked Open Data Cloud (LLOD-Cloud6), die auf eine Initiative der Open Linguistics Working Group der Open Knowledge Foundation zurückgeht und Ressourcen wie Wörterbücher, terminologische Repositorien oder Korpora zusammenfasst.
Von besonderem Interesse für die linguistische Forschung und dementsprechend für das Linguistik-Portal sind die Korpora. Dabei verstehen wir unter Korpora (Sprachkorpora, Textkorpora) im Volltext vorliegende Textsammlungen, die linguistisch annotiert sind, d. h. die enthaltenen Wörter oder anderen Sprachbestandteile sind mit Begriffen zur Beschreibung von sprachlichen Phänomenen markiert – z. B. „Kardinalzahl“, „Personalpronomen“. Als Markierung werden sogenannte Tags verwendet, und die Liste aller Tags stellt das Annotationsschema bzw. das Tag-Set eines Korpus dar.
Die Heterogenität7 der linguistischen Annotationen erschwert oft die Nachnutzung der linguistischen Ressourcen. Um die Interoperabilität möglichst vieler linguistischer Daten und Metadaten zu ermöglichen, wurden die Ontologies of Linguistic Annotations (OLiA8) entwickelt, die einen zentralen Knoten in der LLOD-Cloud darstellen. OLiA ist ein modular aufgebautes Metadaten-Repositorium, das aus verschiedenen Komponenten besteht9:
–
Das OLiA Reference Model definiert die Terminologie (z. B. „Nomen“ „Plural“, „Akkusativ“), die als Referenz für linguistische Annotationen dient.
–
Die OLiA Annotation Models sind formalisierte Versionen der integrierten Tag-Sets.
–
Die OLiA Linking Models definieren jeweils die Beziehungen zwischen einem gegebenen Annotation Model und dem OLiA Reference Model.
Da das OLiA Reference Model als Mediator zwischen den verschiedenen Annotationsschemata dient, spielt es bei der Vernetzung des Linguistik-Portals mit LOD eine besondere Rolle: Es wurde als Anker in der LLOD-Cloud ausgewählt. Als Anknüpfungspunkt auf Seiten des Linguistik-Portals fungiert der Schlagwort-Thesaurus der BLL, der seit über 40 Jahren an der UB Frankfurt gepflegt und weiterentwickelt wird. Der BLL-Thesaurus ist für diese neue Funktion prädestiniert, denn er liefert die Grundlage sowohl für die thematische Klassifikation des Linguistik-Portals als auch für die normierten Schlagwörter, die der intellektuellen Erschließung in den Modulen dienen. In der zweiten ViFa-Förderphase wurde der BLL-Thesaurus nach LOD-Prinzipien aufbereitet und mit dem OLiA Reference Model verknüpft. Der Fokus lag dabei auf der Bearbeitung der Thesaurus-Begriffe aus den Bereichen Syntax, Morphologie und Morphosyntax, die auch das Kernvokabular des OLiA Reference Model darstellen.
Die konkrete Umsetzung erfolgte, indem der vollständige Thesaurus zuerst in SKOS konvertiert wurde. SKOS10 steht dabei für „Simple Knowledge Organisation System“, was das standardmäßig genutzte Vokabular für die Linked-Data-konforme Repräsentation von Thesauri und anderen Dokumentationssprachen ist. Ein Terminologie-Modell kann allerdings nur dann reibungslos in die modulare Architektur von OLiA integriert werden, wenn es die formalen Kriterien einer Ontologie erfüllt. Die Beziehungen zwischen den Begriffen innerhalb des BLL-Thesaurus genügen jedoch nur bedingt diesen Kriterien11. Deshalb war eine inhaltliche und formale Aufarbeitung vonnöten: Der Thesaurus wurde basierend auf der SKOS-Version und unter Verwendung der Web Ontology Language (OWL) um eine komplexe, ontologische Struktur ergänzt.
Im Zuge dessen musste jedes Schlagwort hinsichtlich seiner Beschaffenheit intellektuell geprüft und ggf. überarbeitet werden. Einige Schlagwörter wurden umbenannt, andere wurden neu hierarchisiert. „Pronominalisierung“ ist im Thesaurus bspw. eine Subkategorie von „Pronominalsyntax“ und wurde in der Ontologie als Subklasse von „SyntaktischerProzess“ eingeordnet. Mehrdeutige Begriffe wurden als komplexe Klassen modelliert. So wurde z. B. das Thesaurus-Schlagwort „Komposition“, das sowohl den morphologischen Prozess als auch das Ergebnis dieses Prozesses abdeckt, als die Disjunktion zweier neu definierter Klassen – „Kompositum“ und „Komposition“ – dargestellt. Die so entstandene BLL-Ontologie eignet sich für maschinelle Reasoning-Verfahren und kann wiederum mit anderen Ontologien verknüpft werden.
Anschließend wurde ein Linking Model (BLL-OLiA-Linking) erstellt, das die Zuordnung von BLL-Schlagwörtern zu den einzelnen Begriffen aus dem OLiA Reference Model beinhaltet. Damit war die Grundlage für die Realisierung eines Anwendungsszenarios geschaffen: die Implementierung einer LOD-basierten Suchfunktion im Linguistik-Portal.
Um LOD-Ressourcen in das Linguistik-Portal einbinden zu können, wurde ein Webcrawler entwickelt. Ausgehend vom Metadaten-Portal Linghub12 durchsucht der Crawler zunächst die LLOD-Cloud nach relevanten Datensätzen. Indiziert werden alle LLOD-Ressourcen, die eine Verknüpfung mit dem OLiA Reference Model aufweisen. Das sind vor allem Korpora, deren Tag-Set bereits in die modulare Architektur von OLiA integriert wurde, aber auch Wörterbücher, die Begriffe aus dem OLiA Reference Model als linguistische Referenzterminologie einsetzen. Anschließend werden die indizierten Daten unter Verwendung des BLL-OLiA-Linking nach den entsprechenden BLL-Begriffen durchsucht. Die Ergebnisliste wird um die Linghub-Metadaten ergänzt und in das Linguistik-Portal exportiert. Durch die nahtlose Integration in die bestehende Katalogsuche wird ein niederschwelliger Zugriff auf LLOD-Ressourcen ermöglicht.
Zu Projektende erfolgte unter http://data.linguistik.de/bll die Veröffentlichung der LLOD-Edition des BLL-Thesaurus. Dazu gehören nicht nur die SKOS-Version und die BLL-Ontologie, sondern auch eine Datei, die die Zuordnung frei zugänglicher BLL-Titeldaten zu BLL-Schlagwörtern beinhaltet (BLL-Index). Die Veröffentlichung dieser Datei dient dabei der Realisierung eines zweiten Anwendungsszenarios: Der BLL-Index ermöglicht es, ausgehend von linguistischen Ressourcen in der LLOD-Cloud auf dem Wege über die Verknüpfung von OLiA zu BLL-Schlagwörtern auf thematisch qualifizierte Publikationen im Linguistik-Portal zu verlinken.
Comments (0)