Skip to content
Publicly Available Published by De Gruyter June 1, 2018

Ontologien als semantische Zündstufe für die digitale Musikwissenschaft?

Eine Bestandsaufnahme

Ontologies as a Semantic Booster for Digital Musicology? An Overview
Stefan Münnich ORCID logo

Zusammenfassung

Ontologien spielen eine zentrale Rolle für die formalisierte Repräsentation von Wissen und Informationen sowie für die Infrastruktur des sogenannten semantic web. Trotz früherer Initiativen der Bibliotheken und Gedächtnisinstitutionen hat sich die deutschsprachige Musikwissenschaft insgesamt nur sehr zögerlich dem Thema genähert. Im Rahmen einer Bestandsaufnahme werden neben der Erläuterung grundlegender Konzepte, Herausforderungen und Herangehensweisen bei der Modellierung von Ontologien daher auch vielversprechende Modelle und bereits erprobte Anwendungsbeispiele für eine ‚semantische‘ digitale Musikwissenschaft identifiziert.

Abstract

Ontologies play a crucial role for the formalised representation of knowledge and information as well as for the infrastructure of the semantic web. Despite early initiatives that were driven by libraries and memory institutions, German musicology as a whole has turned very slowly to the subject. In an overview the author addresses basic concepts, challenges, and approaches for ontology design and identifies models and use cases with promising applications for a ‚semantic‘ digital musicology.

1 Hinleitung und Motivation

In der von Tim Berners-Lee und anderen um die Jahrtausendwende formulierten Vision eines web of data,[1] auch bekannt als semantic web, kommt bei der Strukturierung und semantischen Anreicherung dieses projektierten Daten- und Wissensgeflechts[2] eine Schlüsselstellung den Ontologien zu (siehe Abb. 1). Wissen wird hier nicht durch zusammengeschaltete und kontextualisierte, verknüpfte Dokumente strukturiert, sondern durch die zusammengeschalteten und kontextualisierten Daten selbst.

Erfreulicherweise erkannten Bibliotheken und Gedächtnisinstitutionen bereits relativ früh das Potenzial von Ontologien für ihre Zwecke. Ihre Bestrebungen nach besseren Auffindbarkeits-, Integrations- und Verknüpfungsstrategien für ihre Metadaten, ihre diesbezüglichen Erfolge

Abb. 1 Schichtenmodell der Semantic-Web-Technologienhttps://www.w3.org/2007/03/layerCake.png. Copyright © 2007 W3C® (MIT, ERCIM, Keio, Beihang). http://www.w3.org/Consortium/Legal/2015/doc-license. Die Standardisierung der beteiligten Technologien wird vom W3-Consortium vorangetrieben (vgl. Abschnitt 6).

Abb. 1

Schichtenmodell der Semantic-Web-Technologien[3]

und Irrwege sowie steten Diskussionsbeiträge[4] blieben nicht ohne Konsequenz. Inzwischen wurden wiederholt Chancen und Grenzen semantischer Technologien im Bereich des kulturellen Erbes[5] und auch im Hinblick auf digitale (Text-)Editionen[6] im deutschsprachigen Raum diskutiert. Spätestens mit dem freien Symposium „Wissenssystematiken im digitalen Zeitalter“ auf der Jahrestagung 2017 der Gesellschaft für Musikforschung haben Fragen von Wissensstrukturen und Ontologien auch endgültig die deutschsprachige (digitale) Musikwissenschaft insgesamt erreicht.

Was aber genau sind Ontologien? Wie kann mit ihrer Hilfe Wissen systematisch aufbereitet, modelliert und verknüpft werden? Welche Herausforderungen bestehen bei einer solchen Modellierung? Und welche Modelle und Anwendungen existieren für eine digitale Musikwissenschaft? Im Folgenden sollen im Sinne einer Bestandsaufnahme Antwortmöglichkeiten auf diese Fragen aufgezeigt werden.

2 Was sind Ontologien?

Im informationstechnischen Sinn werden unter Ontologien[7] verschiedene Arten formaler Begriffssysteme zusammengefasst, die eine explizite und somit maschinell verarbeitbare Zuweisung von Bedeutung zu gemeinschaftlich definierten sprachlichen Konzepten ermöglichen.[8] Es geht also einfach gesprochen darum, wie menschliches Wissen regelbasiert beschrieben und formalisiert werden kann, um es einer maschinenverarbeitbaren Speicherung, Auswertung und Nachnutzung zugänglich zu machen.

Die unter diesem Begriff versammelten Ansätze werden entweder nach dem Grad ihrer semantischen Mächtigkeit oder nach der Spezifik ihres Anwendungsbereiches klassifiziert.[9] Im ersten Fall ergibt sich ein semantisches Spektrum von einfacheren lightweight ontologies wie Verzeichnissen und Katalogen mit kontrollierten Vokabularen (wie sie für Normdateien Anwendung finden) und Taxonomien über Thesauri hin zu semantisch ausdrucksstarken heavyweight ontologies, die die Anwendung formaler und logischer Operationen erlauben. Im zweiten Fall erhält man eine Gegenüberstellung von generischeren top-level ontologies und spezifischeren application ontologies sowie gegenstands- bzw. aufgabenbezogenen domain bzw. task ontologies.

In den meisten Fällen lassen sich solche Abgrenzungsversuche jedoch nicht strikt aufrechterhalten, da eine Verflechtung verschiedener Anwendungsbereiche stattfindet. Auch werden in einem engeren Begriffsverständnis häufig erst oberhalb von Thesauri klassifizierte Formalisierungen als Ontologien angesprochen.

3 Formalisierung von Wissen durch Ontologien

Ein wesentlicher Vorteil von Wissensrepräsentationen mittels Ontologien besteht in der grundlegenden Trennung von abstrakter Terminologie (terminological knowledge), individuellen Zuweisungen (assertional knowledge) sowie logischen Ableitungen (inferenced knowledge).[10]

Die formale, abstrakte Struktur der betrachteten Konzepte und ihrer Beziehungen zueinander beschreibt das terminologische Wissen. Hier wird gefragt: „Wie, also mit welchen Begriffen, spreche ich über den betrachteten Weltausschnitt?“ Je nach Perspektive, Fragestellung usw. kann es hier ganz unterschiedliche Begrifflichkeiten und Konzepte für ein und denselben Gegenstandsbereich geben. Grundsätzlich lassen sich bestimmte Grundbausteine der terminologischen Beschreibung beobachten: Zum einen Klassen (classes, entities), die Konzepte oder Dinge der realen Welt abstrakt bündeln, wie z. B. ‚Person‘, ‚Rolle‘, ‚Ereignis‘, ‚Werk‘[11]. Diese Klassen besitzen charakteristische Eigenschaften (attributes, properties), die sie näher spezifizieren. Attribute können auf einen einfachen Datenwert (literal) oder wiederum auf eine Klasse verweisen (relations). Gerade diese attributgesteuerten Relationen sind grundlegend für die Verknüpfung der Klassen untereinander. Ebenfalls in den Bereich des terminologischen Wissens zählen formale Definitionen von Grundannahmen (axioms) oder Einschränkungen (constraints), die eine logisch konsistente Verwendung von Attributen und Eigenschaften garantieren sollen.

Den Konzepten einer solchen abstrakten Struktur können modellierte Individuen, sogenannte Instanzen, zugewiesen werden. Die Gesamtheit aller Instanzen lässt sich als assertionales, zugewiesenes Wissen beschreiben, hinter dem die Frage steht: „Welche konkreten Behauptungen über den betrachteten Weltausschnitt kann ich mittels meiner Terminologie treffen?“. Einer Instanz der Klasse ‚Person‘ („Anton Webern“) könnte z. B. die konkrete Rolle „Komponist“ zugewiesen werden, mit der individuelle Kompositionsereignisse verknüpft sind, die auf verschiedene Kompositionen (Instanzen der Klasse ‚Werk‘) verweisen (vgl. Abb. 2). Der Vorgang könnte mit weiteren Rollen (z. B. „Dirigent“, „Leser“), Ereignissen usw. immer weiter ausdifferenziert werden. Dabei ist natürlich Vorsicht geboten: Derlei Aussagen über Entitäten der realen Welt sind immer subjektiven Zuweisungsakten unterworfen und müssen von einem anderen Standpunkt aus evtl. modifiziert, revidiert oder gar negiert werden.

Ihr volles Potenzial entfalten Ontologien, wenn zusätzlich inferiertes, implizites Wissen durch automatisierte logische Schlussfolgerungen abgeleitet und dem explizit bekannten Wissen hinzugefügt werden kann. Dies geschieht häufig durch den Einsatz sog. machine reasoner[12], die auf Grundlage der modellierten Relationen, Einschränkungen usw. derartige Ableitungen ermöglichen. Sie haben bei der Konsistenzprüfung von terminologischem und assertionalem Wissen eine wichtige Funktion: So können z. B. Zuordnungen von Instanzen zu sich gegenseitig ausschließenden Klassen aufgedeckt werden; ein durchaus trivialer, dennoch häufiger Fehler. Im Gegensatz zum assertionalen Wissen mit seinen bewussten Zuordnungen treten im Rahmen der Wissensinferenz vor allem die un(ter)bewussten Implikationen des Modells zu Tage, die kritisch hinterfragt und überprüft werden sollten.

4 Kritische Aspekte

Jede Modellierung und Nutzung von Ontologien steht vor grundlegenden Herausforderungen, von denen im Folgenden nur einige kurz erörtert werden sollen.

4.1 AAA-Paradigma („2 mal 3 ist 4 ...“)

Für im Web veröffentlichte Daten und Informationen gibt es keinen Verbraucherschutz. Es gilt das fundamentale Prinzip: „Anyone can say Anything about Any topic“ (AAA-Paradigma).[13] Laut Allemang und Hendler wird der römische Wachsamkeitsgrundsatz caveat emptor („möge der Käufer sich in Acht nehmen“) hier auf die Spitze getrieben zu einem caveat auditor, bei dem die Verantwortlichkeit für die Einordnung einer beliebigen Information auf deren Empfänger übertragen wird. Im Zusammenhang mit Ontologien bedeutet dies, dass bei der Wiederverwendung existierender Modelle die dort beschriebenen Konzepte sehr sorgsam und kritisch auf eine Anwendbarkeit und Übereinstimmung mit eigenen Konzepten überprüft werden müssen. Im Falle der Eigenmodellierung wiederum ist eine detaillierte Dokumentation der Bedeutung und Anwendungsfälle, mitunter auch der Nichtanwendungsfälle, geboten, um potenziellen Nutzern eine Einordnung und Bewertung zu erleichtern.

4.2 Surrogatcharakter

Es gibt mehr als einen „richtigen“ Weg, Wissensstrukturen mithilfe von Ontologien zu modellieren. Dies ist immer von dem Untersuchungsgegenstand, den darauf anzuwendenden Fragestellungen sowie der Perspektive, die der Untersuchende diesen gegenüber einnimmt, abhängig. Wenn jedwede Wissensrepräsentation per se nur ein reduziertes, vereinfachtes und somit unvollkommenes Modell des betrachteten Weltausschnitts darstellt, sind auch Ontologien stets von einer bestimmten, mehr oder weniger unvollkommenen Sicht- und Herangehensweise geprägt; sie können nicht allumfassend und abschließend sein.[14] Eine Modellierung sollte daher auch nicht diese unvermeidbare Reduktion letztendlich zu überwinden trachten, sondern – in vollem Bewusstsein ihrer Existenz – eine hinreichend genaue und den praktischen Aufwand vertretbare Annäherung an den betrachteten Weltausschnitt ermöglichen.

4.3 Explizität

Das Explizitmachen, das Explizitsein von Begriffen und Konzepten spielt eine entscheidende, nicht deutlich genug zu betonende Rolle. Sämtliche Bedeutungskontexte, die stets implizit Mitzudenken und Einzuordnen bereits die „hermeneutische Kompetenz“[15] menschlicher Akteure vor Herausforderungen stellen kann, müssen einer maschinellen Verarbeitung zugänglich gemacht werden. In gewissem Sinne wird eine solche Kompetenz bei der Modellierung durch die Annahme einer offenen Welt (open world assumption) simuliert. Dass z. B. eine Klasse eine bestimmte Eigenschaft nicht hat, bedeutet hier eben nicht, dass diese Eigenschaft nicht existiert (wie unter der Annahme einer geschlossenen Welt, closed world assumption), sondern lediglich, dass bislang keine explizite Aussage über sie getroffen wurde. Was unter Annahme einer geschlossenen Welt nicht explizit modelliert bzw. aus einem Modell auch nicht inferierbar ist, existiert für die Maschine schlichtweg nicht.

Allgemein wird die Auflösung und Beseitigung von Ambiguitäten durch die eineindeutige semantische Zuschreibung innerhalb von Ontologien klar begrüßt. Im Zweifelsfall muss das Modell nur soweit explizit sein, um in dem von ihm betrachteten Ausschnitt, in seiner Fragestellung eineindeutig zu sein. Allerdings besteht dabei die Gefahr, dass durch die Modellierung und Deutlichmachung einer bestimmten Bedeutungsebene die gerade in den Geisteswissenschaften oft bewusst verwendeten begrifflichen Ambivalenzen oder Mehrdeutigkeiten[16] auf einer anderen Ebene untergehen. Dieser Verlust der Unschärfe, der ‚Ambiguitätsdimensionen‘[17] eines Begriffs, die erst seine multiperspektivische Anwendung ermöglicht, kann mitunter zu seiner ‚Verarmung‘, seiner ‚Simplifizierung‘ führen. Die Schwierigkeit besteht also weniger in der faktischen, reduzierenden Modellierung eines Begriffs, als vielmehr in der expliziten Bewusstmachung und Abbildung der Vielschichtigkeit und Mannigfaltigkeit seiner Bedeutungen: Komplexität und Vielschichtigkeit bei gleichzeitiger Explizität.

4.4 Unsicherheiten, Argumente und Kontext

Unsicherheiten bilden ein zentrales Konzept und zuweilen auch Forschungsgegenstand der (digitalen) Geisteswissenschaften. Sie verhandeln zu großen Teilen Indizien, nicht Beweise, angefangen bei unklaren historischen Daten („Ende des 17. Jahrhunderts“) über Zuschreibungen von historischen Zeugnissen zu Personen, Gruppen oder Zeitabschnitten bis hin zu interpretativen Analysen von Musikstücken oder anderen Kunstwerken. In all diesen Fällen handelt es sich eben nicht um einfache ‚Rohdaten‘, sondern um ‚kontextualisierte Daten‘.[18] Auch Editionen, wollen sie mehr sein als nur das zugängliche Ablegen codierter Dateien, erzeugen kontextualisierte Daten, kontextualisiertes Wissen, das abgreifbar, verknüpfbar und weiterverwendbar aufbereitet werden muss.

Eine Möglichkeit, einen solchen Kontext formal abzubilden, wurde mit der Erweiterung CRMinf[19] für das CIDOC Conceptual Reference Model (CRM; siehe Abschnitt 7) eingeführt: Das dort spezifizierte Argumentation Model erlaubt eine explizit semantische Modellierung von Unsicherheiten durch die Zuordnung eines Wahrheitswerts (I6 Belief Value: wahr/falsch/unbekannt) zu einer Annahme (I2 Belief) über einen Sachverhalt (I4 Proposition Set). Durch Ableitung weiterer Annahmen (I5 Inference Making) könnte ein kompletter Argumentationsstrang (I1 Argumentation) abgebildet werden.

Es wird deutlich, dass für die geisteswissenschaftliche Nutzung intendierte Ontologien einen sehr hohen formalen Komplexitätsgrad aufweisen können, was sowohl bei ihrer Erstellung als auch späteren Nutzung zu einer sehr viel stärkeren Bindung zeitlicher Ressourcen führt.

5 Modellierungsschritte

Der Modellierungsprozess von Ontologien ist überhaupt ein zeit- und kostenintensiver Prozess, der in enger Rückkopplung von Spezialisten des betreffenden Fachgebiets (Domain-Experten) und Spezialisten im Bereich der Ontologie-Entwicklung durchgeführt werden sollte. Trotz diverser Ansätze und Methoden hat sich noch kein Standard-Vorgehensmodell etabliert, da stets individuelle Ausgangspunkte sowie Zielsetzungen berücksichtigt werden müssen. In der praktischen Anwendung hat sich jedoch ein an Modelle des software engineering angelehnter, vielfach rekursiv auszuführender Prozess aus sechs Schritten bewährt:[20]

  1. 1)

    Spezifikation & Analyse

  2. 2)

    Konzeptualisierung

  3. 3)

    Formalisierung

  4. 4)

    Implementierung

  5. 5)

    Evaluation

  6. 6)

    Dokumentation

Im ersten Schritt werden Motivation und Ziele der Modellierung zusammen mit den Domain-Experten analysiert. Die für die Domain-Experten wichtigen Konzepte werden danach aufgenommen und benötigte Klassen, Eigenschaften und deren Beziehungen zueinander festgehalten. Im darauffolgenden Formalisierungsschritt wird die Hierarchie dieser Konzepte definiert und in ein strukturiertes Modell gebracht (häufig noch per Hand auf Papier). Ebenfalls in diesen Formalisierungsprozess fällt die Festlegung, welche Konzepte aus anderen Ontologien übernommen und welche neu modelliert werden können. Das tatsächliche „Schreiben“ der Ontologie erfolgt in der Implementierungsphase. Dabei werden die formale Sprache, in der das Modell umgesetzt wird, die verwendete Software (Editor) und ggf. weitere Tools (z. B. ein reasoner) bestimmt. Während der Evaluationsphase werden sowohl die formale (durch Validierungstools oder Abfragen an das Datenset) als auch die inhaltliche (durch Feedback der Domain-Experten) Korrektheit sichergestellt. Im Zweifelsfall müssen hier zuvor gefällte Entscheidungen überdacht oder verworfen werden und der Prozess wird ab dem entsprechenden Schritt wiederholt. Oft wird eine den gesamten Prozess begleitende Dokumentation vernachlässigt, die u. a. die getroffenen Design-Entscheidungen und Bedeutungen der verwendeten Konzepte erläutert und nachvollziehbar macht. Wichtig bleibt, dass sämtliche Einzelschritte des Workflows Auswirkungen auf die modellierte Wissensstruktur haben.

6 Handwerkszeug: Von Turtle, OWL und SPARQL

Die vom W3-Consortium empfohlenen Standard-Beschreibungssprachen im Zusammenhang mit Ontologien sind RDF, RDFS und OWL, als Abfragesprache dient SPARQL.[21] Elementar ist hierbei die Verwendung sogenannter IRIs (Internationalized Resource Identifier) zur Bezeichnung von Klassen, Attributen, Relationen oder Instanzen. Diese global eineindeutigen Webadressen sind der digitale Fingerabdruck eines im Web repräsentierten Objekts, auch Ressource genannt, und ermöglichen so eine distinkte Identifizierung und Unterscheidung jeglicher Ressourcen.

Das Resource Description Framework (RDF) definiert eine simple, grundlegende Syntax für die Beschreibung von Ressourcen: <subject> <predicate> <object>. Jegliche Aussage wird in dieser dreiteiligen Form (Tripel) getätigt. Tripel können sowohl textuell in verschiedenen Serialisierungen (wie RDF/XML, Turtle, JSON-LD) als auch als gerichtete Graphen umgesetzt und dargestellt werden (vgl. Abb. 2).

Durch die Erweiterung RDF Schema (RDFS) werden begriffliche Basiskonzepte und -eigenschaften bereitgestellt, die elementare Aussagen über das zu modellierende Vokabular ermöglichen. Mithilfe von RDF-Syntax und RDFS-Vokabular lassen sich bereits lightweight ontologies wie Taxonomien modellieren: Konzepte können als Klassen und Unterklassen, Eigenschaften als Properties und Subproperties ausgewiesen und zueinander in Beziehung gesetzt werden.

Die Web Ontology Language (OWL)[22] erweitert RDF und RDF Schema um komplexe sprachliche Konstrukte und ermöglicht logische Operationen unterschiedlicher Komplexität, abhängig vom verwendeten OWL-‚Dialekt‘ (Lite, Description Logic DL, Full). OWL stellt somit die wichtigste Beschreibungssprache zur Konzeption semantisch ausdrucksmächtiger Ontologien dar. Bedeutende OWL-Konzepte sind mögliche Kardinalitäts- und Werteinschränkungen (restriction) sowie mengenlogische Verknüpfungen von Klassen (UND/ODER-Beziehungen).

Die Menge aller Tripel wird als RDF-Graph bezeichnet. Sie kann in spezialisierten Graphdatenbanken, sogenannten Triplestores,[23] gespeichert, verwaltet und verarbeitet werden. Dazu kommt häufig die standardisierte Anfragesprache SPARQL (SPARQL Protocol and RDF Query Language)[24] zum Einsatz, die komplexe Abfragen und Manipulationen von in RDF beschriebenen und strukturierten Daten ermöglicht. Von einigen, insgesamt aber noch zu wenigen Institutionen und Projekten werden bereits sog. SPARQL-Endpoints, also Zugriffspunkte auf ihre RDF-Datensätze, zur Verfügung gestellt.[25]

Abb. 2 Beispiel für einen RDF-Graph, der die Aussage „Webern hat die Rolle Komponist“ unter Annahme des fiktiven Namensraumes w: <http://example.org/webern#> abbildet, und die daran beteiligten konzeptuellen Ebenen (Instanzen, Terminologie und RDF Schema)

Abb. 2

Beispiel für einen RDF-Graph, der die Aussage „Webern hat die Rolle Komponist“ unter Annahme des fiktiven Namensraumes w: <http://example.org/webern#> abbildet, und die daran beteiligten konzeptuellen Ebenen (Instanzen, Terminologie und RDF Schema)

7 Qual der Wahl: Erprobte Ontologien und Modelle

Umso breiter der Konsens, auf dem die verwendeten Konzepte, Begrifflichkeiten und Beschreibungen beruhen, desto wahrscheinlicher ist auch eine breite An- und Wiederverwendung des Modells. Generell empfiehlt es sich, nur im Fall nicht vorhandener oder in Bezug auf die eigene Fragestellung nicht adäquat anwendbarer Konzepte diese selbst zu modellieren, anderenfalls, wo immer möglich, auf bereits bestehende Ontologien zurückzugreifen. Angesichts einer schwer zu überblickenden und in einem Printmedium kaum noch sinnvoll darstellbaren Menge[26] können Übersichtsseiten wie LODstats (http://stats.lod2.eu/vocabularies), Linked Open Vocabularies (http://lov.okfn.org/dataset/lov/) oder Open Metadata Registry (http://metadataregistry.org/) beim Auffinden existierender Modelle hilfreich sein.

Einige der bekanntesten und auch am häufigsten verknüpften Modelle sind Friend-of-a-Friend (FOAF: http://xmlns.com/foaf/spec/), die Ontologien der Dublin Core Metadata Initiative (DCMI: http://dublincore.org/specifications/) sowie das Simple Knowledge Organization System (SKOS: https://www.w3.org/TR/2009/REC-skos-reference-20090818/). Diese liefern mit ihren eher generischen Top-Level-Konzepten Anbindungsmöglichkeiten zwischen verschiedenen Projekten.

Im Bereich des kulturellen Erbes hat sich das von einer breiten und weiterhin wachsenden Community getragene, äußerst ausdrucksmächtige CIDOC Conceptual Reference Model (CIDOC CRM: http://www.cidoc-crm.org/) etabliert, das sogar als ISO-Norm (ISO 21127:2006 bzw. 21127:2014) standardisiert ist. Speziell ist hier der ereignisbasierte Ansatz, der den Prozess bzw. das Ereignis, z. B. die Herstellung eines Objekts, anstatt das Objekt selbst in den Vordergrund rückt. Um den konzeptuellen Austausch zwischen Museum und Bibliothek zu vereinfachen, wurde an dieses mittlerweile auch ein bibliografisches Modell der IFLA, die Functional Requirements for Bibliographic Records (FRBR), durch die objektorientierte Erweiterung FRBRoo angepasst.[27] Mit BIBFRAME, einer RDF-basierten Initiative der Library of Congress, wurden die Voraussetzungen für eine Transformation der von den Bibliotheken bislang nach MARC-Standards aufgenommenen Daten auf ontologiebasierte Strukturen gelegt.[28] Das Europeana Data Model for Cultural Heritage (EDM: http://pro.europeana.eu/page/edm-documentation) bietet mit seinem <Aggregation>-Konzept einen essentiellen Ansatz zur Integration heterogener Datenquellen, z. B. verschiedene Webressourcen oder Daten aus verschiedenen Projekten zu demselben Objekt (vgl. Abb. 3).[29] U. a. wurden aus einem der ersten vollständig mit dem EDM modellierten Datensätze über 40000 Objekte von MIMO (Musical Instrument Museums Online) in Europeana „aggregiert“.[30]

Abb. 3 Veranschaulichung des Aggregations-Modells des EDM am Beispiel eines MIMO-Datensatzes („Clavicorde lié dit de Lépante | Anonyme“)

Abb. 3

Veranschaulichung des Aggregations-Modells des EDM am Beispiel eines MIMO-Datensatzes („Clavicorde lié dit de Lépante | Anonyme“)

Interessanterweise standen bereits in der allerersten LOD Cloud-Darstellung aus dem Jahr 2007 (http://lod-cloud.net/versions/2007-05-01/lod-cloud.png) drei von damals insgesamt nur zwölf Datenpools im Zusammenhang mit Musik (MusicBrainz, DBtune und Jamendo). Im gleichen Jahr wurde durch eine Forschungsgruppe am Centre for Digital Music der Queen Mary University of London ein auf OWL basierendes, speziell auf musikalische Sachverhalte zugeschnittenes Modell, die Music Ontology (https://github.com/motools; vgl. Abb. 4), konzipiert und zur Diskussion gestellt.[32] Inzwischen existiert ein ganzes Ökosystem von erweiternden und ergänzenden Modellen (timeline, event, keys, tonality, symbolic notation, chord, temperament und audio features) um diese Ontologie. Sie muss mit ihren Ablegern als die derzeitige Standardontologie zur Modellierung und Beschreibung musikalischer Informationen gelten, die vor allem breite Anwendung bei der Konzeptualisierung von Musikempfehlungssystemen findet.[33][31]

Abb. 4 Grundklassen der Music Ontology (mo) und ihre Beziehungen (Ausschnitt)Nach Sandler, Mark; Raimond, Yves; Sutton, Christopher: Interlinking Music-Related Data on the Web. In: IEEE MultiMedia 16 (2) (2009), 54. Online unter https://doi.org/10.1109/MMUL.2009.29.

Abb. 4

Grundklassen der Music Ontology (mo) und ihre Beziehungen (Ausschnitt)[34]

8 Musikwissenschaftliche Anwendungsbeispiele

Im Bereich der Musikbibliotheken gibt es bemerkenswerte Initiativen für semantische Pilotprojekte an der SLUB Dresden (SLUBsemantics und D:SWARM)[35] und der BSB München, die u. a. einen SPARQL-Endpoint für die RISM-Daten initiiert hat und auch selbst hostet.[36] Die Deutsche Nationalbibliothek bietet ebenfalls seit 2010 einen Linked-Data-Service an, über den auch die Daten des Deutschen Musikarchivs in RDF bereitgestellt werden sollen.[37] Allerdings ist für eine großflächige Öffnung der deutschsprachigen Bibliothekslandschaft „abgesehen von [diesen] mutigen Vorstößen“ immer noch „zu wenig praktische Aktivität“ zu verzeichnen.[42][38]

Ähnliches gilt für die deutschsprachige Musikwissenschaft. So nimmt es kaum Wunder, dass zwei große internationale, kollaborative Vorhaben auf diesem Gebiet weit voraus sind und zu den Vorreitern zählen: Zum einen das Transforming-Musicology-Projekt in Großbritannien, das in vielzähligen Teilprojekten „the enhancement of Semantic Web provisions for musical study [...] augmenting existing controlled vocabularies (known as ontologies) for musical concepts“[39] vorantreibt. U. a. wird mit MELD (Music Encoding and Linked Data) das Zusammengehen von MEI-Codierung und Semantic-Web-Technologien erprobt.[40]

Zum anderen in Frankreich das DOREMUS-Projekt (Doing Reusable Musical Data), das „tools and methods to describe, publish, connect and contextualize music catalogues on the web of data“[41] entwickelt. Gerade das Modell von DOREMUS ist sehr eindrücklich durch seine Verbindung und Nachnutzung von Music Ontology, CIDOC CRM, FRBRoo und Europeana Data Model (vgl. Abb. 5).

Abb. 5 Das Zusammenspiel verschiedener Ontologien im DOREMUS-Projekt

Abb. 5

Das Zusammenspiel verschiedener Ontologien im DOREMUS-Projekt

Das finanzierungsfrei, aber mit großem Engagement durchgeführte Projekt JazzCats (Jazz Collection of Aggregated Triples)[43] verknüpft drei bestehende Datensätze, die Informationen zu jazzbezogenen Aufführungen, Aufnahmen und Personen enthalten (Body & Soul, WJazzD und LinkedJazz), über Konzepte der Music Ontology und macht sie über einen eigenen SPARQL-Endpoint zugänglich.

Im deutschsprachigen Raum wird für die am Max-Planck-Institut für Empirische Ästhetik vorbereitete „Fachgeschichte der deutschsprachigen Musikwissenschaft von ca. 1810 bis ca. 1990“ die Verwendung ontologiebasierter Datenbankstrukturen diskutiert.[44]

Zudem bauen zwei prominente Virtuelle Forschungsumgebungen auf Ontologiemodellen auf: die in Erlangen/Nürnberg entwickelte Wissenschaftliche Kommunikationsinfrastruktur WissKI (www.wiss-ki.eu) und das an der Universität Basel entwickelte Knora/SALSAH (www.knora.org und www.salsah.org).

WissKI nutzt eine eigene, auf OWL-DL zugeschnittene Umsetzung der CIDOC-CRM-Spezifikation, das sog. Erlangen CRM/OWL (http://erlangen-crm.org/). Das Projekt „Musikinstrumente sammeln – Das Beispiel Rück“ arbeitet die Korrespondenz rund um die musikhistorische Instrumentensammlung von Wilhelm Rück und Söhnen innerhalb von WissKI auf und stellt seine Forschungsdaten darüber zur Verfügung.[45]

Knora/SALSAH beruht auf einem Set von OWL-konformen Basis-Ontologien (Knora Ontologies), auf die projektspezifische Ontologien aufgesetzt werden können, einer Triplestore-Schnittstelle (Knora API Server), einem IIIF-kompatiblen Medienserver und der grafischen Benutzeroberfläche SALSAH. Die Anton-Webern-Gesamtausgabe macht ihre gesamte Forschungsdatenbank über SALSAH zugänglich und wird die Bestandteile ihrer Online-Editionen über eine durch die Schweizer Nationale Infrastruktur für Editionen (NIE-INE) implementierte Instanz von Knora/SALSAH organisieren und aufbereiten.[46]

9 Ausblick

Das Potenzial von Ontologien und semantischen Technologien steht außer Frage. Dennoch spielten sie in den Diskussionen um eine digitale Musikwissenschaft im deutschsprachigen Raum bislang keine bzw. eine eher unscheinbare Rolle. Die Gründe dafür sind vielfältig: Zum einen mag es an einer gewissen generellen Verspätungstendenz der Musikwissenschaft liegen, die ihr aufgrund der Komplexität ihres Untersuchungsgegenstandes aber auch gestattet sei. Mitverantwortlich sind aber sicher auch eine bislang unzureichende Infrastruktur und mangelnde generische Tools, die den Musikinstitutionen (und hier seien sämtliche Gedächtnisinstitutionen einschließlich Forschung, Editionen, Verlagen und Konzerthäusern gemeint) eine Hinwendung zu diesen relativ neuen Technologien erleichtern würden. Denn wenn es auch prinzipiell möglich ist, eine Ontologie auf Papier niederzuschreiben, werden mit steigender Komplexität, Ausdrucksmächtigkeit und Verknüpfungstiefe zunehmend unterstützende Systeme notwendig, die die Modellierung und Verwendung von Ontologien erleichtern, Workflows systematisieren, kollaboratives Arbeiten ermöglichen und sich wiederholende Prozesse (semi-)automatisieren. Spezialisierte Virtuelle Forschungsumgebungen bieten dazu einen vorstellbaren Ansatz. Ein weiterer sind Forschungsverbünde, Akademien, Bibliotheksverbünde, nationale Infrastrukturen, unter welchem Namen auch immer ein Zusammenspiel von Projekten, Bibliotheken, Museen, Archiven und auch Verlagen gefordert wird. Denn Ontologien sind per definitionem kollaborativ, die Herausforderungen nicht im Alleingang, nur gemeinschaftlich zu bewältigen.

Sollen also musikalisches Experten- und Fachwissen kontrolliert formalisiert und musikwissenschaftliche Wissensstrukturen explizit maschinenverarbeitbar gemacht werden und sollen dabei kritisch-differenzierte Sichtweisen und wissenschaftliche Perspektiven in ein solches Wissens- und Datengeflecht einfließen, so ist die 2014 von Jörg Wettlaufer aufgeworfene Frage, ob die Hinwendung zu Ontologien und semantischen Technologien der „nächste Schritt“[47] sei, durchaus zu bejahen. Der „Tipping Point“ aber, die Schwelle, ab der eine neue Technologie zündet und sich unumkehrbar durchsetzt,[48] steht in diesem Zusammenhang aus Sicht der (digitalen) Musikwissenschaft möglicherweise noch etwas weiter am Horizont als in anderen Bereichen, aber er ist immerhin sichtbar. In diesem Sinne, caveat auditor.

Online erschienen: 2018-6-1
Erschienen im Druck: 2018-6-1

© 2018 Walter de Gruyter GmbH, Berlin/Boston