Ontologien als semantische Zündstufe für die digitale Musikwissenschaft?

Eine Bestandsaufnahme

  • 1 Musikwissenschaftliches Seminar der Universität Basel, Petersgraben 27/29, CH-4051 Basel, Switzerland
Stefan MünnichORCID iD: https://orcid.org/0000-0002-0744-5374

Zusammenfassung

Ontologien spielen eine zentrale Rolle für die formalisierte Repräsentation von Wissen und Informationen sowie für die Infrastruktur des sogenannten semantic web. Trotz früherer Initiativen der Bibliotheken und Gedächtnisinstitutionen hat sich die deutschsprachige Musikwissenschaft insgesamt nur sehr zögerlich dem Thema genähert. Im Rahmen einer Bestandsaufnahme werden neben der Erläuterung grundlegender Konzepte, Herausforderungen und Herangehensweisen bei der Modellierung von Ontologien daher auch vielversprechende Modelle und bereits erprobte Anwendungsbeispiele für eine ‚semantische‘ digitale Musikwissenschaft identifiziert.

1 Hinleitung und Motivation

In der von Tim Berners-Lee und anderen um die Jahrtausendwende formulierten Vision eines web of data,1 auch bekannt als semantic web, kommt bei der Strukturierung und semantischen Anreicherung dieses projektierten Daten- und Wissensgeflechts2 eine Schlüsselstellung den Ontologien zu (siehe Abb. 1). Wissen wird hier nicht durch zusammengeschaltete und kontextualisierte, verknüpfte Dokumente strukturiert, sondern durch die zusammengeschalteten und kontextualisierten Daten selbst.

Erfreulicherweise erkannten Bibliotheken und Gedächtnisinstitutionen bereits relativ früh das Potenzial von Ontologien für ihre Zwecke. Ihre Bestrebungen nach besseren Auffindbarkeits-, Integrations- und Verknüpfungsstrategien für ihre Metadaten, ihre diesbezüglichen Erfolge

Abb. 1
Abb. 1

Schichtenmodell der Semantic-Web-Technologien3

Citation: Bibliothek Forschung und Praxis 42, 2; 10.1515/bfp-2018-0027

und Irrwege sowie steten Diskussionsbeiträge4 blieben nicht ohne Konsequenz. Inzwischen wurden wiederholt Chancen und Grenzen semantischer Technologien im Bereich des kulturellen Erbes5 und auch im Hinblick auf digitale (Text-)Editionen6 im deutschsprachigen Raum diskutiert. Spätestens mit dem freien Symposium „Wissenssystematiken im digitalen Zeitalter“ auf der Jahrestagung 2017 der Gesellschaft für Musikforschung haben Fragen von Wissensstrukturen und Ontologien auch endgültig die deutschsprachige (digitale) Musikwissenschaft insgesamt erreicht.

Was aber genau sind Ontologien? Wie kann mit ihrer Hilfe Wissen systematisch aufbereitet, modelliert und verknüpft werden? Welche Herausforderungen bestehen bei einer solchen Modellierung? Und welche Modelle und Anwendungen existieren für eine digitale Musikwissenschaft? Im Folgenden sollen im Sinne einer Bestandsaufnahme Antwortmöglichkeiten auf diese Fragen aufgezeigt werden.

2 Was sind Ontologien?

Im informationstechnischen Sinn werden unter Ontologien7 verschiedene Arten formaler Begriffssysteme zusammengefasst, die eine explizite und somit maschinell verarbeitbare Zuweisung von Bedeutung zu gemeinschaftlich definierten sprachlichen Konzepten ermöglichen.8 Es geht also einfach gesprochen darum, wie menschliches Wissen regelbasiert beschrieben und formalisiert werden kann, um es einer maschinenverarbeitbaren Speicherung, Auswertung und Nachnutzung zugänglich zu machen.

Die unter diesem Begriff versammelten Ansätze werden entweder nach dem Grad ihrer semantischen Mächtigkeit oder nach der Spezifik ihres Anwendungsbereiches klassifiziert.9 Im ersten Fall ergibt sich ein semantisches Spektrum von einfacheren lightweight ontologies wie Verzeichnissen und Katalogen mit kontrollierten Vokabularen (wie sie für Normdateien Anwendung finden) und Taxonomien über Thesauri hin zu semantisch ausdrucksstarken heavyweight ontologies, die die Anwendung formaler und logischer Operationen erlauben. Im zweiten Fall erhält man eine Gegenüberstellung von generischeren top-level ontologies und spezifischeren application ontologies sowie gegenstands- bzw. aufgabenbezogenen domain bzw. task ontologies.

In den meisten Fällen lassen sich solche Abgrenzungsversuche jedoch nicht strikt aufrechterhalten, da eine Verflechtung verschiedener Anwendungsbereiche stattfindet. Auch werden in einem engeren Begriffsverständnis häufig erst oberhalb von Thesauri klassifizierte Formalisierungen als Ontologien angesprochen.

3 Formalisierung von Wissen durch Ontologien

Ein wesentlicher Vorteil von Wissensrepräsentationen mittels Ontologien besteht in der grundlegenden Trennung von abstrakter Terminologie (terminological knowledge), individuellen Zuweisungen (assertional knowledge) sowie logischen Ableitungen (inferenced knowledge).10

Die formale, abstrakte Struktur der betrachteten Konzepte und ihrer Beziehungen zueinander beschreibt das terminologische Wissen. Hier wird gefragt: „Wie, also mit welchen Begriffen, spreche ich über den betrachteten Weltausschnitt?“ Je nach Perspektive, Fragestellung usw. kann es hier ganz unterschiedliche Begrifflichkeiten und Konzepte für ein und denselben Gegenstandsbereich geben. Grundsätzlich lassen sich bestimmte Grundbausteine der terminologischen Beschreibung beobachten: Zum einen Klassen (classes, entities), die Konzepte oder Dinge der realen Welt abstrakt bündeln, wie z. B. ‚Person‘, ‚Rolle‘, ‚Ereignis‘, ‚Werk‘11. Diese Klassen besitzen charakteristische Eigenschaften (attributes, properties), die sie näher spezifizieren. Attribute können auf einen einfachen Datenwert (literal) oder wiederum auf eine Klasse verweisen (relations). Gerade diese attributgesteuerten Relationen sind grundlegend für die Verknüpfung der Klassen untereinander. Ebenfalls in den Bereich des terminologischen Wissens zählen formale Definitionen von Grundannahmen (axioms) oder Einschränkungen (constraints), die eine logisch konsistente Verwendung von Attributen und Eigenschaften garantieren sollen.

Den Konzepten einer solchen abstrakten Struktur können modellierte Individuen, sogenannte Instanzen, zugewiesen werden. Die Gesamtheit aller Instanzen lässt sich als assertionales, zugewiesenes Wissen beschreiben, hinter dem die Frage steht: „Welche konkreten Behauptungen über den betrachteten Weltausschnitt kann ich mittels meiner Terminologie treffen?“. Einer Instanz der Klasse ‚Person‘ („Anton Webern“) könnte z. B. die konkrete Rolle „Komponist“ zugewiesen werden, mit der individuelle Kompositionsereignisse verknüpft sind, die auf verschiedene Kompositionen (Instanzen der Klasse ‚Werk‘) verweisen (vgl. Abb. 2). Der Vorgang könnte mit weiteren Rollen (z. B. „Dirigent“, „Leser“), Ereignissen usw. immer weiter ausdifferenziert werden. Dabei ist natürlich Vorsicht geboten: Derlei Aussagen über Entitäten der realen Welt sind immer subjektiven Zuweisungsakten unterworfen und müssen von einem anderen Standpunkt aus evtl. modifiziert, revidiert oder gar negiert werden.

Ihr volles Potenzial entfalten Ontologien, wenn zusätzlich inferiertes, implizites Wissen durch automatisierte logische Schlussfolgerungen abgeleitet und dem explizit bekannten Wissen hinzugefügt werden kann. Dies geschieht häufig durch den Einsatz sog. machine reasoner12, die auf Grundlage der modellierten Relationen, Einschränkungen usw. derartige Ableitungen ermöglichen. Sie haben bei der Konsistenzprüfung von terminologischem und assertionalem Wissen eine wichtige Funktion: So können z. B. Zuordnungen von Instanzen zu sich gegenseitig ausschließenden Klassen aufgedeckt werden; ein durchaus trivialer, dennoch häufiger Fehler. Im Gegensatz zum assertionalen Wissen mit seinen bewussten Zuordnungen treten im Rahmen der Wissensinferenz vor allem die un(ter)bewussten Implikationen des Modells zu Tage, die kritisch hinterfragt und überprüft werden sollten.

4 Kritische Aspekte

Jede Modellierung und Nutzung von Ontologien steht vor grundlegenden Herausforderungen, von denen im Folgenden nur einige kurz erörtert werden sollen.

4.1 AAA-Paradigma („2 mal 3 ist 4 ...“)

Für im Web veröffentlichte Daten und Informationen gibt es keinen Verbraucherschutz. Es gilt das fundamentale Prinzip: „Anyone can say Anything about Any topic“ (AAA-Paradigma).13 Laut Allemang und Hendler wird der römische Wachsamkeitsgrundsatz caveat emptor („möge der Käufer sich in Acht nehmen“) hier auf die Spitze getrieben zu einem caveat auditor, bei dem die Verantwortlichkeit für die Einordnung einer beliebigen Information auf deren Empfänger übertragen wird. Im Zusammenhang mit Ontologien bedeutet dies, dass bei der Wiederverwendung existierender Modelle die dort beschriebenen Konzepte sehr sorgsam und kritisch auf eine Anwendbarkeit und Übereinstimmung mit eigenen Konzepten überprüft werden müssen. Im Falle der Eigenmodellierung wiederum ist eine detaillierte Dokumentation der Bedeutung und Anwendungsfälle, mitunter auch der Nichtanwendungsfälle, geboten, um potenziellen Nutzern eine Einordnung und Bewertung zu erleichtern.

4.2 Surrogatcharakter

Es gibt mehr als einen „richtigen“ Weg, Wissensstrukturen mithilfe von Ontologien zu modellieren. Dies ist immer von dem Untersuchungsgegenstand, den darauf anzuwendenden Fragestellungen sowie der Perspektive, die der Untersuchende diesen gegenüber einnimmt, abhängig. Wenn jedwede Wissensrepräsentation per se nur ein reduziertes, vereinfachtes und somit unvollkommenes Modell des betrachteten Weltausschnitts darstellt, sind auch Ontologien stets von einer bestimmten, mehr oder weniger unvollkommenen Sicht- und Herangehensweise geprägt; sie können nicht allumfassend und abschließend sein.14 Eine Modellierung sollte daher auch nicht diese unvermeidbare Reduktion letztendlich zu überwinden trachten, sondern – in vollem Bewusstsein ihrer Existenz – eine hinreichend genaue und den praktischen Aufwand vertretbare Annäherung an den betrachteten Weltausschnitt ermöglichen.

4.3 Explizität

Das Explizitmachen, das Explizitsein von Begriffen und Konzepten spielt eine entscheidende, nicht deutlich genug zu betonende Rolle. Sämtliche Bedeutungskontexte, die stets implizit Mitzudenken und Einzuordnen bereits die „hermeneutische Kompetenz“15 menschlicher Akteure vor Herausforderungen stellen kann, müssen einer maschinellen Verarbeitung zugänglich gemacht werden. In gewissem Sinne wird eine solche Kompetenz bei der Modellierung durch die Annahme einer offenen Welt (open world assumption) simuliert. Dass z. B. eine Klasse eine bestimmte Eigenschaft nicht hat, bedeutet hier eben nicht, dass diese Eigenschaft nicht existiert (wie unter der Annahme einer geschlossenen Welt, closed world assumption), sondern lediglich, dass bislang keine explizite Aussage über sie getroffen wurde. Was unter Annahme einer geschlossenen Welt nicht explizit modelliert bzw. aus einem Modell auch nicht inferierbar ist, existiert für die Maschine schlichtweg nicht.

Allgemein wird die Auflösung und Beseitigung von Ambiguitäten durch die eineindeutige semantische Zuschreibung innerhalb von Ontologien klar begrüßt. Im Zweifelsfall muss das Modell nur soweit explizit sein, um in dem von ihm betrachteten Ausschnitt, in seiner Fragestellung eineindeutig zu sein. Allerdings besteht dabei die Gefahr, dass durch die Modellierung und Deutlichmachung einer bestimmten Bedeutungsebene die gerade in den Geisteswissenschaften oft bewusst verwendeten begrifflichen Ambivalenzen oder Mehrdeutigkeiten16 auf einer anderen Ebene untergehen. Dieser Verlust der Unschärfe, der ‚Ambiguitätsdimensionen‘17 eines Begriffs, die erst seine multiperspektivische Anwendung ermöglicht, kann mitunter zu seiner ‚Verarmung‘, seiner ‚Simplifizierung‘ führen. Die Schwierigkeit besteht also weniger in der faktischen, reduzierenden Modellierung eines Begriffs, als vielmehr in der expliziten Bewusstmachung und Abbildung der Vielschichtigkeit und Mannigfaltigkeit seiner Bedeutungen: Komplexität und Vielschichtigkeit bei gleichzeitiger Explizität.

4.4 Unsicherheiten, Argumente und Kontext

Unsicherheiten bilden ein zentrales Konzept und zuweilen auch Forschungsgegenstand der (digitalen) Geisteswissenschaften. Sie verhandeln zu großen Teilen Indizien, nicht Beweise, angefangen bei unklaren historischen Daten („Ende des 17. Jahrhunderts“) über Zuschreibungen von historischen Zeugnissen zu Personen, Gruppen oder Zeitabschnitten bis hin zu interpretativen Analysen von Musikstücken oder anderen Kunstwerken. In all diesen Fällen handelt es sich eben nicht um einfache ‚Rohdaten‘, sondern um ‚kontextualisierte Daten‘.18 Auch Editionen, wollen sie mehr sein als nur das zugängliche Ablegen codierter Dateien, erzeugen kontextualisierte Daten, kontextualisiertes Wissen, das abgreifbar, verknüpfbar und weiterverwendbar aufbereitet werden muss.

Eine Möglichkeit, einen solchen Kontext formal abzubilden, wurde mit der Erweiterung CRMinf19 für das CIDOC Conceptual Reference Model (CRM; siehe Abschnitt 7) eingeführt: Das dort spezifizierte Argumentation Model erlaubt eine explizit semantische Modellierung von Unsicherheiten durch die Zuordnung eines Wahrheitswerts (I6 Belief Value: wahr/falsch/unbekannt) zu einer Annahme (I2 Belief) über einen Sachverhalt (I4 Proposition Set). Durch Ableitung weiterer Annahmen (I5 Inference Making) könnte ein kompletter Argumentationsstrang (I1 Argumentation) abgebildet werden.

Es wird deutlich, dass für die geisteswissenschaftliche Nutzung intendierte Ontologien einen sehr hohen formalen Komplexitätsgrad aufweisen können, was sowohl bei ihrer Erstellung als auch späteren Nutzung zu einer sehr viel stärkeren Bindung zeitlicher Ressourcen führt.

5 Modellierungsschritte

Der Modellierungsprozess von Ontologien ist überhaupt ein zeit- und kostenintensiver Prozess, der in enger Rückkopplung von Spezialisten des betreffenden Fachgebiets (Domain-Experten) und Spezialisten im Bereich der Ontologie-Entwicklung durchgeführt werden sollte. Trotz diverser Ansätze und Methoden hat sich noch kein Standard-Vorgehensmodell etabliert, da stets individuelle Ausgangspunkte sowie Zielsetzungen berücksichtigt werden müssen. In der praktischen Anwendung hat sich jedoch ein an Modelle des software engineering angelehnter, vielfach rekursiv auszuführender Prozess aus sechs Schritten bewährt:20

  1. 1)Spezifikation & Analyse
  2. 2)Konzeptualisierung
  3. 3)Formalisierung
  4. 4)Implementierung
  5. 5)Evaluation
  6. 6)Dokumentation

Im ersten Schritt werden Motivation und Ziele der Modellierung zusammen mit den Domain-Experten analysiert. Die für die Domain-Experten wichtigen Konzepte werden danach aufgenommen und benötigte Klassen, Eigenschaften und deren Beziehungen zueinander festgehalten. Im darauffolgenden Formalisierungsschritt wird die Hierarchie dieser Konzepte definiert und in ein strukturiertes Modell gebracht (häufig noch per Hand auf Papier). Ebenfalls in diesen Formalisierungsprozess fällt die Festlegung, welche Konzepte aus anderen Ontologien übernommen und welche neu modelliert werden können. Das tatsächliche „Schreiben“ der Ontologie erfolgt in der Implementierungsphase. Dabei werden die formale Sprache, in der das Modell umgesetzt wird, die verwendete Software (Editor) und ggf. weitere Tools (z. B. ein reasoner) bestimmt. Während der Evaluationsphase werden sowohl die formale (durch Validierungstools oder Abfragen an das Datenset) als auch die inhaltliche (durch Feedback der Domain-Experten) Korrektheit sichergestellt. Im Zweifelsfall müssen hier zuvor gefällte Entscheidungen überdacht oder verworfen werden und der Prozess wird ab dem entsprechenden Schritt wiederholt. Oft wird eine den gesamten Prozess begleitende Dokumentation vernachlässigt, die u. a. die getroffenen Design-Entscheidungen und Bedeutungen der verwendeten Konzepte erläutert und nachvollziehbar macht. Wichtig bleibt, dass sämtliche Einzelschritte des Workflows Auswirkungen auf die modellierte Wissensstruktur haben.

6 Handwerkszeug: Von Turtle, OWL und SPARQL

Die vom W3-Consortium empfohlenen Standard-Beschreibungssprachen im Zusammenhang mit Ontologien sind RDF, RDFS und OWL, als Abfragesprache dient SPARQL.21 Elementar ist hierbei die Verwendung sogenannter IRIs (Internationalized Resource Identifier) zur Bezeichnung von Klassen, Attributen, Relationen oder Instanzen. Diese global eineindeutigen Webadressen sind der digitale Fingerabdruck eines im Web repräsentierten Objekts, auch Ressource genannt, und ermöglichen so eine distinkte Identifizierung und Unterscheidung jeglicher Ressourcen.

Das Resource Description Framework (RDF) definiert eine simple, grundlegende Syntax für die Beschreibung von Ressourcen: <subject> <predicate> <object>. Jegliche Aussage wird in dieser dreiteiligen Form (Tripel) getätigt. Tripel können sowohl textuell in verschiedenen Serialisierungen (wie RDF/XML, Turtle, JSON-LD) als auch als gerichtete Graphen umgesetzt und dargestellt werden (vgl. Abb. 2).

Durch die Erweiterung RDF Schema (RDFS) werden begriffliche Basiskonzepte und -eigenschaften bereitgestellt, die elementare Aussagen über das zu modellierende Vokabular ermöglichen. Mithilfe von RDF-Syntax und RDFS-Vokabular lassen sich bereits lightweight ontologies wie Taxonomien modellieren: Konzepte können als Klassen und Unterklassen, Eigenschaften als Properties und Subproperties ausgewiesen und zueinander in Beziehung gesetzt werden.

Die Web Ontology Language (OWL)22 erweitert RDF und RDF Schema um komplexe sprachliche Konstrukte und ermöglicht logische Operationen unterschiedlicher Komplexität, abhängig vom verwendeten OWL-‚Dialekt‘ (Lite, Description Logic DL, Full). OWL stellt somit die wichtigste Beschreibungssprache zur Konzeption semantisch ausdrucksmächtiger Ontologien dar. Bedeutende OWL-Konzepte sind mögliche Kardinalitäts- und Werteinschränkungen (restriction) sowie mengenlogische Verknüpfungen von Klassen (UND/ODER-Beziehungen).

Die Menge aller Tripel wird als RDF-Graph bezeichnet. Sie kann in spezialisierten Graphdatenbanken, sogenannten Triplestores,23 gespeichert, verwaltet und verarbeitet werden. Dazu kommt häufig die standardisierte Anfragesprache SPARQL (SPARQL Protocol and RDF Query Language)24 zum Einsatz, die komplexe Abfragen und Manipulationen von in RDF beschriebenen und strukturierten Daten ermöglicht. Von einigen, insgesamt aber noch zu wenigen Institutionen und Projekten werden bereits sog. SPARQL-Endpoints, also Zugriffspunkte auf ihre RDF-Datensätze, zur Verfügung gestellt.25

Abb. 2
Abb. 2

Beispiel für einen RDF-Graph, der die Aussage „Webern hat die Rolle Komponist“ unter Annahme des fiktiven Namensraumes w: <http://example.org/webern#> abbildet, und die daran beteiligten konzeptuellen Ebenen (Instanzen, Terminologie und RDF Schema)

Citation: Bibliothek Forschung und Praxis 42, 2; 10.1515/bfp-2018-0027

7 Qual der Wahl: Erprobte Ontologien und Modelle

Umso breiter der Konsens, auf dem die verwendeten Konzepte, Begrifflichkeiten und Beschreibungen beruhen, desto wahrscheinlicher ist auch eine breite An- und Wiederverwendung des Modells. Generell empfiehlt es sich, nur im Fall nicht vorhandener oder in Bezug auf die eigene Fragestellung nicht adäquat anwendbarer Konzepte diese selbst zu modellieren, anderenfalls, wo immer möglich, auf bereits bestehende Ontologien zurückzugreifen. Angesichts einer schwer zu überblickenden und in einem Printmedium kaum noch sinnvoll darstellbaren Menge26 können Übersichtsseiten wie LODstats (http://stats.lod2.eu/vocabularies), Linked Open Vocabularies (http://lov.okfn.org/dataset/lov/) oder Open Metadata Registry (http://metadataregistry.org/) beim Auffinden existierender Modelle hilfreich sein.

Einige der bekanntesten und auch am häufigsten verknüpften Modelle sind Friend-of-a-Friend (FOAF: http://xmlns.com/foaf/spec/), die Ontologien der Dublin Core Metadata Initiative (DCMI: http://dublincore.org/specifications/) sowie das Simple Knowledge Organization System (SKOS: https://www.w3.org/TR/2009/REC-skos-reference-20090818/). Diese liefern mit ihren eher generischen Top-Level-Konzepten Anbindungsmöglichkeiten zwischen verschiedenen Projekten.

Im Bereich des kulturellen Erbes hat sich das von einer breiten und weiterhin wachsenden Community getragene, äußerst ausdrucksmächtige CIDOC Conceptual Reference Model (CIDOC CRM: http://www.cidoc-crm.org/) etabliert, das sogar als ISO-Norm (ISO 21127:2006 bzw. 21127:2014) standardisiert ist. Speziell ist hier der ereignisbasierte Ansatz, der den Prozess bzw. das Ereignis, z. B. die Herstellung eines Objekts, anstatt das Objekt selbst in den Vordergrund rückt. Um den konzeptuellen Austausch zwischen Museum und Bibliothek zu vereinfachen, wurde an dieses mittlerweile auch ein bibliografisches Modell der IFLA, die Functional Requirements for Bibliographic Records (FRBR), durch die objektorientierte Erweiterung FRBRoo angepasst.27 Mit BIBFRAME, einer RDF-basierten Initiative der Library of Congress, wurden die Voraussetzungen für eine Transformation der von den Bibliotheken bislang nach MARC-Standards aufgenommenen Daten auf ontologiebasierte Strukturen gelegt.28 Das Europeana Data Model for Cultural Heritage (EDM: http://pro.europeana.eu/page/edm-documentation) bietet mit seinem <Aggregation>-Konzept einen essentiellen Ansatz zur Integration heterogener Datenquellen, z. B. verschiedene Webressourcen oder Daten aus verschiedenen Projekten zu demselben Objekt (vgl. Abb. 3).29 U. a. wurden aus einem der ersten vollständig mit dem EDM modellierten Datensätze über 40000 Objekte von MIMO (Musical Instrument Museums Online) in Europeana „aggregiert“.30

Abb. 3
Abb. 3

Veranschaulichung des Aggregations-Modells des EDM am Beispiel eines MIMO-Datensatzes („Clavicorde lié dit de Lépante | Anonyme“)

Citation: Bibliothek Forschung und Praxis 42, 2; 10.1515/bfp-2018-0027

Interessanterweise standen bereits in der allerersten LOD Cloud-Darstellung aus dem Jahr 2007 (http://lod-cloud.net/versions/2007-05-01/lod-cloud.png) drei von damals insgesamt nur zwölf Datenpools im Zusammenhang mit Musik (MusicBrainz, DBtune und Jamendo). Im gleichen Jahr wurde durch eine Forschungsgruppe am Centre for Digital Music der Queen Mary University of London ein auf OWL basierendes, speziell auf musikalische Sachverhalte zugeschnittenes Modell, die Music Ontology (https://github.com/motools; vgl. Abb. 4), konzipiert und zur Diskussion gestellt.32 Inzwischen existiert ein ganzes Ökosystem von erweiternden und ergänzenden Modellen (timeline, event, keys, tonality, symbolic notation, chord, temperament und audio features) um diese Ontologie. Sie muss mit ihren Ablegern als die derzeitige Standardontologie zur Modellierung und Beschreibung musikalischer Informationen gelten, die vor allem breite Anwendung bei der Konzeptualisierung von Musikempfehlungssystemen findet.3331

Abb. 4
Abb. 4

Grundklassen der Music Ontology (mo) und ihre Beziehungen (Ausschnitt)34

Citation: Bibliothek Forschung und Praxis 42, 2; 10.1515/bfp-2018-0027

8 Musikwissenschaftliche Anwendungsbeispiele

Im Bereich der Musikbibliotheken gibt es bemerkenswerte Initiativen für semantische Pilotprojekte an der SLUB Dresden (SLUBsemantics und D:SWARM)35 und der BSB München, die u. a. einen SPARQL-Endpoint für die RISM-Daten initiiert hat und auch selbst hostet.36 Die Deutsche Nationalbibliothek bietet ebenfalls seit 2010 einen Linked-Data-Service an, über den auch die Daten des Deutschen Musikarchivs in RDF bereitgestellt werden sollen.37 Allerdings ist für eine großflächige Öffnung der deutschsprachigen Bibliothekslandschaft „abgesehen von [diesen] mutigen Vorstößen“ immer noch „zu wenig praktische Aktivität“ zu verzeichnen.4238

Ähnliches gilt für die deutschsprachige Musikwissenschaft. So nimmt es kaum Wunder, dass zwei große internationale, kollaborative Vorhaben auf diesem Gebiet weit voraus sind und zu den Vorreitern zählen: Zum einen das Transforming-Musicology-Projekt in Großbritannien, das in vielzähligen Teilprojekten „the enhancement of Semantic Web provisions for musical study [...] augmenting existing controlled vocabularies (known as ontologies) for musical concepts“39 vorantreibt. U. a. wird mit MELD (Music Encoding and Linked Data) das Zusammengehen von MEI-Codierung und Semantic-Web-Technologien erprobt.40

Zum anderen in Frankreich das DOREMUS-Projekt (Doing Reusable Musical Data), das „tools and methods to describe, publish, connect and contextualize music catalogues on the web of data“41 entwickelt. Gerade das Modell von DOREMUS ist sehr eindrücklich durch seine Verbindung und Nachnutzung von Music Ontology, CIDOC CRM, FRBRoo und Europeana Data Model (vgl. Abb. 5).

Abb. 5
Abb. 5

Das Zusammenspiel verschiedener Ontologien im DOREMUS-Projekt

Citation: Bibliothek Forschung und Praxis 42, 2; 10.1515/bfp-2018-0027

Das finanzierungsfrei, aber mit großem Engagement durchgeführte Projekt JazzCats (Jazz Collection of Aggregated Triples)43 verknüpft drei bestehende Datensätze, die Informationen zu jazzbezogenen Aufführungen, Aufnahmen und Personen enthalten (Body & Soul, WJazzD und LinkedJazz), über Konzepte der Music Ontology und macht sie über einen eigenen SPARQL-Endpoint zugänglich.

Im deutschsprachigen Raum wird für die am Max-Planck-Institut für Empirische Ästhetik vorbereitete „Fachgeschichte der deutschsprachigen Musikwissenschaft von ca. 1810 bis ca. 1990“ die Verwendung ontologiebasierter Datenbankstrukturen diskutiert.44

Zudem bauen zwei prominente Virtuelle Forschungsumgebungen auf Ontologiemodellen auf: die in Erlangen/Nürnberg entwickelte Wissenschaftliche Kommunikationsinfrastruktur WissKI (www.wiss-ki.eu) und das an der Universität Basel entwickelte Knora/SALSAH (www.knora.org und www.salsah.org).

WissKI nutzt eine eigene, auf OWL-DL zugeschnittene Umsetzung der CIDOC-CRM-Spezifikation, das sog. Erlangen CRM/OWL (http://erlangen-crm.org/). Das Projekt „Musikinstrumente sammeln – Das Beispiel Rück“ arbeitet die Korrespondenz rund um die musikhistorische Instrumentensammlung von Wilhelm Rück und Söhnen innerhalb von WissKI auf und stellt seine Forschungsdaten darüber zur Verfügung.45

Knora/SALSAH beruht auf einem Set von OWL-konformen Basis-Ontologien (Knora Ontologies), auf die projektspezifische Ontologien aufgesetzt werden können, einer Triplestore-Schnittstelle (Knora API Server), einem IIIF-kompatiblen Medienserver und der grafischen Benutzeroberfläche SALSAH. Die Anton-Webern-Gesamtausgabe macht ihre gesamte Forschungsdatenbank über SALSAH zugänglich und wird die Bestandteile ihrer Online-Editionen über eine durch die Schweizer Nationale Infrastruktur für Editionen (NIE-INE) implementierte Instanz von Knora/SALSAH organisieren und aufbereiten.46

9 Ausblick

Das Potenzial von Ontologien und semantischen Technologien steht außer Frage. Dennoch spielten sie in den Diskussionen um eine digitale Musikwissenschaft im deutschsprachigen Raum bislang keine bzw. eine eher unscheinbare Rolle. Die Gründe dafür sind vielfältig: Zum einen mag es an einer gewissen generellen Verspätungstendenz der Musikwissenschaft liegen, die ihr aufgrund der Komplexität ihres Untersuchungsgegenstandes aber auch gestattet sei. Mitverantwortlich sind aber sicher auch eine bislang unzureichende Infrastruktur und mangelnde generische Tools, die den Musikinstitutionen (und hier seien sämtliche Gedächtnisinstitutionen einschließlich Forschung, Editionen, Verlagen und Konzerthäusern gemeint) eine Hinwendung zu diesen relativ neuen Technologien erleichtern würden. Denn wenn es auch prinzipiell möglich ist, eine Ontologie auf Papier niederzuschreiben, werden mit steigender Komplexität, Ausdrucksmächtigkeit und Verknüpfungstiefe zunehmend unterstützende Systeme notwendig, die die Modellierung und Verwendung von Ontologien erleichtern, Workflows systematisieren, kollaboratives Arbeiten ermöglichen und sich wiederholende Prozesse (semi-)automatisieren. Spezialisierte Virtuelle Forschungsumgebungen bieten dazu einen vorstellbaren Ansatz. Ein weiterer sind Forschungsverbünde, Akademien, Bibliotheksverbünde, nationale Infrastrukturen, unter welchem Namen auch immer ein Zusammenspiel von Projekten, Bibliotheken, Museen, Archiven und auch Verlagen gefordert wird. Denn Ontologien sind per definitionem kollaborativ, die Herausforderungen nicht im Alleingang, nur gemeinschaftlich zu bewältigen.

Sollen also musikalisches Experten- und Fachwissen kontrolliert formalisiert und musikwissenschaftliche Wissensstrukturen explizit maschinenverarbeitbar gemacht werden und sollen dabei kritisch-differenzierte Sichtweisen und wissenschaftliche Perspektiven in ein solches Wissens- und Datengeflecht einfließen, so ist die 2014 von Jörg Wettlaufer aufgeworfene Frage, ob die Hinwendung zu Ontologien und semantischen Technologien der „nächste Schritt“47 sei, durchaus zu bejahen. Der „Tipping Point“ aber, die Schwelle, ab der eine neue Technologie zündet und sich unumkehrbar durchsetzt,48 steht in diesem Zusammenhang aus Sicht der (digitalen) Musikwissenschaft möglicherweise noch etwas weiter am Horizont als in anderen Bereichen, aber er ist immerhin sichtbar. In diesem Sinne, caveat auditor.

Footnotes

1

Sehr früh in Berners-Lee, Tim: What the Semantic Web Can Represent. September 1998. Online unter https://www.w3.org/DesignIssues/RDFnot.html. Ausführlicher in Berners-Lee, Tim; Hendler, James; Lassila, Ora: The Semantic Web. In: Scientific American Magazine (17. Mai 2001). Online unter http://www.jstor.org/stable/26059207.

2

Zum Geflecht als Urbild postmoderner Wissensrepräsentation vgl. Umberto Eco: Opera aperta. Mailand 1962; dt. Ausgabe: Das offene Kunstwerk, übers. von Günter Memmert. Frankfurt a. M. 1973, 201: „[...] die Anerkennung der Tatsache, dass die Welt ein Geflecht von Möglichkeiten ist“, sowie den Rhizom-Begriff bei Deleuze, Gilles; Guattari, Félix: Rhizome. Introduction. Paris 1976; dt. Ausgabe: Rhizom. Aus dem Französischen von Dagmar Berger, Clemens-Carl Haerle, Helma Konyen, Alexander Krämer, Michael Nowak und Kade Schacht. Berlin 1977.

3

https://www.w3.org/2007/03/layerCake.png. Copyright © 2007 W3C® (MIT, ERCIM, Keio, Beihang). http://www.w3.org/Consortium/Legal/2015/doc-license. Die Standardisierung der beteiligten Technologien wird vom W3-Consortium vorangetrieben (vgl. Abschnitt 6).

4

Siehe u. a. Mittermeier, Bernhard (Hg.): Vernetztes Wissen – Daten, Menschen, Systeme. 6. Konferenz der Zentralbibliothek Forschungszentrum Jülich, 5.–7. November 2012. Jülich 2012 (Reihe Bibliothek/Library, 21). Online unter http://hdl.handle.net/2128/4699. Danowski, Patrick; Pohl, Adrian (Hg.): (Open) Linked Data in Bibliotheken. Berlin, Boston 2013 (Bibliotheks- und Informationspraxis; 50). Online unter http://dx.doi.org/10.1515/9783110278736. Mittelbach, Jens: Modernes Datenmanagement: Linked Open Data und die offene Bibliothek. In: o-bib – das offene Bibliotheksjournal 2 (2) (2015), 61–73. Online unter http://dx.doi.org/10.5282/o-bib/2015H2S61-73.

5

U. a. bei Hohmann, Georg; Fichtner, Mark: Chancen und Herausforderungen in der praktischen Anwendung von Ontologien für das Kulturerbe. In: Digitales Kulturerbe. Bewahrung und Zugänglichkeit in der wissenschaftlichen Praxis, hg. von Caroline Y. Robertson-von Trotha und Ralf H. Schneider. Karlsruhe 2015, 115–28. Online unter http://dx.doi.org/10.5445/KSP/1000044869.

6

Wettlaufer, Jörg: Der nächste Schritt? Semantic Web und digitale Editionen. Referat auf der Tagung „Digitale Metamorphose. Digital Humanities und Editionswissenschaft“, 2.–4.11.2015, Herzog August Bibliothek, Wolfenbüttel und Kamzelak, Roland S.: Digitale Editionen im semantic web. Chancen und Grenzen von Normdaten, FRBR und RDF. In: „Ei, dem alten Herrn zoll’ ich Achtung gern’“. Festschrift für Joachim Veit zum 60. Geburtstag, hg. von Kristina Richts und Peter Stadler für den Virtuellen Forschungsverbund Edirom. München 2016, 423–36. Online unter https://github.com/Edirom/Festschrift-Veit/releases.

7

Spätestens seit den frühen 1990er-Jahren wird der Begriff, parallel zu und abgeleitet von seiner Verwendung im philosophischen Kontext, in diesem Sinne gebraucht.

8

Diese Beschreibung folgt der Definition von Studer, Benjamins und Fensel (1998): „An ontology is a formal, explicit specification of a shared conceptualisation.“ Siehe Studer, Rudi; Benjamins, Richard; Fensel, Dieter: Knowledge Engineering: Principles and Methods. In: Data & Knowledge Engineering 25 (1–2) (1998), 161–97, hier 184. Online unter https://doi.org/10.1016/S0169-023X(97)00056-6). Sie spezifiziert die sonst identische, häufig anzutreffende Definition von Thomas Gruber durch die Begriffe „formal“ und „shared“. Siehe Gruber, Thomas: A Translation Approach to Portable Ontology Specifications. In: Knowledge Acquisition 5 (2) (1993), 199–220, hier 199. Online unter https://doi.org/10.1006/knac.1993.1008.

9

Diese beiden häufigsten Klassifizierungsmodelle gehen auf Ora Lassila und Deborah McGuiness (2001) bzw. auf Nicola Guarino (1998) zurück. Vgl. Rehbein, Malte: Ontologien. In: Digital Humanities. Eine Einführung, hg. von Fotis Jannidis, Hubertus Kohle und Malte Rehbein. Stuttgart 2017, 162–76, hier 165 f. und Hohmann und Fichtner (Anm. 5) 116 ff.

10

Hierzu und zu den folgenden Ausführungen vgl. Rehbein (Anm. 9) 164 f.

11

Das auch in der Musikwissenschaft problematische Konstrukt ‚Werk‘ wird in der Praxis mittlerweile sehr viel offener und komplexer modelliert, z. B. unter Einbeziehung verschiedener Abstraktionsebenen wie work, expression, manifestation, item (FRBR) oder durch den triadischen Zusammenschluss von Individual Work, Expression Creation, Self-Contained Expression (DOREMUS basierend auf CIDOC CRM).

12

Näheres zur Funktionsweise in Sattler, Uli; Stevens, Robert; Lord, Phillip: How does a reasoner work? In: Ontogenesis (12. August 2014). Online unter http://ontogenesis.knowledgeblog.org/1486.

13

Siehe Allemang, Dean; Hendler, James: Semantic Web for the Working Ontologist. Effective Modelling in RDFS and OWL. 2. Aufl. Amsterdam u. a. 2011, 6 f.

14

Siehe dazu die grundlegende Untersuchung von Davis, Randall; Shrobe, Howard; Szolovits, Peter: What is a Knowledge Representation? In: AI Magazine 14 (1) (1993), 17–33, hier 18 f. Online unter http://groups.csail.mit.edu/medg/ftp/psz/k-rep.html.

15

So der Berliner Philosoph Wilhelm Schmid über die „Fähigkeit, immer mehr in den Dingen zu vermuten, als wir momentan sehen“. Siehe Schwilk, Heimo: Interview mit Wilhelm Schmid. In: Welt am Sonntag (13.11.2005). Online unter https://www.welt.de/print-wams/article134958/Ich-plaediere-fuer-das-Glueck-der-Fuelle.html.

16

Vgl. u. a. Deleuze und Guattari (Anm. 2) 33: „Problem der Schrift: nur mit ungenauen Ausdrücken kann man etwas genau bezeichnen. Nicht, weil man da hindurch müßte oder immer nur durch Annäherung vorankäme: die Ungenauigkeit ist keineswegs eine Annäherung, sie ist im Gegenteil der genaue Verlauf der Ereignisse.“

17

Bauer, Matthias; Knape, Joachim; Koch, Peter; Winkler, Susanne: Dimensionen der Ambiguität. In: Zeitschrift für Literaturwissenschaft und Linguistik 40 (2010), 7–75. Online unter http://hdl.handle.net/10900/53217.

18

Auf diesen wesentlichen Aspekt geisteswissenschaftlicher Forschungsdaten wurde wiederholt aufmerksam gemacht, u. a. in Oldman, Dominic; Doerr, Martin; de Jong, Gerald; Norton, Barry; Wikman, Thomas: Realizing Lessons of the Last 20 Years: A Manifesto for Data Provisioning & Aggregation Services for the Digital Humanities (A Position Paper). In: D-Lib Magazine 20 (7/8) (July/August 2014). Online unter https://doi.org/10.1045/july2014-oldman.

19

Spezifikation unter http://www.cidoc-crm.org/crminf/ModelVersion/version-0.7. Dominic Oldman vom British Museum gebührt herzlicher Dank für den Hinweis auf diese Modellierungsoption. Bislang ist mir jedoch kein Datensatz bekannt, der diese Vorgehensweise auf den gesamten Datenbestand anwendet.

20

Zuweilen werden der zweite und dritte Schritt als „Entwurfsphase“ zusammengefasst, wodurch sich – unter Auslassung der Dokumentation – ein nur vierphasiges Modell ergibt. Das sechsteilige Modell folgt Nurmikko-Fuller, Terhi: LD4DH Session 2.1: Ontologies. Unveröffentlichte Präsentation im Rahmen der Digital Humanities at Oxford Summer School (DHOxSS) 2017. Ausführlich werden Probleme und Methoden für die Modellierung diskutiert in Stuckenschmidt, Heinz: Erstellen von Ontologien. In: Ontologien. 2. Aufl. Berlin 2011 (Informatik im Fokus) 155–205. Online unter https://doi.org/10.1007/978-3-642-05404-4_5, und in Karakol, Fatih: Konzeption einer ontologiebasierten Schnittstelle zur Integration von verteilt vorliegenden Informationsquellen. Hamburg: disserta 2016, 59–69.

21

Zu diesen Themenkomplexen siehe die Standardwerke Allemang und Hendler (Anm. 13) und DuCharme, Bob: Learning SPARQL: Querying and Updating with SPARQL 1.1. 2. Aufl. O‘Reilly 2013.

22

Spezifikation der mittlerweile zweiten Version unter https://www.w3.org/TR/owl2-overview/.

23

Eine hilfreiche Übersicht (trotz letztmaliger Aktualisierung Anfang 2016) über existierende Triplestores und die ungefähre Größenordnung verarbeitbarer Datensätze findet sich auf der Seite https://www.w3.org/wiki/index.php?title=LargeTripleStores&oldid=97382.

24

Es sei erwähnt, dass die vollständige SPARQL-Spezifikation auch ein Übertragungsprotokoll für Suchanfragen und -ergebnisse sowie eine XML-Struktur für die Wiedergabe der Suchresultate umfasst, was hier nicht weiter betrachtet werden kann.

25

Eine Übersicht über bestehende SPARQL-Endpoints mit einigen interessanten Zugriffsmöglichkeiten auf musikalische Datensätze (BBC Programmes and Music, Jamendo, MusicBrainz und DBTune) findet sich unter https://www.w3.org/wiki/SparqlEndpoints.

26

Das „Linking Open Data Cloud Diagram“ (Stand August 2017) enthält aktuell 1 163 Datensätze. Siehe http://lod-cloud.net/.

27

Spezifikation unter https://www.ifla.org/files/assets/cataloguing/FRBRoo/frbroo_v_2.4.pdf. Vgl. zu Motivation und Vorteilen der Angleichung u. a. Becker, Hans-Georg: FRBR, Serials und CIDOC CRM – Modellierung von fortlaufenden Sammelwerken unter Verwendung von FRBRoo. In: Danowski und Pohl (Anm. 4), 64–96. Online unter https://doi.org/10.1515/9783110278736.64.

28

Übersicht und Spezifikation unter https://www.loc.gov/bibframe/. Das BIBFRAME-Modell beruht insbesondere auf den Grundklassen <work>, <instance> und <item>.

29

Das Problem von Datenintegration und Heterogenitätskonflikten wird umfassend behandelt in Wache, Holger: Semantische Mediation für heterogene Informationsquellen. Dissertation, Berlin 2003. Online unter https://web.fhnw.ch/personenseiten/holger.wache/Papers/phd-03.pdf. Vgl. auch Stuckenschmidt (Anm. 20), 211–32.

30

Siehe http://pro.europeana.eu/page/mimo-edm. Die Klasse <Aggregation> entstammt dabei dem ORE-Vokabular der Open Archives Initiative (http://www.openarchives.org/ore/1.0/toc).

32

Raimond, Yves; Abdallah, Samer; Sandler, Mark; Giasson, Frederick: The Music Ontology. In: Proceedings of the 8th International Conference on Music Information Retrieval (ISMIR 2007), Wien 2007, 417–22. Online unter http://ismir2007.ismir.net/proceedings/ISMIR2007_p417_raimond.pdf. Vgl. auch die sehr viel ausführlichere Darstellung in Raimond, Yves: A Distributed Music Information System. Dissertation Queen Mary, University of London, November 2008. Online unter http://raimond.me.uk/phd/thesis.pdf. Die Entwicklung wurde zwischen 2011 und 2014 eingestellt. Vgl. das Github-Repository https://github.com/motools.

33

Vgl. Bailer, Werner; Boll, Susanne; Celma, Oscar; Hausenblas, Michael; Raimond, Yves: Use Case Scenarios (2.2 Music Use Case). In: Multimedia Semantics: Metadata, Analysis and Interaction, hg. von Raphael Troncy, Benoit Huet und Simon Schenk, Southern Gate 2011. Eine auf Musiknotation ausgerichtete Formalisierung wird durch die seit 2017 an der Universität Münster entwickelte MusicOWL Ontology (http://linkeddata.uni-muenster.de/ontology/musicscore#) bereitgestellt.

34

Nach Sandler, Mark; Raimond, Yves; Sutton, Christopher: Interlinking Music-Related Data on the Web. In: IEEE MultiMedia 16 (2) (2009), 54. Online unter https://doi.org/10.1109/MMUL.2009.29.

35

Siehe Mittelbach (Anm. 4).

36

SPARQL-Endpoint unter https://opac.rism.info/index.php?id=8. Generell zum Open-Data-Konzept von RISM siehe http://www.rism.info/de/community/development/data-services.html.

37

Vgl. den Beitrag „Linked Data und das Deutsche Musikarchiv“ von Jana Hentschke und Simon Zetzsche auf der Jahrestagung der AIBM, 4.–8. September 2017. Nähere Informationen zum Linked Data Service der DNB unter http://www.dnb.de/DE/Service/DigitaleDienste/LinkedData/linkeddata_node.html.

38

Mittelbach (Anm. 4) 68.

39

Projektbeschreibung von Transforming Musicology unter http://www.transforming-musicology.org/about/.

41

Projektbeschreibung von DOREMUS unter http://www.doremus.org/?page_id=18. Eine Übersicht der von DOREMUS erstellten und verwendeten kontrollierten musikbezogenen Vokabulare unter https://github.com/DOREMUS-ANR/knowledge-base/tree/master/vocabularies.

43

Bangert, Daniel; Nurmikko-Fuller, Terhi; Abdul-Rahman, Alfie: JazzCats project (2016). Online unter http://jazzcats.oerc.ox.ac.uk/.

44

Siehe van Dyck-Hemming, Annette; Wald-Fuhrmann, Melanie: Vom Datum zum historischen Zusammenhang. Möglichkeiten und Grenzen einer fachgeschichtlichen Datenbank. In: Wissenskulturen der Musikwissenschaft. Generationen – Netzwerke – Denkstrukturen, hg. von Sebastian Bolz, Moritz Kelber, Ina Knoth und Anna Langenbruch. Bielefeld 2016, 261–78.

46

Siehe www.anton-webern.ch bzw. einen Editionsprototypen unter edition.anton-webern.ch. Vgl. auch https://github.com/nie-ine.

47

Siehe Wettlaufer (Anm. 6).

48

Vgl. Gladwell, Malcolm: The Tipping Point. How Little Things Can Make a Big Difference. New York 2000.

If the inline PDF is not rendering correctly, you can download the PDF file here.

FREE ACCESS

Journal + Issues

Search

  • View in gallery
  • View in gallery

    Schichtenmodell der Semantic-Web-Technologien3

  • View in gallery

    Beispiel für einen RDF-Graph, der die Aussage „Webern hat die Rolle Komponist“ unter Annahme des fiktiven Namensraumes w: <http://example.org/webern#> abbildet, und die daran beteiligten konzeptuellen Ebenen (Instanzen, Terminologie und RDF Schema)

  • View in gallery

    Veranschaulichung des Aggregations-Modells des EDM am Beispiel eines MIMO-Datensatzes („Clavicorde lié dit de Lépante | Anonyme“)

  • View in gallery

    Grundklassen der Music Ontology (mo) und ihre Beziehungen (Ausschnitt)34

  • View in gallery

    Das Zusammenspiel verschiedener Ontologien im DOREMUS-Projekt