Skip to content
Publicly Available Published by De Gruyter September 15, 2017

Graphentechnologien in den Digitalen Geisteswissenschaften

  • Andreas Kuczera

    Dr. Andreas Kuczera

    ORCID logo EMAIL logo
From the journal ABI Technik

Zusammenfassung

Vernetzung ist ein vielgenutzer Begriff und wird meist in einem positiven Kontext verwendet. Oft sind heute die Vernetzung von Daten und Wissen zentrale Bestandteile der Entwicklung von Lösungsansätzen aktueller (Forschungs-)Fragestellungen. Für den Bereich der digitalen Geisteswissenschaften zeigt sich diese Entwicklung vor allem im zunehmenden Einsatz von Graphentechnologien in den verschiedensten Projekten. In diesem Beitrag werden exemplarisch sechs Anwendungsfälle vorgestellt und abschließend ein kurzer Ausblick auf Vorteile und Herausforderungen bei der Nutzung von Graphentechnologien im Bereich der digitalen Geisteswissenschaften und der Infrastrukturprovider gegeben.

Abstract

Networking is a very common term and is usually used in a positive context. Networks of data and knowledge are central components to develop approaches for the solution of current (research) questions. In the digital humanities the increasing use of graph technologies is evidence for that. In this article we will present six projects which use graph technologies in various ways. Finally we will give a brief outlook on the advantages and challenges of using graph technologies in the field of digital humanities and infrastructure providers.

1 Einleitung

Graphdatenbanken haben sich in den letzten Jahren als vielseitige Werkzeuge für die Modellierung, Speicherung und Repräsentation von komplexen geisteswissenschaftlichen Datensätzen erwiesen. Im Gegensatz zu relationalen Datenbanken ermöglichen sie die Arbeit mit deutlich flexibleren Datenmodellen und erleichtern die Abfrage von Beziehungsstrukturen. Im Rahmen dieses Artikels sollen Anwendungsfälle von Graphentechnologien und Graphdatenbanken in den digitalen Geisteswissenschaften in ihrem wissenschaftlichen und technischen Kontext vorgestellt werden. Neben der Modellierung der Daten stehen dabei auch Performance- und Retrievalkonzepte sowie Fragen zum Userinterface im Fokus.

2 Modellierung komplexer Systeme

2.1 Verwandtschaftsbeziehung im Graphen (nomen et gens)

In Graphdatenbanken werden die Daten im Unterschied zu relationalen Datenbanken nicht in verknüpften Tabellen, sondern in Knoten und Kanten gespeichert.

Abb. 1: Beispielgraph (Quelle: Kuczera)
Abb. 1:

Beispielgraph (Quelle: Kuczera)

Knoten und Kanten können noch zusätzliche Eigenschaften besitzen, in denen weitere Informationen gespeichert werden können. So sieht man in Abb. 1, dass die beiden Knoten vom Typ Person jeweils noch die Eigenschaft Namen haben, deren Wert dann die Namen der Personen angibt, während der Knoten vom Typ Buch die Eigenschaft Titel trägt.

Das Projekt „Nomen et Gens“ (NeG) zielt darauf ab, alle schriftlich belegten Namen und Personen Kontinentaleuropas in den vier Jahrhunderten vor Karl dem Großen (also von 400 bis 800 nach Christus) zu erfassen. Die Datenbank des Projekts geht auf ein erfolgreich abgeschlossenes DFG-Projekt zurück und wird aktuell von den Projektbeteiligten weiter betreut und sukzessive ausgebaut.[1] Neben den Quellen der Personennennung, den unterschiedlichen Namensformen usw. werden auch die Verwandtschaftsbeziehungen zwischen identifizierten Personen in der Datenbank abgelegt. Dabei werden bis zu 16 verschiedene Verwandtschaftsbeziehungen in der Datenbank gespeichert, wie z. B. Bruder, Schwester, Sohn, Tochter, Vater, Mutter, Onkel oder Nichte. Bei einem Personendatensatz werden dann jeweils die Verwandtschaftsbeziehungen aufgelistet, so dass man sich ggf. jeweils von Person zu Person durchklicken muss, bis man am Ziel angelangt ist.

Vor diesem Hintergrund bot es sich an, die Personen und die zugehörigen Verwandtschaftsbeziehungen in eine Graphdatenbank (neo4j) zu transferieren und anschließend graphbasierte Abfrageperspektiven zu testen.

Die ersten Ergebnisse des Datenbankimports zeigt Abbildung 2. Aus der Visualisierung werden die zahlreichen redundanten Beziehungen deutlich, die in der Folge zu neuen Modellierungsansätzen für die Verwandtschaftsbeziehungen führten. Ergebnis der Überlegungen war die Reduzierung der möglichen Verwandtschaftsbeziehungen auf die zwei Kantentypen KIND und VERHEIRATET_MIT. Dabei wird eine Kante vom Typ KIND für eine Eltern-Kind-Beziehung nur einmal vergeben, während eine Kante vom Typ VERHEIRATET_MIT immer zweifach in jeweils umgekehrter Richtung angelegt wird. Dies ergibt sich aus der Überlegung, dass eine Eltern-Kind-Beziehung gerichtet ist und zwar in unserem Fall vom Elternteil zum Kind hin, während eine VERHEIRATET_MIT-Beziehung ungerichtet ist: Wenn eine Person mit einer anderen Person verheiratet ist, ist die andere Personen automatisch auch mit der ersten verheiratet. Da im Property-Graph-Modell von neo4j jede Kante genau eine Richtung haben muss, wird die VERHEIRATET_MIT-Kante zweimal in jeweils unterschiedliche Richtung angelegt, während bei der hierarchischen Eltern-Kind-Beziehung eine Kante ausreicht.

Abb. 2: Verwandtschaftsbeziehungen im Nomen-et-Gens-Datenmodell, visualisiert im Graphen (Quelle: Kuczera)
Abb. 2:

Verwandtschaftsbeziehungen im Nomen-et-Gens-Datenmodell, visualisiert im Graphen (Quelle: Kuczera)

Im folgenden Beispiel soll das Potential der Graphmodellierung von Verwandtschaftsbeziehungen demonstriert werden. In der Datenbank gibt es die Person Berchar. Berchar war ein Hausmeier König Theuderichs III. Die Frage ist nun, ob dieser Berchar mit Karl dem Großen verwandt ist. In der NeG-Datenbank ist ein Verwandtschaftsverhältnis von Berchar zu Karl dem Großen nicht direkt ableitbar.

Abb. 3: Verwandtschaftsmodellierung im Graphen, nur mit den Kanten vom Typ KIND und VERHEIRATET_MIT (Quelle: Kuczera)
Abb. 3:

Verwandtschaftsmodellierung im Graphen, nur mit den Kanten vom Typ KIND und VERHEIRATET_MIT (Quelle: Kuczera)

Abb. 4: Nomen-et-Gens-Datenbankeintrag zu Berchar. Im unteren Bereich finden sich die Verweise auf die Verwandten (Quelle: http://www.neg.uni-tuebingen.de/)
Abb. 4:

Nomen-et-Gens-Datenbankeintrag zu Berchar. Im unteren Bereich finden sich die Verweise auf die Verwandten (Quelle: http://www.neg.uni-tuebingen.de/)

In der Graphdatenbank neo4j wird für eine solche Fragestellung eine Shortest_Path-Abfrage verwendet, die den kürzest möglichen Weg zwischen zwei Knoten zurückliefert, sofern es einen gibt. Der folgende cypher-Befehl liefert den Pfad zwischen dem Personenknoten Karls des Großen mit der NeG-ID 7404 und dem Personenknoten von Berchar mit der NeG-ID 7119. Dabei wird die Länge des abzufragenden Pfades auf 15 Kanten begrenzt.

//shortest_path

MATCH (KdG:Person { nid:’7404’ }),(Berchar:Person { nid:’7119’ }), p = shortestPath((KdG)-[*..15]-(Berchar)) RETURN p;

Das Ergebnis zeigt, dass Berchar tatsächlich mit Karl dem Großen verwandt ist. Er ist nämlich der Schwiegervater von Drogo (Herzog in Burgund und der Champagne, gest. 708), der wiederum der Bruder des Großvaters Karls des Großen ist.

Mit diesem kleinen Beispiel sind die interessanten Erschließungs- und Modellierungsperspektiven für die digitalen Geschichtswissenschaften nur angedeutet. Es zeigt jedoch, dass sich mit der Verwendung von Graphentechnologien intuitive Datenmodellierung mit sehr flexiblen Erschließungs- und Abfragemöglichkeiten kombinieren lässt.

Abb. 5: Ergebnis der Shortest-Path-Abfrage zu den Verwandtschaftsbeziehungen zwischen Karl dem Großen und Berchar (Quelle: Kuczera)
Abb. 5:

Ergebnis der Shortest-Path-Abfrage zu den Verwandtschaftsbeziehungen zwischen Karl dem Großen und Berchar (Quelle: Kuczera)

2.2 Kalendermodelle im Graphen

Das Projekt GODOT (Graph of Dated Objects and Texts) wurde im Januar 2017 im Rahmen einer Tagung zu Graphentechnologien in den digitalen Geisteswissenschaften an der Akademie der Wissenschaften und der Literatur in Mainz vorgestellt. Im Projekt GODOT geht es um die Erstellung eines graphbasierten Gazetteers, mit dem verschiedene Kalendermodelle abgefragt und aufeinander gemappt werden können.[2] Hintergrund sind die vielen verschiedenen Kalendersysteme der Menschheitsgeschichte, die unterschiedliche Ankerpunkte, Einteilungen und Zählungen aufweisen. Mit dem Gazetteer soll im Rahmen einer Abfrage die Verknüpfung mit anderen Kalendersystemen oder die Auflösung bzw. Eingrenzung von Datumsangaben anderer Kalendersysteme auf den heute genutzten gregorianischen Kalender möglich werden.

Abb. 6: Datumsbaum in neo4j mit Heiligabend des Jahres 1444. Der Datumsbaum wurde erstellt nach der Anleitung aufhttp://www.markhneedham.com/blog/2014/04/19/neo4j-cypher-creating-a-time-tree-down-to-the-day/(14.05.2017) (Bild: Kuczera)
Abb. 6:

Datumsbaum in neo4j mit Heiligabend des Jahres 1444. Der Datumsbaum wurde erstellt nach der Anleitung aufhttp://www.markhneedham.com/blog/2014/04/19/neo4j-cypher-creating-a-time-tree-down-to-the-day/(14.05.2017) (Bild: Kuczera)

In der Graphdatenbank neo4j existiert momentan nicht der Datentyp Datum, so dass man in den Properties der Knoten Datumsangaben nur als Strings abspeichern kann. Datumsschemata werden daher oft als sogenannter Datumsbaum angelegt.[3] Auf der ersten Ebene werden dabei die Jahre als Knoten modelliert und über NEXT-Kanten miteinander verknüpft. Damit erhält man die Abfolge aller Jahre. Auf der nächsten Ebene wird für jeden der zwölf Monate jeweils ein Monatsknoten und auf der dritten Ebene für jeden der 31 möglichen Tage jeweils ein Tagesknoten angelegt. Die Tagesknoten werden miteinander mit NEXT-Kanten verknüpft und ergeben damit eine Kette mit allen im Graphen modellierten Tagen. Ein Datum wird nun als Knoten mit jeweils einer Kante zu einem Jahr, einem Monat und einem Tag modelliert. Bei Datumszeiträumen werden jeweils Verknüpfungen zum jeweiligen Start- und Enddatum angelegt. Der Datumszeitraum kann über die Traversierung des Datumsgraphen abgefragt werden.

Abb. 7: Graphmodell der ägyptischen Kalender (Quelle:http://www.digitale-akademie.de/fileadmin/user_upload/graphentechnologien/Grieshaber_-_godot.pdf; 07.06.2017)
Abb. 7:
Abb. 8: Verknüpfte Kalenderbelege im Graphen (Quelle:http://www.digitale-akademie.de/fileadmin/user_upload/graphentechnologien/Grieshaber_-_godot.pdf; 07.06.2017)
Abb. 8:
Abb. 9: Regest im Graphen (Quelle: Kuczera)
Abb. 9:

Regest im Graphen (Quelle: Kuczera)

Ein solcher Datumsbaum ist die Grundlage des im Projekt GODOT geplanten Kalenderverknüpfungsprojekts. Dabei werden alle anderen vorhandenen Kalendertypen auch modelliert.

Die zwischen den verschiedenen Kalendersystemen vorhandenen Übereinstimmungen können mit Kanten festgehalten werden. Mit diesen Informationen wird es möglich, weitere Kalenderstrukturen aufeinander zu mappen bzw. Hinweise auf übereinstimmende Zeiträume zu erhalten.

Mit der Modellierung verschiedener Kalendersysteme im Graphen ergeben sich interessante Perspektiven zur Verknüpfung dieser Systeme. Als grundlegender Baustein des Modells dient die Einteilung in Tage, da diese in der Regel auch die Grundlage historischer Kalendersysteme darstellen. Auf diese Kette von Tagen können sich die verschiedenen modellierten Kalendersysteme dann beziehen und werden so miteinander vergleichbar.

3 Entitäten und Editionen

3.1 Herrscherhandeln in den Regesten Friedrichs III.

Das Akademienprojekt Regesta Imperii erstellt Zusammenfassungen von Kaiser-, Königs- und Papsturkunden für den Zeitraum von 620 bis 1519. Dabei werden die rechtlich relevanten Inhalte, Personen und Orte in deutschsprachigen Inhaltsangaben, sogenannten „Regesten“, zusammengefasst und mit Hilfe von Registern erschlossen. Über die Internetseite des Projekts www.regesta-imperii.de sind die Regesten recherchierbar. Daneben wird auch der Abruf der Regesten über eine REST-Schnittstelle als CEI-XML-Dateien angeboten.[4]

Abb. 10: Herrscherhandeln in den Regesten Kaiser Friedrichs III. (Quelle: Kuczera)
Abb. 10:

Herrscherhandeln in den Regesten Kaiser Friedrichs III. (Quelle: Kuczera)

Um die Potentiale graphbasierter Erschließung anhand der Regesta Imperii testen zu können, wurde ein Datenbankdump der Regesten Kaiser Friedrichs III. sowie des zugehörigen kumulierten Registers in die Graphdatenbank neo4j eingespielt.[5] Beim Import wurde jedes Regest zu einem Regestenknoten, dem als Eigenschaften der Regestentext, die Überlieferungsgeschichte und der Kommentar beigegeben wurden. Ausstellungsdatum und Ausstellungsort des Regest sollten hingegen in eigenen Knotentypen modelliert werden und jeweils über HAT_DATUM- und HAT_ORT-Kanten mit dem Regestenknoten verknüpft werden.

Das kumulierte Register der Regesten Friedrichs III. wurde ebenfalls in die Graphdatenbank importiert. Jeder Registereintrag ergibt dabei einen Lemmaknoten. Die Hierarchie des Registers wird anschließend mit OBERBEGRIFF-Kanten abgebildet, die jeweils vom Unter- zum Oberbegriff weisen.

Im nächsten Schritt wurde mit Hilfe des Programms TreeTagger[6] das erste Verb im Regestentext extrahiert, in lemmatisierter (normalisierter) Form in die Graphdatenbank eingespielt und mit einer HERRSCHERHANDELN-Kante verknüpft.

Die Abbildung zeigt beispielhaft die entstandenen Strukturen. Perspektivisch könnte auf dieser Grundlage das Herrscherhandeln in räumlicher und zeitlicher Entwicklung untersucht und visualisiert werden oder das Herrscherhandeln in herrschernahen Regionen mit jenem in eher herrscherfernen Gegenden qualitativ verglichen werden.

Neben den interessanten Perspektiven bei der Modellierung von Regesten und Herrscherhandeln im Graphen scheint vor allem die graphbasierte Registererstellung entscheidende Vorteile gegenüber gedruckten Registern mit sich zu bringen, da zwischen den Registereinträgen über Kanten zusätzliche Informationen eingefügt werden können.[7]

Abb. 11: Auszug aus dem Register der Regesten Kaiser Friedrichs III. zur Nürnberger Familie Volckammer (Quelle: Kuczera)
Abb. 11:

Auszug aus dem Register der Regesten Kaiser Friedrichs III. zur Nürnberger Familie Volckammer (Quelle: Kuczera)

In der Abbildung wird ein Ausschnitt aus dem kumulierten Register zur Nürnberger Familie Volckamer gezeigt. Beim Import von Registerinformationen in die Graphdatenbank kann die hierarchische Gliederung des Registers direkt in die Graphdatenbank übernommen werden. Hierfür wird für jeden Registereintrag (auch als Lemma bezeichnet) ein Knoten erstellt und anschließend zwischen Untereintrag und übergeordnetem Beitrag eine OBERBEGRIFF-Kante eingefügt. Zusätzlich wird es im Graphen aber möglich, zwischen verschiedensten Knoten weitere Kanten zu ergänzen, wie in Abb. 12 angedeutet.

Abb. 12: Die Registerinformationen im Graphen (Quelle: Kuczera)
Abb. 12:

Die Registerinformationen im Graphen (Quelle: Kuczera)

Im Überlieferungsteil der Regesten sind die aufgeführten Literaturtitel zum großen Teil mit der Literaturdatenbank der Regesta Imperii, dem RI-OPAC, verknüpft.[8] Jeder dieser Links verweist auf genau einen Literaturtitel. Alle Literaturlinks zusammengenommen bilden die Grundlage für ein Zitationsnetzwerk.

Damit werden Abfragen zu Zitationsmustern möglich, mit denen inhaltlich ähnlich gelagerte Regesten zusammengefasst werden können. In der aktuellen Fassung der Graphdatenbank werden nur die Titel erfasst. Für die Zukunft ist daran gedacht, das Zitationsnetzwerk um die jeweils zitierte Seite oder Stelle im Buch zu ergänzen, um damit die Gruppierungsqualität weiter zu erhöhen.

Die Beispiele zeigen, dass die Anwendung von Graphentechnologien im Bereich der digitalen Quellenerschließung neue Erschließungsperspektiven bietet. Die hier vorgestellte Graphdatenbank kann für eigene Versuche von der Seite www.graphentechnologien.de heruntergeladen werden. Sie hat keinen Anspruch auf Vollständigkeit und Fehlerfreiheit, sondern soll einen ersten Eindruck zu Erschließungsmöglichkeiten durch Graphentechnologien bei den digitalen Regesta Imperii bieten.

Abb. 13: Das Netzwerk der im Regest 169 des Bandes 27 der Regesten Kaiser Friedrichs III. zitierten Literatur (Quelle: Kuczera)
Abb. 13:

Das Netzwerk der im Regest 169 des Bandes 27 der Regesten Kaiser Friedrichs III. zitierten Literatur (Quelle: Kuczera)

3.2 Graphbasierte Digitale Editionen

Im Herbst 2016 haben in der Akademie der Wissenschaften und der Literatur und am Institut für geschichtliche Landeskunde in Mainz Planungen für eine historisch-kritische Edition der Windeck-Chronik aus dem 15. Jahrhundert im Rahmen eines DFG-Projekts begonnen. Ende der 1430er Jahre verfasste der Mainzer Kaufmann, Stadtpolitiker und Königsdiener Eberhard Windeck (ca. 1380–1440/41) das „Buch von Kaiser Sigmund”. Mit Sigmund (1368–1437) aus dem Luxemburger Haus, der drei Königskronen (Reich, Ungarn, Böhmen) sowie ab 1433 auch die Kaiserkrone trug und der im Mittelpunkt der Chronik steht, kommen zentrale Ereignisse der europäischen Geschichte des 15. Jahrhunderts wie das Konstanzer Konzil und die Hussitenkriege, aber auch der Beginn des Vormarschs der Türken auf dem Balkan, der Krieg zwischen Polen und dem Deutschen Orden und der Hundertjährige Krieg in Westeuropa in den Blick. Die Chronik öffnet dabei Perspektiven auf bedeutsame Dimensionen des Geschehens, die in der Urkundenproduktion des Herrschers und anderer Akteure nicht sichtbar werden. Mit ihren zum Teil reich bebilderten Handschriften ist die Chronik insgesamt für die internationale Geschichtswissenschaft, für die Germanistik, die Kunstgeschichte und für die Buchwissenschaft, daneben aber auch für die breitere Öffentlichkeit von hohem Interesse.

Für das Projekt sollen fünf Handschriften der Windeck-Chronik[9] historisch-kritisch ediert werden. Hierfür wurden in einem ersten Schritt einige Handschriftenseiten in TEI-XML codiert, jedoch war das Ergebnis etwas unübersichtlich.

Abb. 14: Testtranskription in XML (Quelle: Kuczera)
Abb. 14:

Testtranskription in XML (Quelle: Kuczera)

Vor allem vor dem Hintergrund, dass es sich um fünf Handschriften handelt, die in der Edition berücksichtigt werden sollten, war die XML-Perspektive unhandlich, da es nicht möglich war, die gesamte Varianz der Quellen adäquat mit XML-Technologien abzubilden.[10]

So reifte während der Diskussionen die Idee, eine Edition zu planen, bei der neben den erschließenden Informationen auch der zu edierende Text selbst im Graphen modelliert wird. Nach erfolgreichen Versuchen zum TEI-XML-Import in die Graphdatenbank neo4j[11] begannen die Planungen. Graphdatenbanken kennen Knoten und Kanten, wobei in unserem Modell die Wörter in Knoten dargestellt sind, die mit NEXT-Kanten miteinander verknüpft sind und damit den Textfluss wiedergeben. Die Erschließungsinformationen werden als Knoten und Kanten an die Textkette angegliedert.

In Abb. 15 ist der im obigen XML-Beispiel abgebildete Handschriftenausschnitt in die Graphdatenbank neo4j eingespielt und die Datumsangabe sowie die Person des Erzbischofs von Mainz und die Angabe zu dessen Gesundheitszustand annotiert zu erkennen.

Abb. 15: Einfaches Erschließungsbeispiel im Graphen (Quelle: Kuczera)
Abb. 15:

Einfaches Erschließungsbeispiel im Graphen (Quelle: Kuczera)

Hier wird mit der Mehrdimensionalität der Annotation im Graphenmodell die Flexibilität deutlich: Denkt man unser Beispiel weiter, wäre es möglich, alle Stellen in der Chronik zusammenzustellen, an denen Informationen zum „Zustand“ des Erzbischofs Conrad von Mainz vorhanden sind.

Damit sind im Graphenmodell durch die Mehrdimensionalität der Annotationsmöglichkeiten mehrere, auch konkurrierende Annotationshierarchien denkbar:

  1. Eine Annotationsebene zur Auszeichnung der formalen Struktur der Quelle (Seitenfall, Zeilenwechsel, innere Strukturierung der Quelle, wie z. B. Kapiteleinteilungen).

  2. Eine Annotationsebene für die inhaltliche Auszeichnung des Textes, wie z. B. Markierung und Identifizierung von Entitäten, Handlungen, Zustandsbeschreibungen.

  3. Eine Annotationsebene für textliche Phänomene wie Varianten, Verbesserungen verschiedener Hände, nachträgliche Eintragungen.

  4. Schließlich wäre es noch denkbar, die unter 1 bis 3 angegebenen Ebenen jeweils mehrfach zuzulassen und damit Quellendeutungen verschiedener Nutzer zu ermöglichen und so gewissermaßen auch die aktuelle Forschungsdiskussion abzubilden.[12]

Wie oben bereits erwähnt sollen bei der Edition der Windeck-Chronik fünf Handschriften berücksichtigt werden. In einer klassischen digitalen Edition stünde die Konstitution eines Lesetextes durch die Editoren an erster Stelle. Diesem Lesetext würden dann die wichtigsten editorischen Entscheidungen mit Apparaten beigefügt werden, was sich aber bei fünf variierenden Handschriften als äußerst aufwendig erwiesen hat. Daher wurde in dem Projekt ein graphbasierter Ansatz gewählt, in dem alle fünf Handschriften transkribiert und anschließend unter Bezugnahme auf die Kapitelstrukturierung der Windeck-Edition von Altmann gemeinsam in eine Graphdatenbank eingespielt werden.[13] Altmann hat in seiner Edition die Chronik in Kapitel unterteilt. Diese Unterteilung findet sich in allen fünf Handschriften wieder, so dass sie als gemeinsame Struktureinteilung genutzt werden kann und die fünf Textketten hier immer wieder zusammengeführt werden können. In Abb. 16 wird beispielhaft das Kapitel 314 der Windeck-Chronik in der Graphdatenbank neo4j dargestellt.

Abb. 16: Horizontale Anordnung der Textketten (Quelle: Kuczera)
Abb. 16:

Horizontale Anordnung der Textketten (Quelle: Kuczera)

Für eine denkbare Editorenansicht wurden in dieser Abbildung die Textketten horizontal angeordnet. Die oberste Textkette repräsentiert die Edition von Altmann, die fünf darunter angeordneten Textketten stellen die fünf Handschriften dar. Die Bezüge auf Textgleichheit zur Edition von Altmann sind durch verschiedenfarbige Pfeile dargestellt. Damit ist hier aber nur eine der im Datenmodell denkbaren Erschließungshierarchien sichtbar. Es ist die Aufgabe der im Projekt vorgesehenen User-Interface-Entwicklung, die verschiedenen Erschließungshierarchien für die Projektmitarbeiter übersichtlich und gleichzeitig editierbar darzubieten.

Einige der überlieferten Handschriften der Windeck-Chronik sind bebildert. Diese Bilder sollen im Rahmen des Editionsprojekts vor allem in Hinblick auf die historisch-kritische Fragestellung graphbasiert erschlossen werden. Abb. 17 zeigt ein Bild aus einer der Handschriften mit der graphbasierten Erschließung der für die historisch-kritische Edition relevanten Bildinhalte.

Abb. 17: Beispiel einer graphbasierten Bilderschließung (Quelle: Kuczera)
Abb. 17:

Beispiel einer graphbasierten Bilderschließung (Quelle: Kuczera)

Die hier schematisch dargestellte Modellierung ermöglicht es, die komplexen Beziehungen zwischen Text, Bildüberschrift (Rubrum), Wappen- und Personendarstellung systematisch zu erschließen. In der Legende der Abbildung finden sich vier Kantentypen. Die braune IN-Kante weist darauf hin, dass eine Entität in einer anderen vorkommt. So kommt z. B. das o. a. Bild in der Handschrift V1 vor. Die blaue Strukturkante gibt an, dass etwas zu etwas anderem zugehörig ist, wie z. B. Person 1 zur Personengruppe 1 gehört. Die grüne Handlungskante verbindet Handlungskategorien mit Entitäten und dient zur Annotation von Handlungen. Die gelbe Kante weist einen Knoten (z. B. Personenknoten oder Wappenknoten) der zugehörigen Entität auf dem Bild zu.

Die hier gezeigten Annotationsstrukturen sind ein erster Versuch zur Verdeutlichung des Ansatzes und können während des Projekts ergänzt und angepasst werden.

Zusammenfassend lässt sich feststellen, dass bei einer rein XML-basierten Edition Quelle und Erschließung eindimensional im Text repräsentiert werden müssen. Beim graphbasierten Ansatz sind mehr Dimensionen möglich, so dass konkurrierende Erschließungshierarchien und Annotationsebenen ebenso berücksichtigt werden können wie die Modellierung von[14] Textphänomenen (Streichungen, Ergänzungen usw.). Dies zeigt auch Tara Andrews in ihrer Edition der Chronik des Matthias von Edessa, in der erstmals Graphentechnologien eingesetzt wurden.[15]

Ein weiterer Vorteil der graphbasierten digitalen Edition ist es, leichter einen Ausgleich zwischen den Erschließungsperspektiven und -wünschen der Editorinnen und Editoren und der strukturellen Integrität der Erschließungsinformationen aus Sicht der Digital Humanities zu gewährleisten. Bei graphbasierter Erschließung können die Annotationen mehrerer Editoren parallel berücksichtigt und den jeweiligen Personen zugeordnet werden. Damit werden auch konkurrierende Deutungen des Textes durch die Editorinnen und Editoren möglich und für Nutzerinnen und Nutzer vergleichbar.

Durch die intuitive Struktur des Graphenmodells ist es möglich, dass sich Fachwissenschaftler und die Spezialisten aus den digitalen Geschichtswissenschaften auf einer Ebene austauschen und damit die Fachwissenschaftler intensiv bei der Erstellung der Erschließungsmodelle eingebunden werden können.

4 Erschließung und Verschränkung

4.1 Sprache im Graphenmodell

Im Rahmen einer Bachelor-Arbeit am Institut für Phonetik der Universität München wurde die Transformation einer relational organisierten Sprachdatenbank in die Graphdatenbank neo4j durchgespielt.[16] Die Ausgangslage, der Transformationsprozess und die Ergebnisse dieses Transformationsprozesses waren Gegenstand eines Vortrages von Christoph Draxler im Rahmen der Tagung zu Graphdatenbanken an der Akademie der Wissenschaften und der Literatur in Mainz, auf den hier eingegangen werden soll.

Im Institut für Phonetik existiert eine SQL-Datenbank mit gesprochener Sprache von über 1 600 Sprechern.

Die Sprachdaten liegen in verschiedenen Informationsebenen vor, die aufeinander referenzieren. In der obersten Ebene befinden sich die Sprachaufnahme, darunter Merkmale der Sprachanalyse gefolgt von der Transkription der gesprochenen Worte, der Lautumschrift und der Lautanalyse.

Das Schema der zugehörigen relationalen Datenbank gibt Abb. 19 wieder. Insgesamt befinden sich acht verschiedene Tabellen in der Datenbank. Die Tabelle signalfile enthält die Liste aller Sprachdateien. Jede Sprachdatei ist mit einem Sprecher aus der Tabelle speaker und mit dem zugehörigen Projekt in der Tabelle projects verknüpft. Zu jedem Sprecher existiert dann noch eine Verbindung zur Tabelle geolocation, in der die Ortsdaten des jeweiligen Sprechers abgelegt sind. Die Werte pitch und formant sind ebenso direkt in der Datenbank abgelegt und ermöglichen so die direkte Berechnung von Mittelwerten. In der Tabelle segment sind schließlich die Annotationsebenen der Sprachanalyse abgelegt, die wiederum untereinander mit Hilfe der Links-Tabelle verknüpft werden.

Abb. 19: Das relationale Schema der Sprachdatenbank (Quelle:http://www.digitale-akademie.de/fileadmin/user_upload/graphentechnologien/Draxler_-_VortragGraphDB.pdf; 07.06.2017)
Abb. 19:

Die Ablage und Erschließung in der SQL-Datenbank ist seit Jahren erprobt und bietet eine sichere Grundlage für die Abspeicherung und Analyse der Sprachdaten. Allerdings ergeben sich durch das starre Schema der Datenbank Anpassungsprobleme bei der feineren Modellierung verschiedener Typen von Sprachdaten. Auch der fehlende formale Unterschied zwischen Relationen und Entitäten führt bei Abfragen zu zahlreichen JOIN-Klauseln.[17] Auch auf Annotationsebene ergeben sich Schwierigkeiten, da entgegen der reinen Lehre bei der relationalen Modellierung der Segmente Nullwerte in optionalen Attributen verwendet werden müssen. Daher wurde im Rahmen einer Bachelor-Arbeit die SQL-Datenbank in eine Graphdatenbank überführt.

Das in Abb. 20 abgebildete Datenmodell der Graphdatenbank ähnelt auf den ersten Blick jenem der SQL-Datenbank. Zu beachten ist jedoch, dass im Graphenmodell auch die Kanten Eigenschaften besitzen können.

Der rote Pfad zeigt eine Abfrage der durchschnittlichen Grundfrequenz von Sprechern, gruppiert nach Datenbank, Bundesland und Geschlecht.

Zusammenfassend lässt sich feststellen, dass die Modellierung von Sprache im Graphen sehr interessante Perspektiven bietet. Dennoch wurden aktuell noch zu wenige Erfahrungen mit neo4j gesammelt, weshalb das Produktivsystem vorerst auf mysql verbleibt und Graphen nur in verschiedenen Versuchsszenarien eingesetzt werden. Bei den ersten Versuchen hat sich herausgestellt, dass nach Ansicht der Nutzer die Abfragesprache von neo4j, cypher, etwas konkreter und kürzer als SQL ist. In Zukunft werden Graphdatenbanken am Institut für Phonetik in München in das Curriculum aufgenommen und auch Gegenstand von Bachelor- und Masterarbeiten sein.

4.2 Räumliche Unsicherheit

Im Projekt TEXTELSEM[18] werden archäologische Funde und Fundorte in rdf-Graphen modelliert. Bei den Fundorten sind die Angaben wie Fundort, Funddatum und Umstände des Fundes nicht immer vollständig. Zum anderen werden auf den Fundstücken Rechtsakte oder Wirtschaftstätigkeiten beschrieben, in deren Rahmen auch Orte und deren relative Lage zu anderen ggf. bekannten Orten genannt werden. Um sich hier der Lokalisierung der Orte zu nähern, werden die Aussagen der Fundstücke qualitativ kategorisiert, mit speziellen Algorithmen ausgewertet und in Graphen modelliert. Letztendlich geht es darum, Wissen über absolute geographische Informationen mit Wissen über relative geographische Informationen in Relation zu setzen.

Abb. 21: Auszug aus Higeomes-Datenbank (Quelle:http://higeomes.checksem.fr/ficheInfoBAB.html#topo1042, 06.06.2017)
Abb. 21:

Auszug aus Higeomes-Datenbank (Quelle:http://higeomes.checksem.fr/ficheInfoBAB.html#topo1042, 06.06.2017)

Damit können dann Ketten von Aussagen zu den Lagen der verschiedenen Orte im Raum berechnet werden, vor allem aber auch verschiedene Deutungsmöglichkeiten der Quelleninhalte durchgespielt und mit anderen Quellenaussagen verglichen werden.

Im Einzelnen geht es dabei von archäologischer Seite um unsichere Aussagen zur Größe und Besiedlung eines Ortes, zu den Gebäuden und zu den Funktionen, die ein Ort zu bestimmten Zeiten eingenommen hat. Aus philologischer Sicht ergeben sich beispielsweise unsichere Aussagen zu Toponymen, bei denen man teilweise nicht einmal weiß, ob es sich um einen Berg, ein Gebiet oder ein Gewässer usw. handelt.

In Abb. 21 ist ein Ausschnitt aus der Datenbank zum Ort Ilan-sura und den zu diesem Ort verfügbaren Informationen zu sehen.[19] Er liegt nördlich von Nagar, im Osten von Harranum, im Süden von Urgis und im Westen von Subat-Enlil und gleichzeitig in der Nähe von Tadum, Kahat und Subat-Enlil.

In Abb. 22 werden diese Informationen in einem Graphen visualisiert, angereichert um weitere Informationen. In diesem Fall geben die roten Punkte an, dass an diesen Orten Truppen stationiert waren.

Im hier vorgestellten Nutzungszusammenhang wird deutlich, wie flexibel die Modellierung von verschiedenen Datenstrukturen in einer gemeinsamen Graphstruktur ist. So werden geographische mit inhaltlichen Informationen verschränkt und so gemeinsam visualisierbar. Für den Nutzer ergeben sich damit übergreifende Perspektiven und neue Sichten auf das Material.

5 Zusammenfassung und Ausblick

Im vorliegenden Beitrag wurden vielfältige Anwendungsfälle von Graphentechnologien in den digitalen Geisteswissenschaften vorgestellt. Wie im Projekt „Nomen et Gens“ beispielhaft gezeigt lassen sich durch intuitive und flexible Modellierungsmöglichkeiten im Graphen Erschließungsstrukturen vereinfachen. Von anfangs 16 Verwandtschaftsbeziehungen im relationalen Modell blieben nur noch zwei im Graphenmodell übrig. Die traversalen Abfragemöglichkeiten des Graphen gewährleisten es aber, dass auch die 16 Verwandtschaftsbeziehungen aus dem relationalen Modell recherchiert und modelliert werden können.

Die flexiblen und einfachen Strukturen von Graphmodellen bilden quasi eine gemeinsame Diskussionsebene zwischen Fachwissenschaftlern und Informatikern. Im Graphen kann der Fachwissenschaftler den Informatiker sehr einfach auf eine fehlende Art von Knoten oder Kanten hinweisen und ist gleichzeitig gezwungen, seine Modellierungswünsche in Graphenform darzustellen, die wiederum für den Informatiker von technischer Seite her leichter verständlich sind. Mit XML-Technologien oder bei relationalen Datenbankmodellen sind die Hürden zum gemeinsamen Verständnis des Forschungsgegenstandes wesentlich höher, während im Graphen verschiedene Wissenschaftswelten leichter zusammenfinden.

Im Abschnitt zur graphbasierten digitalen Edition konnten die Vorteile der im Graphen möglichen mehrdimensionalen Erschließungsstrukturen aufgezeigt werden. Während bei der Verwendung von XML die zu edierende Quelle gemeinsam mit den Erschließungsinformationen in Form von XML-Tags und Attributen in einer eindimensionalen Textkette gespeichert wird, kommen bei der Modellierung der zu erschließenden Quelle als Kette von Wortknoten im Graphen zwei weitere Dimensionen für die Ergänzung erschließender Information hinzu. In diesem mehrdimensionalen Graphen können überlappende und auch sich widersprechende bzw. ergänzende Erschließungsinformationen personalisiert gespeichert und ausgewertet werden. Letztendlich wäre auch die Modellierung des Forschungsdiskurses im Graphen denkbar.

Die Frage ist nun, wie sich diese Technologie fruchtbar für die weitere Entwicklung von Wissenschaft und Forschung einsetzen lässt, und hier kommen die wissenschaftlichen Infrastruktureinrichtungen, wie z. B. Bibliotheken und Archive ins Spiel. Bis vor einigen Jahren wurden die meisten Forschungsergebnisse gedruckt an Bibliotheken übergeben, die sich dann weiterhin um die Aufbewahrung und Verfügbarkeit kümmern mussten und hierfür auch finanziert wurden. Seit einigen Jahren liegen aber immer mehr Forschungsdaten und -ergebnisse nur noch digital vor, und dies stellt die Infrastruktureinrichtungen vor große Herausforderungen. Gegenstand dieses Artikels sind die Perspektiven von Graphentechnologien in den digitalen Geisteswissenschaften. Daher möchte ich zum Abschluss Szenarien skizzieren, in denen Forscher und Infrastruktureinrichtungen im gegenseitigen Zusammenspiel die Erarbeitung, Analyse und Archivierung von graphbasierten Forschungsdaten organisieren können.

Zunächst ist aber ein Perspektivwechsel zu beachten, der mit der Verwendung von Graphen einhergehen wird, nämlich die zunehmende Fokussierung auf Entitäten. Im o. a. Beispiel zum Herrscherhandeln in den Regesta Imperii sind im Graphen Personen, Orte, Regesten usw. modelliert und miteinander verknüpft. Während ein traditioneller Rechercheansatz in den Regesten beispielsweise über das Register, die entsprechende Abteilung oder eine Datumseinschränkung funktioniert, könnte man im Graphen mit der Frage an die Regesten herantreten, alle Regesten zu einer bestimmten Person herauszusuchen und die damit verbundenen Zitationsnetzwerke zu visualisieren. Damit die mit der Graphmodellierung verbundene Entitätenfokussierung auch über Projektgrenzen hinweg funktioniert, ist die Verknüpfung über Normdatenrepositorien notwendig. Zu nennen wären hier beispielsweise die von der Deutschen Nationalbibliothek bereitgestellte GND[20] oder das Forschernetzwerk ORCID.[21] Mit Hilfe der GND werden Personen, Orte und Institutionen über Projekt- und Bestandsgrenzen hinweg verknüpfbar, so dass beim Auffinden einer Personenentität in einem Datenbestand sogleich ergänzende Informationen aus anderen Forschungsdatenrepositorien berücksichtigt werden können. Mit Hilfe der ORCID-ID könnten Annotationen an Forschungsdaten dem jeweiligen Forscher zugeordnet werden. Denkbar wäre hier auch die zunehmende Verlegung des Forschungsdiskurses in den Graphen. Schließlich wäre es auch Aufgabe der Infrastruktureinrichtungen (wie z. B. der Universitätsbibliotheken), die notwendige technische Infrastruktur für die Erstellung, Speicherung, Verknüpfung und Archivierung bereitzustellen. Hinzu kämen noch Beratung, Schulung und Unterstützung des wissenschaftlichen Personals bei der Analyse und Modellierung von Forschungsdaten und -fragen.

Zusammenfassend lässt sich feststellen, dass Graphentechnologien für die Weiterentwicklung der digitalen Geisteswissenschaften sehr interessante Perspektiven bieten. Die auf dem Weg dorthin liegendenen Herausforderungen an Forscher, Forschungsinstitutionen und Infrastruktureinrichtungen sind es vor dem Hintergrund der zu erwartenden Erkenntnisgewinne von vernetzten Forschungsdaten und -diskursen allemal wert, angegangen zu werden.

About the author

Andreas Kuczera

Dr. Andreas Kuczera

Published Online: 2017-9-15
Published in Print: 2017-9-26

© 2017 by De Gruyter

Downloaded on 28.3.2024 from https://www.degruyter.com/document/doi/10.1515/abitech-2017-0042/html
Scroll to top button