Jump to ContentJump to Main Navigation
Show Summary Details

Bibliothek Forschung und Praxis

Ed. by Bonte, Achim / Degkwitz, Andreas / Horstmann, Wolfram / Kaegbein, Paul / Keller, Alice / Kellersohn, Antje / Lux, Claudia / Marwinski, Konrad / Mittler, Elmar / Rachinger, Johanna / Seadle, Michael / Vodosek, Peter / Vogt, Hannelore / Vonhof, Cornelia

3 Issues per year

Online
ISSN
1865-7648
See all formats and pricing
Volume 40, Issue 2 (Jul 2016)

Issues

Digitale Annotationen in der geisteswissenschaftlichen Praxis

Harald Lordick
  • Corresponding author
  • Salomon Ludwig Steinheim-Institut für deutsch-jüdische Geschichte an der Universität Duisburg-Essen, Edmund-Körner-Platz 2, D-45127 Essen
  • Email:
/ Rainer Becker
  • Technische Universität Darmstadt, Institut für Sprach- und Literaturwissenschaft, Dolivostr. 15, D-64293 Darmstadt
  • Email:
/ Michael Bender
  • Technische Universität Darmstadt, Institut für Sprach- und Literaturwissenschaft, Dolivostr. 15, D-64293 Darmstadt
  • Email:
/ Luise Borek
  • Technische Universität Darmstadt, Institut für Sprach- und Literaturwissenschaft ,Dolivostr. 15, D-64293 Darmstadt
  • Email:
/ Canan Hastik
  • Technische Universität Darmstadt, Institut für Sprach- und Literaturwissenschaft, Dolivostr. 15, D-64293 Darmstadt
  • Email:
/ Thomas Kollatz
  • Salomon Ludwig Steinheim-Institut für deutsch-jüdische Geschichte an der Universität Duisburg-Essen, Edmund-Körner-Platz 2, D-45127 Essen
  • Email:
/ Beata Mache
  • Salomon Ludwig Steinheim-Institut für deutsch-jüdische Geschichte an der Universität Duisburg-Essen, Edmund-Körner-Platz 2, D-45127 Essen
  • Email:
/ Andrea Rapp
  • Technische Universität Darmstadt, Institut für Sprach- und Literaturwissenschaft, Dolivostr. 15, D-64293 Darmstadt
  • Email:
/ Ruth Reiche
  • Georg-August-Universität Göttingen, Kunstgeschichtliches Seminar, Nikolausberger Weg 15, D-37073 Göttingen
  • Email:
/ Niels-Oliver Walkowski
  • Salomon Ludwig Steinheim-Institut für deutsch-jüdische Geschichte an der Universität Duisburg-Essen, Edmund-Körner-Platz 2, D-45127 Essen
  • Berlin-Brandenburgische Akademie der Wissenschaften, Jägerstraße 22/23, D-10117 Berlin
  • Email:
Published Online: 2016-07-01 | DOI: https://doi.org/10.1515/bfp-2016-0042

Zusammenfassung

Nach einer kurzen theoretischen Grundlegung werden anhand konkreter Beispiele Einblicke in die Praxis der Annotation ausgewählter Objekttypen (Text, Bild, Video) gegeben. Mit der DARIAH-DE Annotation Sandbox wird ein neuer Service vorgestellt, der das Tool Annotator.js mit dem TextGrid/DARIAH-DE-Repositorium verknüpft. Ein Abschnitt zu Annotationen im (Semantic) Web ergänzt diesen Bereich, bevor abschließend Anforderungen an Infrastrukturen abgeleitet werden.

Abstract

A theoretic foundation is followed by specific insights on strategies of the annotation of selected object types (text, image, video). With the DARIAH-DE Annotation Sandbox a new service is introduced linking up the tool Annotator.js with the TextGrid/DARIAH-DE-Repositorium. A passage on annotation in the (semantic) web complements this perspective. The article concludes with infrastructure requirements.

Schlüsselwörter: Kollaboration; Werkzeuge; Forschungsprozess; Forschungskulturen; Semantic Web; Annotation

Keywords: Collaboration; tools; research cycle; research cultures; semantic web; annotation

1 Einleitung

Der Beitrag basiert auf dem DARIAH-DE-Report 6.2.1 „Digitale Annotationen: ‚Best Practices‘ und Potentiale“.1 Er wurde für die vorliegende Veröffentlichung gekürzt und überarbeitet. Während der erste Teil des Reports in theoretischer Perspektive aktuelle Diskussionen aus der europäischen Forschungsdebatte (z. B. aus der DARIAH-EU Working Group Digital Annotation) thematisierte, standen im zweiten Teil vor allem praktische Annotationsszenarien aus der deutschsprachigen Forschungslandschaft im Mittelpunkt. Stärker noch als im Report werden im vorliegenden Kontext exemplarische Herausforderungen und Lösungen aus dem direkten Umfeld von DARIAH-DE und ausgewählter assoziierter Projekte vorgestellt, die sich mit der Annotation unterschiedlicher Objekttypen befassen. Neben der Dokumentation vorhandener Annotationswerkzeuge2 sowie der Spezifikation, Entwicklung und Integration von Annotationsdiensten in die DARIAH-DE-Infrastruktur3 ist besonders der Dialog mit der deutschsprachigen Forschungscommunity hervorzuheben, wie er z. B. in diversen Round Tables zum digitalen Annotieren4 sowie innerhalb des kürzlich bei der Gesellschaft für Informatik eingerichteten Arbeitskreises „Wissenschaftliche Annotationstechniken“5 geführt wird, der damit weit über den engeren Kontext von DARIAH und den assoziierten Projekten hinausgeht. Und auch die kollaborative, von DARIAH-DE gepflegte Doing Digital Humanities Bibliography bietet eine gesonderte Collection für das Annotationsthema.6

Im Folgenden werden nach einer kurzen theoretischen Grundlegung anhand konkreter Beispiele Einblicke in die Praxis der Annotation ausgewählter Objekttypen (Text, Bild, Video) gegeben. Im Anschluss wird mit der DARIAH-DE Annotation Sandbox ein neuer Service vorgestellt, der das Tool Annotator.js mit dem TextGrid/DARIAH-DE-Repositorium verknüpft. Ein Abschnitt zu Annotationen im Web liefert einen erweiterten (Über-)Blick über diesen Bereich, der schließlich in eine Reflexion zu Semantic-Web-Strategien mündet. Abschließend werden Anforderungen an Infrastrukturen zusammengefasst.

2 Digitales Annotieren als Forschungskultur und Forschungsinteresse

Das Annotieren von Dokumenten und Texten zum Zweck ihrer informativen Anreicherung oder der Vorbereitung anschließender Aktivitäten ist eine jahrhundertealte Praxis. Dies gilt nicht nur, aber gerade auch in der Wissenschaft und in wissensverarbeitenden Aktivitäten. In einer informationswissenschaftlich angelegten Erörterung führen Agosti, Bonfiglio-Dosio und Ferro (2007) das Annotieren auf historische Phänomene wie die Glosse oder das Scholium zurück. Erläuternde Glossen zu Homer gibt es bereits im 5. Jahrhundert v. Chr. Bélanger bezeichnet das Annotieren als eine „Informationsarbeit“7, die sich durch alle Phasen eines Forschungsprozesses hindurchziehen kann. Damit kann das Annotieren als eine der ältesten und allgegenwärtigsten wissenschaftlichen Praktiken bezeichnet werden, die es gibt. Nicht zuletzt deshalb zählt Unsworth das Annotieren zu den sogenannten „scholarly primitives“.8

Die Bedeutung des Annotierens hat durch die Entwicklung digitaler Technologien und digital medialisierter Forschungspraxis nicht nachgelassen, ein signifikanter Anstieg an Projekten und Aktivitäten um das Thema digitaler Annotationen zeugt vielmehr vom genauen Gegenteil. Die auf der Ebene des World-Wide-Web-Konsortiums angelegten Arbeitsgruppen Open Annotation und Web Annotation, die annotationsspezifischen Arbeitspakete in Forschungsinfrastrukturprojekten wie EUDAT, DARIAH oder DASISH, aber auch der Erfolg von Projekten wie hypothes.is und Pelagios sind nur einige wenige Beispiele hierfür.

Die unter dem Begriff des Annotierens subsumierten Aktivitäten sind dabei sowohl quantitativ als auch qualitativ substantiell erweitert worden. Digitale Surrogate von vormals schwierig zu annotierenden Objekten wie Bildern und Videos können nun leicht annotiert werden. Neue wissenschaftliche Aktivitäten wie die automatisierte Auswertung von Sensordaten bedienen sich dem Annotieren als Methodik. Nicht zuletzt führt die physische Entkoppelbarkeit der Annotation vom annotierten Objekt zu einer Veränderung des Objekts Annotation selbst.

Eine Konsequenz dieses Prozesses ist die Aufwertung von Annotationen von einem häufig sekundären Forschungsdesiderat hin zu einem gleichberechtigten und selbstständigen Forschungsergebnis. In diesem Sinne bezeichnet Roorda Annotationen als „Träger eigenständiger Elemente von Forschung“7a und plädiert in der Folge für ein neues Paradigma in der Archivierung, das es erlaubt, diesem Umstand Rechnung zu tragen.

Was heißt es jedoch, dieser Entwicklung Rechnung zu tragen? Die Bedingungen dafür, Annotationsdaten als einer wissenschaftlichen Kernressource in digitalen Umgebungen gerecht zu werden, haben eine technische und eine theoretische Dimension. In der Tat haben die zuvor aufgeführten Aktivitäten auf der Ebene der technischen Bedingungen substanzielle Fortschritte machen können. Dazu gehört die Definition eines semistandardisierten und weitreichend genutzten Datenmodells für Annotationen, die abstrakte Beschreibung interoperabler angrenzender Technologien sowie die Entwicklung konkreter Infrastruktur.

Die theoretischen Bedingungen sind jedoch nicht hinreichend erarbeitet und formuliert. Konkret stehen hinter diesen Bedingungen Fragen wie: Welche Zusammenhänge zwischen (digitaler) Forschungsmethodik und Annotationen gibt es? Welche Kontextdimensionen sind für Annotationen bedeutungskonstitutiv und sollten daher Bestandteil deskriptiver Metadatenbeschreibung von Annotationsdaten sein? Und schließlich: Was sind Annotationsdaten in Abgrenzung zu anderen Forschungsdaten?

Im genannten Datenmodell werden die ersten beiden Fragen zum Beispiel durch die Möglichkeit der Beschreibung der Motivation hinter den Annotationen adressiert. Die vereinfachende und teils beliebige Implementierung dieser Perspektive kann der Tragweite der Fragestellungen jedoch nicht gerecht werden.9 Chiang10 sowie Bauer und Zirker11 und andere liefern hier deutlich vielversprechendere Beiträge. Letztlich sind diese Fragen aber auch nur in Zusammenhang mit der systematischen Evaluation von konkreten Fallstudien digitaler Annotationspraktiken zu beantworten. Ein solcher Beitrag soll im Folgenden geleistet werden.

3 Annotieren unterschiedlicher Quellentypen12

3.1 Schrift-Text

Die schriftsprachliche Annotation schriftlicher (auch verschriftlichter) Texte kann die Vergabe von (z. B. beschreibenden, technischen oder bibliographischen) Metadaten, die textstrukturelle Annotation, Auszeichnungen auf der lexikalischen bzw. grammatischen Ebene sowie semantische Annotationen unterschiedlicher Tiefe bzw. Komplexität umfassen – je nach Gegenständen und Projektzielen bzw. Forschungsfragen. Sowohl die verschiedenen Gegenstände, die annotiert werden, als auch die unterschiedlichen Formen und Funktionen von Annotationen bilden ein inhaltlich und medial sehr heterogenes Spektrum. Auch im eingegrenzten Bereich von Schrifttexten (sowohl als Annotationsgegenstände als auch als Annotationsinhalte) ist die Vielfalt groß. Differenzierungen verschiedener Textsorten bzw. -typen und -klassen (in der Linguistik) sowie Gattungen und Genres (in der Literaturwissenschaft) erlauben einen Überblick über den Facettenreichtum des Bereichs.

Unterschiedliche Kategorisierungen zeigen zugleich, dass es Überschneidungen zwischen den Formen gibt und trennscharfe Abgrenzungen oft schwierig sind. Textsorten-Kategorisierungen werden in der Linguistik anhand verschiedener Faktoren bestimmt. Beispielsweise wurde versucht, eine systematische Differenzierung durch Merkmalsbündel zu erreichen,13 wobei die Bestimmung bzw. Abgrenzung und Gewichtung von Merkmalen oder durch pragmatische Unterscheidungen nach funktionalen oder situativen Gesichtspunkten,14 die jedoch auch keine eindeutige Systematisierung zulassen, problematisch ist. Das Gefüge literarischer Gattungen – auf die Unterteilung nach Aristoteles Poetik zurückgehend, die auch von Goethe aufgegriffen wurde – wird ebenfalls als im Wandel begriffen. Auch bzgl. literarischer Texte wird auf unterschiedlichen Ebenen und nach verschiedenen Konzepten differenziert; bspw. grenzt man auch Genres voneinander ab.15 Das Spektrum möglicher schriftsprachlicher Annotationsgegenstände umfasst also eine Formen-Vielfalt: von verschiedenen Sorten von Gebrauchstexten bis zu den unterschiedlichen Arten von Dichtung.

An Versuchen zur automatischen Erkennung von Textsorten und Gattungen wird geforscht,16 aber in der TEI (Text Encoding Initiative) wurde die beschriebene Vielfalt im Hinblick auf die strukturelle Textauszeichnung bisher nur ansatzweise aufgearbeitet. Die TEI bietet spezielle Auszeichnungen für Versdichtung („Verse“), Verschriftlichungen von Theater und anderen Aufführungen („performance text“), Transkription gesprochener Sprache, Wörterbücher, Beschreibungen von Handschriften und Faksimiles, für den textkritischen Apparat in Editionen sowie für nicht-schriftliche Komponenten.17 Standardisierte Textsorten- und Gattungsauszeichnungen sind (noch) nicht umgesetzt, ihre Standardisierung wäre aufgrund der heterogenen Systematisierungsansätze und Merkmalsbündel auch problematisch und nicht auf der rein strukturellen Ebene umsetzbar.

Allerdings gibt es Arbeitsgruppen und Initiativen, die sich mit der Standardisierung bestimmter Textsortenauszeichnungen befassen, z. B. Briefe und Tagebücher.18 Für bestimmte Inhaltsebenen gibt es hingegen TEI-Standards – etwa für Namen, Orte, Zeiten. Und auch für Annotationen sind Standards vorgesehen – sowohl für linguistische Merkmale als auch für Annotationen im Sinne von Notizen, also auch semantische Annotationsmöglichkeiten jenseits der Textstruktur.19

Schriftsprachliche Annotationen von Schrifttexten können also lexikalische und grammatische Merkmale auszeichnen (Lemmatisierung, Tokenisierung, Part-of-Speech-Tagging usw.), aber auch für komplexere semantische Merkmale, Notizen und Kommentierungen genutzt werden. Sie können der individuellen Textarbeit dienen, aber auch öffentlich sein. Sie können die Basis automatisierter Verarbeitungsprozesse bilden (bspw. in Form von Markierungen, Kennzeichnungen lexikalischer oder grammatischer Einheiten) und in Form von Schemata bzw. Taxonomien Datenmodellierungen darstellen.20 Annotationen können außerdem als Verlinkung zwischen digitalen Inhalten fungieren und somit intertextuelle Verweisungen und Kontextualisierungen explizit machen, aber auch selbst Ergebnisse wissenschaftlichen Arbeitens im Sinne von Mikropublikationen darstellen.21 Insofern besteht ein Zusammenhang zwischen Annotation, Textvernetzung und hypertextueller bzw. -medialer Produktion, also digitalem Schreiben bzw. Verfassen medial unterschiedlicher Inhalte, aber auch ein Bezug zu digitalen Editionen, die annotierend kommentiert werden können (Annotation als Stellenkommentar und eigene (Para-)Textsorte) und an die angeknüpft werden kann.

Im mit DARIAH-assoziierten Projekt ePoetics22 wurden sprach- und literaturtheoretische Schriften digitalisiert, annotiert und analysiert, wobei unterschiedliche Ebenen von Annotationen eingebracht wurden. Bei den Annotationsgegenständen handelt es sich um ‚Lehren der Dichtkunst‘, aber nicht im Sinne von normativen Regelpoetiken. Konkret umfasst das Corpus 20 Poetiken von 1770 – 1960, in denen sprach- und literaturtheoretisches Wissen diskursiv verhandelt wird. Als Beispiel für die Aushandlung theoretischer Konzepte in Poetiken wurde der Diskurs um den Begriff ‚Metapher‘ bzw. dessen Entwicklung gewählt. Problemstellungen für die digitale Annotation mit dem Ziel der computergestützten Auswertbarkeit liegen bei solchen Texten auf mehreren Ebenen vor: Das jeweilige Metaphernverständnis muss differenziert erschlossen und die Komponenten der Begriffsbestimmung müssen trennscharf kategorisiert werden können. Eine eindeutige Zuordnung zu Ansätzen bzw. Denkschulen der antiken Rhetorik soll erzielt und Bezüge zu anderen Poetiken sollen erfasst werden. Beispiele aus der Primärliteratur sind eindeutig den jeweiligen theoretischen Aspekten zuzuordnen. Und schließlich müssen die Textebenen und Referenzstrukturen der Poetik explizit gemacht werden – also wo der Autor selbst theoretisiert, wo zitiert oder paraphrasiert wird, inwiefern dies kenntlich gemacht wird oder nicht und wo vom ursprünglichen Text abgewichen wird. Dies wird durch die Annotation nach einem komplexen Schema umgesetzt. Die Annotationen werden einerseits in TEI-konformen XML-Dateien publiziert, andererseits aber auch als Grundlage von computergestützten Analysen und Visualisierungen genutzt. Die Inhalte der Annotationen umfassen also Angaben zu Referenzrelationen, konkrete Namen und Werke zitierter Autoren sowie Komponenten sprach- und literaturtheoretischer Kategorien. Als Werkzeuge wurden das Wagsoft UAM Corpus Tool23 sowie das TextGrid-Laboratory24 als kollaborative XML-Annotationsumgebung genutzt. Publiziert wird das Corpus im TextGrid/DARIAH-Repositorium25 sowie im Deutschen Textarchiv (DTA) der Berlin-Brandenburgischen Akademie der Wissenschaften.26

Das Corpus des Projekts Vernetzte Korrespondenzen27 besteht aus vielen Briefen unterschiedlicher Urheber, die an eine Vielzahl von Adressaten gerichtet sind. Hinter den Briefwechseln des Projekts verbirgt sich also nicht nur die Korrespondenz einiger Weniger untereinander. Das Exil bildet dabei das verbindende Element. Dies bringt spezielle Herausforderungen für das Annotieren mit sich. Einerseits müssen die Briefe TEI-konform ausgezeichnet werden, andererseits bildet das Anreichern mit Geokoordinaten, Normdaten zu Personen, ihren Berufen oder Konfessionen und bibliografischen Angaben einen Schwerpunkt des Projekts, was häufig nur mit großem Recherche-Aufwand zu realisieren ist. Als Tool wird FuD28 genutzt. Darüber hinaus soll aus dem Projekt ein manuell erstellter Thesaurus zur automatischen Verschlagwortung einzelner Briefe sowie eine interaktive Plattform zu Thema und Corpus hervorgehen. Die Annotationen dienen der Erforschung und Visualisierung sozialer, räumlicher, zeitlicher und thematischer Netze in Briefkorpora.

Im Projekt „Natur & Staat“, Teil des Graduiertenkollegs Knowledge Discovery in Scientific Literature,29 wird ebenfalls zur Metapher geforscht, allerdings steht dort nicht der Metaphernbegriff selbst, sondern die Annotation von Metaphern in (populär-)wissenschaftlichen Texten vom Anfang des 20. Jahrhunderts im Mittelpunkt. Ausgangspunkt für die digitale Annotation von Metaphern in diesen Quellentexten sind Metapherntheorien – insbesondere nach Lakoff, Johnson, Black und Gehring.30 Diese unterschiedlichen theoretischen Modelle erfordern Metaphernannotationen auf verschiedenen Ebenen, theoretische Herangehensweisen werden jeweils probeweise operationalisiert. Es werden Text-Abschnitte annotiert, die Metaphern-Teile darstellen, sowie die Relationen zwischen diesen Teilen (z. B. zwischen Source und Target, Bild-Spender und Bild-Empfänger). Als kollaboratives Annotationswerkzeug wird WebAnno31 genutzt. Die Annotationen sollen vor allem Kontextbrüche erfassen, die als Indikatoren für Metaphorik verstanden werden. Sie sollen als Trainingsdaten für einen Classifier genutzt werden, der automatisch Metaphern erkennen soll. WebAnno ist ein ursprünglich für CLARIN entwickeltes Tool zur Annotation von schriftsprachlichem Text.32 Es verfolgt einen ‚general purpose‘-Anspruch, der zugleich webbasierte, kollaborative Annotations-Arbeit ermöglicht. Dieses Annotationstool liegt – auch durch Communityfeedback – im dritten major-release vor (Apache Software License/ASL, Version 2), wird aktiv gepflegt, bietet Demo-Zugänge und ist sehr gut bei Github dokumentiert.33 Bei Youtube stehen zudem Tutorials zur Verfügung, die in die Arbeitsweise einführen.34 WebAnno zielt vor allem auf linguistische Anwendungsfälle mit einem bis zum zweiten Release insbesondere diesbezüglich hilfreichen Funktionsumfang, der vordefinierte Annotations-‚Schichten‘ umfasst (morphologische, syntaktische, semantische sowie part of speech, lemmata, named entities, dependency relations, coreference chains) sowie benutzerdefinierte Ebenen ermöglicht.35

Strukturell setzt WebAnno ein differenzierbares Nutzer-Rollenmodell um (Basis: „Manager“, „Annotators“, „Curator“; Support für ‚Inter-Annotator-Agreement‘), wobei neben (IAA-/progress-)Monitoring zusätzlich das Outsourcen segmentierbarer Aufgaben mittels einer Crowdsourcing-Schnittstelle unterstützt wird (CrowdFlower, ggf. Amazons Mechanical Turk). Innovativer Aspekt des Tools sind Optionen zur Automatisierung von Arbeitsschritten mittels nutzer- und taskspezifisch zuschaltbarer machine-learning-Komponenten, die nach jeweiligem Training, z. B. Annotations-Vorschläge, unterbreiten können.36 Auf die Offenheit der Architektur und bestehende Schnittstellen (neben DKPro-orientierten Annotationsschichten und crowdsourcing u. a. TCF und TEI) bauten in der Vergangenheit bereits verschiedene Vorhaben auf, z. B. Projekte zur Vorbereitung von Daten zur deutschen Named Entity Recognition oder der semantischen Annotation eines dänischen Referenzkorpus.

3.2 Bild

In den digitalen Geisteswissenschaften finden die Guidelines der Text Encoding Initiative (TEI) vielfache Anwendung. Auch wenn die TEI sich primär die Aufgabe gestellt hat, einen „Standard zur Repräsentation von Texten in digitaler Form“37 zu entwickeln und zu etablieren, enthalten die Richtlinien dennoch einige Elemente, die sich – wenn auch in begrenztem Maße – für die Annotation von Bildern eignen: <figure>, <graphic> und <figDesc> ermöglichen es, Bilder in Texten zu lokalisieren und zu beschreiben. Das Instrumentarium der TEI erlaubt also durchaus, Bild und Schrift in Beziehung zu setzen, doch immer vom Schrift-Text her gedacht. Eine eigenständige Repräsentation der visuellen Aspekte oder des Objektcharakters (jenseits der sprachlichen Textualität) kann (und will) die TEI nicht leisten.

Seit einigen Jahren widmet sich die Special Interest Group (SIG) Text and Graphics verstärkt den graphischen Komponenten. Zweck dieser SIG „will be to discuss, develop, and document various strategies and best practices for implementing the digital facsimile structures available in TEI P5, especially as relates to graphically rich texts, and for developing methods to extend the TEI when existing structures are not suitable.“38 Zudem gibt es mehrere Initiativen, die versuchen, den spezifischen Herausforderungen, die ‚bildlastige‘ Genres (Comic, Graphic Novel) an einen Auszeichnungsstandard stellen, gerecht zu werden, wie etwa das GraphML-Format39 oder die an die TEI-angelehnte Comic Book Markup Language.40

Besondere Beachtung verdienen die umfangreichen Sammlungen, deren Digitalisate (nur) aus gescannten Seitenabbildern (Images) bestehen. Die Unterstützung der Annotation solcher in Webseiten eingebetteten Bilddigitalisate ist gerade wegen ihres quantitativ bedeutenden Anteils in den großen geisteswissenschaftlichen Repositorien (wie etwa Handschriften, frühe Drucke, Periodika) von großer Bedeutung.41

Nicht zuletzt lässt sich gerade die manuelle Annotation dieser nicht maschinenlesbaren Seitenabbilder, wie sie für zahlreiche geisteswissenschaftlich relevante Repositorien typisch sind, als eine strukturierte Form der Erschließung von Quellen auffassen, an die wiederum computergestützte Suchalgorithmen, Auswertungs- (‚Distant Reading‘) und Visualisierungsverfahren anknüpfen können.42

Die Digitale Forschungsinfrastruktur von TextGrid und DARIAH-DE bietet mit dem Text-Bild-Link-Editor ein Werkzeug an, mit dem beliebige Segmente eines strukturierten Textes mit Bildausschnitten verknüpft werden können. Die entstandenen Links können als eigenständiges Objekt im TextGrid/DARIAH-Repositorium gespeichert und aufgerufen werden.43

Bei der ebenfalls in das TextGridLab integrierten OpenSource Software DigiLib44 standen von Anfang an die (kollaborative) Arbeit mit Bilddigitalisaten sowie großen Bildermengen und die Anforderungen der bildbasierten Wissenschaften im Zentrum der Entwicklung. Mit DigiLib können Markierungen auf dem digitalen Bild gemacht und als URL gespeichert werden. Erweitert wurde diese Funktionalität dadurch, dass mit der Annotation ein Text verbunden wurde, „um sich beispielsweise in Gruppen über Bilder auszutauschen“ sowie „Annotationen anderer Benutzer zu sehen, die das gleiche Bild annotiert haben“.45

Auch die Lüneburger Entwicklung HyperImage ermöglicht die kollaborative Forschung direkt am Bild ohne den Umweg der sprachlichen Bildbeschreibung.46 HyperImage knüpft sozusagen Fußnoten direkt an Bilder bzw. Bildauschnitte und verknüpft auch mehrere Bilder: „HyperImage realisiert die bildhafte Fußnote am Bild. Das bedeutet, dass präzise markierte Bilddetails mit anderen Bilddetails, Bildsammlungen und Texten hypertextuell verknüpft werden können. [...] Mit HyperImage können beliebig viele Details innerhalb eines Bildes präzise markiert und beschrieben sowie Annotationen des Corpus untereinander verlinkt und über Indizes erschlossen werden“.47 Zahlreiche Projekte wurden mit HyperImage realisiert, etwa der Nachlass der Künstlerin Anna Opermann48 oder die digitale Erschließung der mittelalterlichen Ebstorfer Weltkarte.49

Eine spezifische Anwendung von HyperImage wurde im BMBF-geförderten eHumanities-Projekt „Relationen im Raum“ angewandt.50 Ziel des Projekts war die Analyse und Visualisierung räumlicher Relationen zwischen Grabmälern jüdischer Friedhöfe. Hierzu wurden Lagepläne von Friedhöfen, auf denen die einzelnen Grabmale verzeichnet sind, digitalisiert und mit umfangreichen Datenbanken der Judaistik und der historischen Bauforschung hinterlegt. Über ein Suchinterface werden die Projektdatenbanken erschlossen und im Softwaresystem HyperImage visualisiert.51

Semantisch-topologische Annotationen von Bilddigitalisaten ermöglicht das im Rahmen von DARIAH-DE realisierte Werkzeug SemToNotes: „SemToNotes möchte im Besonderen zeigen, dass sich Bildinhalte nicht nur Mithilfe von textuellen Annotationen erklären und analysieren lassen, sondern auch durch graphische (nicht-textuelle) Annotationen“.52

3.3 Video

Ebenso wie digitale Bilder bzw. digitale Repräsentationen von Gemälden, Objekten etc. annotiert werden können, können es auch die einzelnen Bilder – genannt Frames – eines digital vorliegenden Videos. Der wesentliche Unterschied zwischen einem Bild und einem so genannten Bewegtbild besteht in der zeitlichen Dimension, d. h. darin, dass es sich bei letzterem um eine Abfolge von Bildern handelt. Im Gegensatz zur Filmtechnik, bei der die einzelnen Bilder – fixiert auf einem Celluloid-Streifen – nacheinander abgespielt werden, um einen Bewegungsablauf zu suggerieren, baut sich bei der Videotechnik allerdings jeder Frame halbzeilenweise auf, so dass ein sanfter Übergang zwischen den Videobildern geschaffen wird. Aus diesem Grund ist es etwa möglich, ein Video in Zeitlupe abzuspielen, ohne dass ein signifikanter Bruch erkennbar wäre. Es verwundert folglich nicht, dass Hyper Slow Motion ein probates Mittel vieler Videokünstler darstellt.53

Die zeitliche Dimension eines Videos bedeutet in der Konsequenz für die Annotationspraxis, dass nicht nur die einzelnen Frames eine Annotation erfahren können, z. B. in Form von Schlagworten, Transkriptionen bzw. Untertiteln des Gesagten, Beschreibungen, Georeferenzierungen oder einer Verlinkung dargestellter Inhalte auf ikonographisch verwandte Bildmotive aus Hoch- und Populärkultur, sondern dass auch ganze Abschnitte eines Videos, z. B. bestimmte Einstellungen, annotiert werden können – und zwar wiederum mit ganzen Abschnitten, nicht nur mit Stills. Eine Besonderheit ergibt sich hierbei, wenn einzelne Abschnitte eines Videos wechselseitig aufeinander verweisen, so dass neben externen Bezügen auch selbstreferentielle Praktiken aufgedeckt werden können, denen im postmodernen Diskurs eine bedeutende Rolle zukommt.

Voraussetzung für die Annotation von Bewegtbildern ist ein entsprechendes Datenbanksystem, wie es etwa Pan.do/ra bereitstellt. Matthias Arnold, Eric Decker und Thorsten Wübbena zeigen anhand einer Analyse des von Tarsem Singh umgesetzten Musikvideos zu R.E.M.s „Losing My Religion“ (1991) auf, wie die digitale Annotationstechnik eine bild- bzw. kunstwissenschaftliche Medienanalyse unterstützen kann, sich Informationstechnologie und Geisteswissenschaften also im Sinne der Digital Humanities fruchtbar verknüpfen und so einen Mehrwert erzielen, der über eine bloße Transformation analoger Methodiken ins Digitale hinausgeht.54 Um die vielfältigen kunst- und kulturgeschichtlichen Bezüge des beispielhaft ausgewählten Clips herausarbeiten zu können, muss mithilfe einer entsprechenden Annotationsplattform nicht länger der Umweg über Notizen in sprachlicher Textform gegangen werden, sondern es kann unmittelbar mit dem audiovisuellen Material selbst gearbeitet werden.

Ein Vorteil des webbasierten Ansatzes von Pan.do/ra besteht hierbei in der zeit- und ortsabhängigen Verfügbarkeit der zu bearbeitenden Inhalte, so dass mehrere Personen über das Netz zusammenarbeiten können. Ein anderer besteht darin, dass die Ergebnisse intuitiv nachnutzbar sind, insofern, als die Software ein „exploratives Sehen“ ermöglicht, da Benutzer „an den entscheidenden Punkten auf die Bezüge hingewiesen werden, nach denen sie nicht recherchieren konnten, weil sie schlicht nichts davon wussten.“55 Aufgrund des komplexen Rechtemanagements der Software ist es hierbei möglich, die Annotationen nach Autoren zu filtern und den Annotationsprozess nachzuvollziehen. Darüber hinaus besteht die Möglichkeit, Ausschnitte zu exportieren, um sie etwa in digitale Publikationsformate einzubetten. Neben Funktionen zur manuellen Annotation von Videoclips ist eine automatisierte Repräsentation des gesamten Videos in der digitalen Softwareumgebung von Relevanz, um sich einen Überblick über das gesamte Material zu verschaffen und hierin zu browsen. Ein weiteres relevantes Feature von Pan.do/ra stellt die Timeline dar, die in den vier unterschiedlichen Modi anti-alias, slit-scan, keyframes und waveform angeboten wird. Um die visuelle Struktur eines Videos zu erfassen, sind insbesondere die Ansichtsmodi anti-alias und slit-scan von großem Interesse, insofern, als hier die durchschnittlichen Farbwerte eines Frames dargestellt und Schnitte sichtbar gemacht werden. Dergestalt ist die Timeline ein Mittel, das Davis in seiner Untersuchung eines frühen Videoarchiv-Prototyps als Videogramm bezeichnet und das als visuelle Signatur eines Videos verstanden werden kann, da es trotz des temporalen Charakters eines Videos dessen Struktur auf einen Blick wiedergibt: „A videogram is made by grabbing a center strip from every video frame and concatenating them together. [...] the videogram represents the fine temporal resolution of the dynamics of the video with a reduced spatial resolution“.56

Helligkeit, Sättigung etc. einzelner Frames können analysiert und Schnitte erkannt werden. Es können folglich Durchschnittswerte für das gesamte Video berechnet und als Metadaten bereitgestellt werden. Diese können aber auch, wie eben geschildert, in Form einer Timeline visualisiert werden. Derartige automatisierte Analysen und Visualisierungen des Videomaterials sowie Weiterentwicklungen im Bereich des „(semi-)automatische[n] Erkennen[s] und Verfolgen[s] von Gesichtern, Gegenständen bzw. Mustern im Film“57 sind wünschenswert. Ebenso ist es die weitere Einbindung kontrollierter Vokabulare, um den manuellen Annotationsprozess und damit die kollaborativ-wissenschaftliche und nachnutzbare Auseinandersetzung mit Bewegtbildern und der ihnen eigenen Sprache zu unterstützen.

4 Nutzungsszenarien digitaler Annotation

Da sowohl die zu annotierenden Gegenstände bzw. Quellentypen als auch die Annotationsverfahren aufgrund unterschiedlicher Forschungsfragen, Zielsetzungen und Annotationstiefen bzw. -granularitäten sehr unterschiedliche Anforderungen mit sich bringen, kommen häufig spezifische Werkzeuge zum Einsatz. Dennoch gibt es auch einen gemeinsamen Kern an Anforderungen und Einsatzmöglichkeiten, die mit einem generischen Werkzeug gut zu bewältigen sind. Daher wurde mit Annotator.js58 ein solcher generischer Annotationsdienst in die DARIAH-DE Infrastruktur integriert.

4.1 DARIAH-DE Annotation Sandbox

Die seit Januar 2016 in einer Beta-Version vorliegende DARIAH-DE Annotation Sandbox erlaubt das Annotieren von Text- und Bild-Daten, die im TextGrid-Repositorium publiziert wurden, und von Webseiten, die über das DARIAH-DE annotation proxy verfügbar sind,59 und demonstriert damit die Potenziale des webbasierten und auch kollaborativen Annotierens. Die Wahl fiel aus mehreren Gründen auf Annotator.js: Es ist ein ‚lightweight tool‘ und sehr gut dokumentiert, zudem bereits verankert in der internationalen DH-Community, denn es wird von zahlreichen Projekten verwendet und unterstützt. Es beweist damit seine für ein breites Spektrum unterschiedlichster Annotationsszenarien im Bereich der Text- und Bildannotation erprobte, vielseitige Eignung.60

Die Integration verbindet verschiedene Komponenten und sieht konkret so aus, dass das TextGrid-Repositorium mit einem Annotations-Login erweitert wurde, was sowohl Einzel- als auch Gruppenannotationen der im Repositorium publizierten Texteditionen erlaubt.61 Ein Annotationsplugin der Open-Source-Software DigiLib ermöglicht die Annotation von Bilddigitalisaten.62 Die Sandbox verbindet auf diese Weise Forschungsprimärdaten, ihre Nachnutzung, Anreicherung und Analyse sowie die daraus entstehenden Ergebnisse, die wiederum in einem digital unterstützten (kollaborativen) Forschungszyklus zu Primärdaten werden können.

Darüber hinaus kann über die Webseite der DARIAH-DE Annotation Sandbox jede beliebige Webseite annotiert werden. Als weitere Option kann der DARIAH-DE-Annotationsservice in eigene Webseiten eingebettet werden, wobei die Nutzung bei Bedarf auch auf eingeloggte Nutzer beschränkt und damit kontrolliert werden kann.63 Die erzeugten Annotationen werden im DARIAH-DE Annotationsstorage gespeichert und können im AnnotationManager,64 sofern es sich um öffentliche Annotationen handelt, gegebenenfalls inklusive der den Annotationen beigegebenen Tags (=Labels) angezeigt werden. Nach der Beta-Phase, die der Erprobung und dem Testen dient, können mit der Integration von Annotator.js also nicht nur Forschungsdaten, sondern auch Annotationen dauerhaft in einer sicheren Forschungsinfrastruktur verwaltet und archiviert werden. Hier sind einige Weiterentwicklungen denkbar:

  • Tags und Labels ermöglichen die gezielte, gegebenenfalls projekt- und disziplinübergreifende Auswertung fachwissenschaftlicher Annotationen (sofern das Rollen- und Rechtemanagement der Annotation dies zulassen).

  • Die Anbindung der Annotationen an Ontologien wie z. B. TaDiRAH65 könnte die Nachnutzung von Annotationen wesentlich erhöhen.

  • Die Integration von Annotationen in die Generic Search66 erlaubt das Durchsuchen einer weiteren Textdimension.

Weitere Nutzungsszenarien sind im DARIAH-Meilenstein 6.2.1 beschrieben.67

4.2 Annotieren im Web

Mit der längst selbstverständlich gewordenen digitalen (Online-)Veröffentlichung von Quellen des kulturellen Erbes, Forschungsdaten und -ergebnissen ist die Notwendigkeit der Neu- und Weiterentwicklung von zeitgemäßen Arbeitstechniken verbunden. Auch das (kollaborative) Annotieren als Kulturtechnik sollte in digitalen (Online-)Dokumenten uneingeschränkt möglich sein. Das Notieren von Fundstellen und Anmerkungen, das ‚Festhalten‘ des Entdeckten, Erkannten oder Entzifferten – essenzielle Tätigkeiten im wissenschaftlichen Forschungsprozess – müssen in einer Transformation von einer analogen in eine virtuelle Arbeitsumgebung ohne Medienbruch direkt in der digitalen Online-Quelle möglich werden, damit der Forschungsprozess wirksam digital unterstützt werden kann. Auf diese Weise lassen sich beliebige Quellen durch bidirektionale und punktgenaue, feingranulare Verknüpfungen zuverlässig vernetzen.68 Das Thema Web-Annotation steht demnach im Zentrum von Überlegungen virtueller Infrastrukturen und Forschungsumgebungen und lässt breite, disziplin- und anwendungsübergreifende Nutzungsszenarien schon jetzt erkennen und mehr noch erwarten.

4.3 Verfahren der Web-Annotation

Entsprechende Tools wie Pundit,69 Annotator.js70 oder Hypothes.is71 zielen auf die Annotation von über das Web erreichbaren Ressourcen und zeichnen sich durch ein einfaches, intuitives Benutzerinterface aus. Die grundlegende Funktion ist jeweils ähnlich oder vergleichbar: Webseiten werden durch die Einbettung von JavaScript-Codes annotierbar. Dies kann entweder durch direktes Einbetten durch den Anbieter der Webseite ermöglicht werden oder durch sogenannte Bookmarklets, durch Browser-Plugins bzw. -Extensions oder durch einen Proxy-Service72 – ersteres ist derzeit noch seltener anzutreffen. Web-Annotationen können öffentlich sichtbar gemacht werden, bei vorausgesetztem Benutzer-Account optional auch nur einem geschlossenen Benutzerkreis zugänglich sein, also ‚privat‘. Alle Annotationen werden auf einem zentralen Server in einem Store oder Stream zusammengeführt.73

Für die wissenschaftliche Anwendung sind jedoch Anforderungen an die infrastrukturelle Unterstützung eines Web-Annotationssystems weitaus komplexer.74 Das betrifft unter anderem ausdifferenzierte Eigenschaften der Authentifizierung und Autorisierung (u. a. privates versus öffentliches Teilen, vor allem Gruppenrechte), ferner die nachhaltige Datenhaltung von Web-Annotationen als Mikro- oder Nanopublikationen75, die präzise, eindeutige und dauerhafte Referenzierung, soweit möglich die Rückbindung an Quellformate in Repositorien (etwa an XML-Knoten, IDs oder Datenbankfelder), die Einbeziehung von semantischen Strukturen und Normdaten sowie die Kommentierung multipler Web-Quellen in einer Annotation (multiple targets). Und auch die Vielfalt der benötigten Formate ist eine Herausforderung: Die für die Geisteswissenschaften relevanten Online-Quellen und Repositorien basieren auf höchst unterschiedlichen Technologien76 und liefern unterschiedlichste Formate. Ein in der Praxis tatsächlich nutzbares Werkzeug muss diese Vielfalt überspannen können – Medienbrüche gilt es zu vermeiden.

4.4 Anwendungsszenarien für Webannotationen

Webannotationstechniken sind in ganz unterschiedlichen Phasen des wissenschaftlichen Arbeitens anwendbar. Sie können den Forschungsprozess unterstützen, Redaktionsprozesse begleiten, eine breite Fachdiskussion nach der Veröffentlichung der Ergebnisse ermöglichen. Potenzial wird insbesondere auch, über die Forschung hinaus, in ihrer Anwendung in der Lehre gesehen.77

Im geisteswissenschaftlichen Forschungsprozess, der insbesondere auch auf der Analyse und Kommentierung unterschiedlicher Quellen basiert, ist die Zusammenführung der Hinweise, Rechercheergebnisse und der eigenen Anmerkungen unverzichtbar. Die im Laufe der Forschung wachsende Materialsammlung, die Diversität an Notizen und Verweisen kann auf diese Weise in ein einheitliches System zusammengefügt und im Idealfall durch Anwendung von Normdaten, kontrollierten Vokabularen oder auch domänenspezifischen Auszeichnungen strukturiert werden.

Webannotationen sind heute aber auch geeignet, diese zunächst eher individuelle Perspektive zu überschreiten. Schon während der Forschung – also vor der Veröffentlichung – kann es nützlich sein, Quellen kollaborativ zu erschließen, also Annotationen nicht ‚privat‘ zu halten, sondern zu ‚teilen‘. Das mag das kollaborative Zusammenwirken einer zunächst geschlossenen (projektbezogenen) Arbeitsgruppe betreffen, kann aber je nach Bedarf auch gleich öffentlich erfolgen. Öffentliche Annotationen einer Fachcommunity im letzteren Sinne wären auch ein Beispiel für sichtbar werdende Forschungsdaten, die üblicherweise bisher ‚in der Schublade‘ blieben.78 Die konsequente Nutzung von Tags erlaubt dabei das thematische Filtern der gespeicherten Annotationen. Sowohl die Plattform Hypothes.is als auch die DARIAH-DE-Annotator-Komponente bieten dieses Szenario.

4.5 Ausblick

Für die wissenschaftliche Nutzung von Webannotationen stellt sich die Herausforderung, dass sie nicht durch konkurrierende Plattformen und den nicht ganz einfach zu leistenden Spagat zwischen eher generischen und eindeutig fachspezifischen Use Cases in zerstreute inkompatible (nicht mehr interoperable) Nischen zerfallen. Hier sind vor allem Standards wie das Open Annotation Data Model,79 maschinenlesbare Schnittstellen sowie die konsequente Unterstützung von kontrollierten Vokabularien und Normdaten gefragt, die die Einbettung in das Semantic Web erlauben.

4.6 Digitale Annotationen und das Semantic Web

Digitale Annotationen im Web bekommen mit der Entwicklung des Semantic Web eine tragfähige und nachhaltige technologische Basis. Seit der Entstehung des Social Web werden Internetnutzern Plattformen zur Verfügung gestellt, um Information im Web zu veröffentlichen und zugänglich zu machen, mit anderen zu kommunizieren und zu kollaborieren. Sie haben ferner die Möglichkeit, plattformübergreifend zu publizieren, Inhalte weiter zu verwenden und zu vermischen. Nicht zuletzt im Kontext kollaborativer semantischer Anwendungen gilt Standardisierung dabei als Grundlage für die Zugänglichkeit und Nutzbarkeit dieser Informationen.

Das Semantic Web bietet einen Rahmen, der es möglich macht, Information zu formalisieren, auf Basis eines einheitlichen Vokabulars sowie gemeinsamer Konzepte und Modelle disziplin- und plattformübergreifend zu teilen und wiederzuverwenden. Damit gewinnt die Entwicklung intelligenter Kollektionen sowie die nutzergenerierte Komposition, Integration und Aggregation von Inhalten entscheidende Relevanz. Mit Semantic-Web-Technologien können Informationen auf eine neue Weise verwaltet und erschlossen werden, indem ein Netz geknüpft wird, in dem Objekte direkt aufeinander verweisen. Dieser Prozess umfasst dabei die Generierung und Nutzung von Metadaten auf zwei Ebenen: einerseits zur Beschreibung der Dokumenteninhalte, andererseits der Entitäten innerhalb eines Dokuments.80 Für das webbasierte semantische Annotieren ist charakteristisch, diese Metadaten nicht nur mit eindeutigen Identifikatoren zu versehen, um ihre Interoperabilität und eindeutige Referenzierbarkeit zu gewährleisten, sondern darüber hinaus Verknüpfungen zwischen Ressourcen herzustellen und diese zu typisieren.

Die Grundlage bilden die Konzepte des Semantic Web:81

  • Jede/r kann etwas zu einem Thema sagen (AAA Slogan),

  • eine Wissensbasis ist immer potenziell unvollständig, d. h. alles, was nicht modelliert wurde, wird als nicht existent angenommen (open world/closed world),

  • darüber hinaus kann jede Entität mit mehr als nur einem Bezeichner beschrieben werden (non-unique naming),

  • es ist ein organisches Wachstum zu erwarten (network effect).

In diesem Zusammenhang beeinflussen die spezifische Zielsetzung des annotierenden Nutzers sowie das Werkzeug den Annotationsprozess. Schwierigkeiten entstehen insbesondere bei der Formalisierung von Wissen mithilfe von semantischen Editoren und browserbasierten Werkzeugen sowie bei der Darstellung und Nutzung semantischer Information für Anfragen und das Browsen. Mit RDF/OWL82 wird ein standardisierter Formalismus als Datenmodell zugrundegelegt, der es erlaubt, Information über das Web zu verteilen und zu verknüpfen. Der Prozess des semantischen Annotierens von Web-Ressourcen umfasst, wie bereits beschrieben, in der Regel das Hinzufügen von Informationen, ohne dabei die ursprüngliche Ressource zu verändern. Zudem gibt es drei verschiedene Ansätze, die entstandenen Annotationen zu speichern:

  • Der einfachste Ansatz ist, diese zusammen mit der annotierten Ressource lokal vorzuhalten.

  • Alternativ besteht die Möglichkeit, die Annotationen separat in einem Dokument zu speichern und zusammen mit der Ressource in einem Browser zu laden.

  • Schließlich gibt es noch die Option, Annotationen direkt in eine Webseite einzubetten.

Als wichtige Werkzeuge und Entwicklungen in diesem Bereich lassen sich die folgenden identifizieren:

  • Annotea ist als W3C-Projekt der De-facto-Standard zur kollaborativen Annotation beliebiger Dokumente oder dem Teilen von Dokumenten. Die Annotationen werden parallel auf einem Annotations-Server gespeichert und zusammen mit dem Dokument geladen. Ein Zeiger verlinkt dann die Annotation und den entsprechenden Teil im Dokument.

  • Neonion unterstützt ebenfalls das kollaborative Annotieren basierend auf Annotator.js, einer JavaScriptBibliothek zur Integration und Speicherung authentifizierter Annotationen. Neonion ermöglicht die Annotation von Dokumenten auf unterschiedlichen Ebenen und integriert zudem automatische Annotationsdienste.

  • Catch integriert verschiedene Annotationswerkzeuge basierend auf Annotator und aggregiert die gespeicherten Annotationen angebundener Server. Insbesondere die getrennte Speicherung der Annotationen hat diverse Vorteile und bietet mehr Flexibilität hinsichtlich des Zugriffs, der Nutzung, Verarbeitung und Auswertung dieser Annotationen.

Die verschiedenen Ansätze erfüllen vorrangig spezifische Benutzeranforderungen und kommen zunächst ohne die Einbindung von Ontologien aus. Ontologien können jedoch nicht nur genutzt werden, um Annotationen zu generieren, sondern auch, um diese einer Validierung und Qualitätskontrolle zu unterziehen und Schlussfolgerungen über den Annotationsgegenstand zu ziehen.83 Auch die disziplinübergreifende Verlinkung fachspezifischer Annotationen wird möglich. Es gibt zahlreiche Beispiele für das ontologiebasierte Annotieren.84 Eine aktuell vielversprechende Lösung ist das oben bereits erwähnte Pundit, das Nutzern das Annotieren einer Webseite durch Hinzufügen strukturierter semantischer Auszeichnungen in RDF ermöglicht. Das Framework basiert auf dem Open Annotation Model (OAM), das die konzeptionelle Basis für eine Verlinkung von Ressourcen liefert. Unterstützt werden der kollaborative Annotationsprozess ebenso wie das Nachnutzen von Annotationen anderer Anwender. Grundlage dafür ist ein gemeinsames und erweiterbares konzeptionelles Modell zur Repräsentation der Annotationen.

5 Fazit: Anforderungen an Annotationswerkzeuge und digitale Infrastrukturen

Auf Basis der bislang beschriebenen Formen und Funktionen von Annotationen lassen sich einige allgemeine Anforderungen an Annotationswerkzeuge und digitale Infrastrukturen identifizieren:

  • Ein entscheidender Anforderungsbereich ist die Organisation der inhaltlichen Komponente, also der Annotationsgegenstände und der Annotationsinhalte in einem stabilen System – z. B. durch ein Digital Asset Management System mit Schnittstellen zur Anwendungsprogrammierung (APIs) – als Basis für das Anbinden von Annotationstools.

  • Die Verfügbarkeit von Daten spielt eine entscheidende Rolle – zum einen im Hinblick auf annotierbare digitale Gegenstände, zum anderen auf Daten, die als Annotationsinhalte oder Anreicherungen genutzt werden können, z. B. Normdaten.

  • Ferner ist der Anforderungsbereich der Beschreibungssprachen von Bedeutung, z. B. die Berücksichtigung bestehender Austausch- und Beschreibungsformate wie das Open Data Annotation Model.

  • Die Verknüpfbarkeit (auch mit anderen Annotationsgegenständen sowie anderen Annotationsschichten), Importier- und Exportierbarkeit von Inhalten muss über diese inhaltliche Organisation geregelt werden können. Dies muss z. B. die Möglichkeit umfassen, verschiedene Komponenten zu gruppieren und gemeinsam zu referenzieren – und zwar nicht nur hinsichtlich ganzer Dateien, sondern auch im Hinblick auf einzelne Elemente. In Bezug auf graphische Annotationen wären das z. B. bestimmte Formen und Koordinaten, auf schriftliche Texte bezogen Größen wie Absätze, Paragraphen, Sätze, Wörter usw.

  • Eine weitere Anforderung an die Organisation der Inhalte besteht darin, verschiedene Annotationsebenen ein- und ausblenden zu können, Annotationen also nach unterschiedlichen Layern zu organisieren.

  • Die inhaltliche Organisation ist also auch Voraussetzung für die Organisation von Arbeitsprozessen – auch im Hinblick auf das verteilte, kollaborative Arbeiten. Neben der Versionierung steht hier ein feingranulares Zugriffs- und Rechtemanagement im Mittelpunkt unter Berücksichtigung der Akteure (z. B. Individuen, Gruppen, angeschlossene Maschinen/Services, Disziplinen, Öffentlichkeit) auf Basis spezifischer Aktionen (z. B. lesen, verändern, versionieren, löschen, veröffentlichen, drucken, exportieren, weiternutzen). Die aufgeführten Punkte stehen in engem Zusammenhang mit der langfristigen Speicherung von Komponenten und verschiedenen Versionen, die im Workflow entstehen.

  • Urheber- und Zugriffs-Rechtefragen, Lizenzen und Datenschutz wurden ebenfalls mehrfach als Bedarfsaspekte in DARIAH-Workshops geäußert.

  • Nicht zu unterschätzen ist das Thema Usability, vereinfacht ausgedrückt die Erlernbarkeit und Bedienbarkeit der Interfaces der Infrastruktur sowie der Werkzeuge, auch um die Einstiegshürde gering zu halten.

  • Die Anforderungen an Infrastrukturen sind in den verschiedenen Projekten auch davon abhängig, wieviel IT-Kenntnisse und -Ressourcen projektintern vorhanden sind, inwiefern selbst programmiert werden kann und wie groß dementsprechend der Bedarf an der Nutzung von bestehenden externen IT-Ressourcen ist.

Obwohl sich zunehmend erste Ansätze und Werkzeuge etablieren, ist weitere Forschungsarbeit als Basis für die Entwicklung kollaborativer Werkzeuge zur Unterstützung interdisziplinärer Forschungsarbeit notwendig.

Literaturverzeichnis

  • Adamzik, Kirsten (2008): Textsorten und ihre Beschreibung. In: Nina Janich (Hg.): Textlinguistik – 15 Einführungen. Tübingen: Narr, 145–176.

  • Agosti, Maristella; Bonfiglio-Dosio, Giorgetta; Ferro, Nicola (2007): A Historical and Contemporary Study on Annotations to Derive Key Features for Systems Design. In: International Journal on Digital Libraries, 8 (1) 1–19. Verfügbar unter doi:10.1007/s00799-007-0010-0. [Crossref]

  • Allemang, Dean; Hendler, James (2008): Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL. San Francisco: Morgan Kaufmann.

  • Arnold, Matthias; Decker, Eric; Wübbena, Thorsten (2015): „Losing My Religion“ – Einsatz der Videoannotationsdatenbank Pan.do/ra in der kunstgeschichtlichen Analyse von Musikvideos. In: Baum, Constanze; Stäcker, Thomas: Grenzen und Möglichkeiten der Digital Humanities. (= Sonderband der Zeitschrift für digitale Geisteswissenschaften, Bd. 1). Verfügbar unter www.zfdg.de/sb001_018.

  • Bauer, Matthias; Zirker, Angelika (2015): Whipping Boys Explained: Literary Annotation and Digital Humanities. In: Siemens, Ray; Price, Kenneth M. (Eds.): Literary Studies in the Digital Age: An Evolving Anthology. MLA Commons.

  • Bélanger, Marie-Eve (2010): Annotations and the Digital Humanities Research Cycle: Implications for Personal Information Management. University of Toronto.

  • Bender, Michael; Alscher, Stefan (in Vorb.): Auf der Suche nach dem goldenen Baum. Digitale Annotation als Erkenntnisprozess und „tertium comparationis“ – am Beispiel der Auszeichnung des Metaphernbegriffs in Poetiken. In: Zeitschrift für digitale Geisteswissenschaften ZfdG. Verfügbar unter www.zfdg.de.

  • Bradley, John (2012): Towards a Richer Sense of Digital Annotation: Moving Beyond a „Media“ Orientation of the Annotation of Digital Objects. In: Digital Humanities Quarterly, 6 (2). Verfügbar unter www.digitalhumanities.org/dhq/vol/6/2/000121/000121.html.

  • Casties, Robert; Wintergrün, Dirk (2015): Bilder als Quelle in TextGrid. In: Neuroth, Heike; Rapp, Andrea; Söring, Sibylle (Hg.): TextGrid: Von der Community für die Community – Eine Virtuelle Forschungsumgebung für die Geisteswissenschaften, 153–163. Verfügbar unter http://dx.doi.org/10.3249/webdoc-3947. [Crossref]

  • Castilho, Richard Eckart de; Biemann, Chris; Gurevych, Iryna; Yimam, Seid Muhle (2014): WebAnno: a flexible, web-based annotation tool for CLARIN. In: Proceedings of the CLARIN Annual Conference (CAC). Verfügbar unter https://www.clarin.eu/content/papers-posters-and-demos-cac2014.

  • Chiang, Chia-Ning (2010): A Multi-Dimensional Approach to the Study of Online Annotation. Dissertation. University of British Columbia.

  • Davies, John; Studer, Rudi; Warren, Paul (2007): Semantic Web Technologies: Trends and Research in ontology-based Systems. San Francisco: Wiley.

  • Davis, Marc (1995): Media Streams: An Iconic Visual Language for Video Representation. In: Baecker, Ronald M.; Grudin, Jonathan; Buxton, William A. S.; Greenberg, Saul (eds.): Readings in Human Computer Interaction: Toward the Year 2000. San Francisco: Morgan Kaufmann. Verfügbar unter http://coral.ufsm.br/tielletcab/Nusi/HiperV/Biblio/PDF/Davis_MediaStreams.pdf.

  • Gehring, Petra; Gurevych, Iryna (2014): Suchen als Methode. Zu einigen Problemen digitaler Metapherndetektion. In: Journal Phänomenologie, 41, 99–109.

  • Handschuh, Siegfried; Staab, Steffen (2003): Annotation for the Semantic Web. Amsterdam: IOS Press.

  • Heinemann, Wolfgang (2000): Textsorte – Textmuster – Texttyp. In: Brinker, Klaus u. a. (Hg.): Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung. Bd. 1, Berlin, New York: De Gruyter.

  • Hunter, Jane (2009): Collaborative semantic tagging and annotation systems. In: Journal of Annual Review of Information Science and Technology, 43 (1), 1–84.

  • Lamping, Dieter (Hg.) (2009): Handbuch der literarischen Gattungen. Stuttgart: Kröner.

  • Lordick, Harald (2015a): Crossing Borders Through (Web) Annotations. Verfügbar unter http://dx.doi.org/10.5281/zenodo.32509. [Crossref]

  • Lordick, Harald (2015b): Digitale Annotation im Spiegel praktischer Web-Annotation – Erschließung heterogener (Bild-)Quellen. DHd2015. Verfügbar unter http://dx.doi.org/10.5281/zenodo.46422. [Crossref]

  • Lordick, Harald (2015c): Notizen zum Blog als Web-Annotation. Verfügbar unter http://djgd.hypotheses.org/532.

  • McCarty, Willard (2004): Modeling – A Study in Words and Meanings. In: A Companion to Digital Humanities, Hrsg. Susan Schreibman, Ray Siemens und John Unsworth, 254–271. Oxford: Blackwell.

  • Mehler, Alexander; Lobin, Henning (2004): Automatische Textanalyse Systeme und Methoden zur Annotation und Analyse natürlichsprachiger Texte. Wiesbaden: VS Verlag.

  • Nanopublication Guidelines (2013): Concept Web Alliance Working Draft 15 December 2013. Verfügbar unter www.nanopub.org/2013/WD-guidelines-20131215.

  • Raspe, Martin (2014): Perspektiven der Forschung – PDF? Digitale Bildwissenschaft zwischen gestern und morgen. Vortrag in der Sektion „Bedrohte Besitzstände, verlorene Werte? Die Geisteswissenschaft von der Kunst und die neuen digitalen Verfahren“. DHd 2014.

  • Rebentisch, Juliane (2003): Ästhetik der Installation. Frankfurt am Main: Suhrkamp.

  • Roorda, Dirk (2012): Annotations as a New Paradigm. Baltimore.

  • Sandig, Barbara (1975): Zur Differenzierung gebrauchsspezifischer Textsorten im Deutschen. In: Gülich, Elisabeth; Raible, Wolfgang (Hg.): Textsorten. Differenzierungskriterien aus linguistischer Sicht. 2. Aufl., Wiesbaden: Athenäum.

  • Schöch, Christoph (2014): Computergestützte literarische Gattungsstilistik. Verfügbar unter www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/schoech/cslg.

  • Sperberg-McQueen, Michael; Burnard, Lou (2015): TEI P5 Guidelines for Electronic Text Encoding and Interchange. Verfügbar unter www.tei-c.org/release/doc/tei-p5-doc/en/Guidelines.pdf.

  • Stadler, Peter; Veit, Joachim (Hg.) (2009): Digitale Edition zwischen Experiment und Standardisierung. Musik – Text – Codierung. Beihefte zu Editio. Tübingen: Niemeyer.

  • Unsworth, John (2000): Scholarly Primitives: What Methods Do Humanities Researchers Have in Common, and How Might Our Tools Reflect This. In: Humanities Computing: Formal Methods, Experimental Practice Symposium. King’s College, London. Verfügbar unter http://people.brandeis.edu/~unsworth/Kings.5-00/primitives.html.

  • Walkowski, Niels-Oliver (2016): Digitale Annotationen: Best Practices‘ und Potentiale I. 6.2.1. Teil I. Göttingen: DARIAH-DE.

About the article

Published Online: 2016-07-01

Published in Print: 2016-07-01


Citation Information: Bibliothek Forschung und Praxis, ISSN (Online) 1865-7648, ISSN (Print) 0341-4183, DOI: https://doi.org/10.1515/bfp-2016-0042. Export Citation

Comments (0)

Please log in or register to comment.
Log in