Die diesjährige DINI-Tagung startete mit einem Auftakt-Workshop „Linked Open Data“ von Adrian Pohl (hbz) und Felix Ostrowski (graphthinking GmbH). Die rund 40 Teilnehmer erhielten wenige Informationen zu Beginn und konnten sofort loslegen. Aufgeteilt in Namensräume, die durch die Tische gebildet wurden, wurden in einem Etherpad Bekanntschaftsbeziehungen untereinander in RDF (Resource Description Framework) abgebildet. Durch die Kommunikation am Tisch konnten die Namensräume problemlos kontrolliert werden. Mithilfe des Prädikats „knows“ wurden erst die Teilnehmer des eigenen Namensraums verknüpft, dann auch die Namensräume untereinander. Noch einen Schritt weiter ging es mittels Verknüpfung mit dem Namensraum der Wikipedia / DBpedia. Die Technologie von http-URI und von Präfixen sowie das Web als Giant Global Graph wurde leicht fasslich erklärt. Die Teilnehmer lernten, wie mittels Linked Data Aussagen über Dinge getroffen werden können, die sich (noch) nicht im Web befinden, wodurch das Web größere Granularität erhält. Die Workshop-Veranstalter führten nach einem Syntax-Check schließlich die Tripel der Teilnehmer zusammen. Mögliche SPARQL-Abfragen über den durch Crawling erzeugten Triplestore wurden demonstriert und nach etwas Übung durch die Teilnehmer selbst formuliert. Für alle ein gelungener Einstieg in die DINI-Tagung, der wiederholt werden sollte.
Die eigentliche Tagung startete mit der Begrüßung durch die Hausherrin Ute Schwens. Anschließend berichtete der DINI-Vorsitzende Andreas Degkwitz von den aktuellen Aktivitäten der DINI auf dem Feld der digitalen Langzeitarchivierung und verstärkten Kooperationen mit Rechenzentren, der dbv-Sektion 4 sowie DARIAH-DE, Textgrid und dem Kompetenznetzwerk Nestor. Danach begann das offizielle Tagungsprogramm mit der hochinteressanten Keynote „Allheilmittel oder Basis-Technologie – Was ist dran an Linked Data?“ von Sören Auer (Universität Bonn und Fraunhofer IAIS). Auer begrüßte zunächst die Begriffsprägung „Linked Open Data“ (LOD), die einen pragmatischeren Ansatz verkörpere als der Semantic-Web-Gedanke. Allerdings wüssten Unternehmen oder sogar Vertreter der Research Data Alliance noch wenig von diesen Konzepten, und es gebe noch viel zu tun, um Linked Data zu einer Basistechnologie zu machen. Linked Data sei nach der XML-Datenwelle etwas spät angetreten, nun sei es aber bei den populären Big-Data-Anliegen häufig so, dass es sich um verteilte Daten handelt, ohne dass dies den Protagonisten bewusst sei. Linked Data sei besonders interessant für Daten-Wertschöpfungsketten zwischen Organisationen. In Bibliotheken sei dieser Gedanke schon sehr lebendig, in anderen Institutionen müsse er noch „reifen“. Dagegen spiele das LOD-Thema bei Suchmaschinenanbietern schon eine Rolle (Google, bing und Yahoo kooperieren bei schema.org), ebenso auch im Pharma- und Lifescience-Bereich (Open Phacts, BioPortal). Weitere Anwendungen könnten Risikobewertung, Datenintegration in Unternehmen und Informationen entlang der Wertschöpfungskette (Verbraucherinformation) sein. Die Fraunhofer-Gesellschaft hat die Initiative Industrial Data Space begründet, um das Thema des Datenaustauschs prominenter zu platzieren. Damit soll ein Zwischenmodell zwischen dem „Pure Internet“ und den „Data Lakes“ bzw. Datensilos geschaffen werden, um einen geschützten Raum zum Datenaustausch zwischen Unternehmen zu bieten. RDF solle eine „Lingua Franca“ der Datenintegration werden. Logische Konsistenz sei bei einer bestimmten Mengengröße nicht mehr möglich, dennoch seien die Daten fähig, großen Mehrwert zu schaffen. RDF könne zwischen den verschiedenen Technologielandschaften moderieren und Brücken bauen. Die existierenden Vokabulare seien allerdings nicht geeignet für Cross-Domain-Anwendungen. Vor allem würden sie nicht konsequent weiterentwickelt. Mittels der Infrastruktur VoCol wolle man ein Git-basiertes Repositorium schaffen, um Vocabulary Engineering zu betreiben, Zusammenarbeit und Nachhaltigkeit zu unterstützen sowie Automatisierung zu ermöglichen. Für ein Projekt mit BMW befindet sich VoCol bereits im Einsatz. Bei jeder Änderung wird automatisch eine Dokumentation angelegt, SPARQL Endpunkte werden automatisch zur Verfügung gestellt und die Daten dereferenziert und visualisiert – alles Services, die bislang meist nur von Hand bereitgestellt werden. Wichtig sei es nun, die Nutzerbasis zu vergrößern und neue Domains zu erschließen. Dazu seien Wertschöpfungsketten geeignet, in Bibliotheken und darüber hinaus. Aus dem Publikum wurde die Frage nach Altdaten thematisiert, wenn Vokabulare verändert werden. Hier müsse teilweise automatisiert gearbeitet werden, um auch die darunterliegenden Daten zu aktualisieren, ergänzte der Referent. Gefragt nach Robustheit und Performanz der Anwendungen verwies Auer darauf, dass die Anwendungen häufig auf Open Source basieren und der Markt derzeit noch relativ klein sei. Je mehr dieser wachse, umso mehr werde auch investiert, um solche Probleme zu lösen. Fragen, die sich durch die ganze Tagung hindurchzogen, wurden somit schon in der Keynote angesprochen, insbesondere das Thema der noch ungenügenden Verbreitung der Technologie.
Nach der Keynote folgten Vorträge zu einzelnen Linked-Data-Anwendungen, zunächst von Pascal-Nicolas Becker (TU Berlin). Becker verwies zunächst darauf, dass Datenaustausch von Repositorien früher über Mailschnittstellen lief, so etwa bei arxiv. In der Repositorien-Welt gebe es heute den OAI-PMH-Standard, der aber etwa in der Google-Welt nicht angewendet werde. LOD schaffe die Möglichkeit, sich wieder stärker mit anderen Anbietern auszutauschen. Zwar sei es aus Aufwandsgründen unmöglich, die Daten selbst zu konvertieren, bei den Metadaten als beschreibenden Inhalten sei dies aber machbar, ebenso die Verlinkung auf die Dateien. Inzwischen ist die Linked-Data-Bereitstellung Standard der Repositoriensoftware, der nun umgesetzt und angewendet werden müsse. An der TU Berlin hat man das Repositorium um einen Triplestore ergänzt. Vorhandene Metadaten wurden in RDF konvertiert, weil so starke Konfigurierbarkeit möglich ist. Ein vermeidbarer Fehler könne sein, dass eigene URIs erzeugt werden, obwohl es bereits adäquate URIs gibt, was das Harvesting problematisch macht. Nur für eigene Entitäten sollten URIs geprägt werden, wobei ORCID hier ein Lösungsweg sein könnte. Aus dem Publikum wurde die Frage nach dem Mehrwert dieser Dienste gestellt. Becker verwies darauf, dass die jenseits von OAI-PMH bestehende Lücke durch Linked Data geschlossen werden könne.
Unter dem Titel „Zurück in die Zukunft – die NWBib und das Web“ blickte Adrian Pohl (hbz) zurück auf das Gründungsjahr der Nordrhein-Westfälischen Bibliographie (1987). Die Online-Katalogisierung hatte ursprünglich das Ziel einer effizienteren Druckproduktion. 2005 verschwand die NWBib vorerst im DeepWeb, bis 2010 LOD-Technologie ins Spiel kam. Und wiederum ging die NWBib mit Open Source Tools ins Web, wie Anfang der 1990er Jahre auf ihrer ersten Website. Nach einer mehrjährigen Phase der Forschung und Entwicklung arbeitet man nun an einem neuen Webauftritt mittels LOD-API. Alle Daten, angefangen von den Normdaten und Titeln bis hin zu den Suchen haben nun eine eigene URL. Die Daten werden nach wie vor in der Verbunddatenbank erfasst und täglich exportiert. Suchmaschinen können über URLs und HTML die Daten auffinden – wie in den 1990ern. Für die NWBib wurden schema.org-Metadaten ergänzt. Durch Mapping mit Wikidata können nun auch geobasierte Suchen nach Inhalten der Bibliographie durchgeführt werden. Zusätzlich können auch die Standorte der Bücher angezeigt werden. Alle Daten, angefangen von den Rohdaten bis zu den Skripten, sind unter offener Lizenz verfügbar. Pohl schloss mit den Worten: „Wir sehen uns in der Zukunft!“ Gefragt nach einem möglichen Echo aus dem kommerziellen Bereich verwies Pohl auf eine Anfrage des Navigationsanbieters TomTom auf das Sigelverzeichnis der Bibliotheken, das allerdings noch nicht als LOD zur Verfügung stehe.
Lambert Heller (TIB / Universitätsbibliothek Hannover) präsentierte den Semantic-Web-Dienst VIVO. VIVO stellt eine Ergänzung zu Forschungsinformationssystemen (FIS) dar. In einer Pilot-Anwendung wurden beispielsweise persönliche Daten von Wissenschaftlern bereitgestellt. Die Relationen zwischen Autoren und Werken wurden als RDF-Tripel modelliert. Dies ist ein besonders suchmaschinenfreundlicher Ansatz, der nur durch starke persönliche Webpräsenzen übertroffen werden kann. Eine weitere Anwendung betraf interaktive Ko-Autorschafts- und Themen-Netzwerke. Im Interesse der Wertschöpfungsketten (Auer) sei besonders interessant, wie die Daten in die Realisierungen eingehen, und in welcher Form sie ausgegeben werden. Ein Alignment des Kerndatensatzes Forschung wurde ebenfalls in VIVO realisiert. Darüber hinaus versuche man, von ResearchGate und weiteren nicht-institutionalisierten Wissenschaftsinfrastrukturen, aber ebenso von den Anwendungsszenarien junger Wissenschaftler zu lernen – eine Empfehlung, die Heller direkt an das Publikum richtete. Man kümmere sich außerdem um eine europaweite Vernetzung, auch unter Beteiligung von Firmen. Integrierte FIS hätten einen anderen Blickwinkel. So wachsen FIS linear aufgrund einer vorhersehbaren Anzahl von Berichtsfällen. Nicht immer sind FIS offen. LOD-basierte Webanwendungen wie VIVO würden dagegen einen exponentiell wachsenden Zusatznutzen bringen, weil sie Daten in Beziehung setzen. LOD-Entwicklungen verlangten nach dem eingesperrten „Datengold“ der FIS. Es fehle derzeit ein zuverlässiges Register der öffentlichen Zugangspunkte zu Forschungs-Metadaten, um das Potential von LOD auszuschöpfen. In der Diskussion verwies Sören Auer darauf, dass man mit VIVO am IAIS nur begrenzt zufrieden sei, weil sich das System als schwerfällig erwiesen habe – etwa bei der Integration von Daten. Lambert Heller entgegnete, dass dies bei strukturierten Daten nach seiner Erfahrung kein größeres Problem sei.
Stefan E. Funk (SUB Göttingen) berichtete zum Ende der Session vom DARIAH-DE Geo-Browser. Der Geo-Browser gehört zu den generischen Diensten dieser Forschungsinfrastruktur. Die Entwicklung begann mit dem europeana 4D interface (e4D). DARIAH-DE hostet seither den Dienst, ergänzt durch einige Eigenentwicklungen wie den Einbezug des Getty Thesaurus of Geographical Names (TGN) als semiautomatisierte Georeferenzierung. Künftig wolle man den offenen TGN auch über eine SPARQL-Schnittstelle nutzen. Weitere Integrationen mit TextGrid und DARIAH-DE seien geplant. Beata Mache (Steinheim-Institut) berichtete anschließend von Anwendungsszenarien des Geo-Browsers, etwa bei der Erforschung über die Verlaufszeit bzw. über den geographischen Bezug variierender Inhalte einer von ihr erforschten Zeitschrift. Ein besonderes Potential läge darin, Daten aus vergleichbaren Forschungsprojekten in Beziehung zu setzen. Für sie persönlich stelle die Bereitstellung geprüfter Daten für andere Forscher eine reizvolle Zukunftsvision dar. Aus dem Publikum wurden anschließend Fragen nach der Zahl der Anwender und nach der Integration von Daten gestellt, die man nicht selbst mit dem vom Geo-Browser bereitgestellten Data Sheet Editor erfasst hat. Die Zahl der Anwender ist bei den Betreibern nicht bekannt, wird aber als hoch eingeschätzt, da es sich um ein niedrigschwelliges Angebot handelt, in das Daten mittels schlichtem Copy-and-Paste übertragen werden können. Die Datenintegration sei auch jenseits des Editors möglich.
Der erste Tag schloss mit einer von Frank Scholze (KIT-Bibliothek) moderierten Podiumsdiskussion mit allen Vortragenden zum Thema „Nach dem Linked-Data-Hype: Baustellen, Erfolge und Erwartungen in der Praxis“. Lambert Heller stellte zu Beginn der Diskussion eine gewisse Ungleichzeitigkeit bei der LOD-Praxis fest und illustrierte dies mit dem Zitat von William Gibson: „Die Zukunft ist schon da. Sie ist bloß noch nicht gleichmäßig verteilt.“ Pascal-Nicolas Becker verwies darauf, dass es zwar genügend Daten gebe, es aber an Applikationen noch fehle. Sören Auer stellte fest, dass die Mehrzahl der Anwendungsbereiche noch gar nicht erschlossen sei. Im Fall der FIS sei das „Tal der Enttäuschungen“ (Hype-Zyklus) schon durchschritten, in anderen Fällen fehle die Nutzerbasis. Den Nutzern müsse der Umgang mit den Daten erleichtert werden, appellierte Stefan E. Funk. Beata Mache ergänzte, es gäbe schon Fälle, dass Geisteswissenschaftler sich von der informationstechnischen Entwicklung überrollt fühlten. Auch Frank Scholze resümierte aus den Vorträgen, dass man in der Breite auf dem „Plateau der Produktivität“ noch nicht angekommen sei. Stefan E. Funk stellte provokativ die Frage, ob RDF nur noch in Universitäten produktiv sei, worauf Lambert Heller anmerkte, man unterhalte sich zu viel über Technik. Eigentlich sei es eine kulturelle Frage, dass Interesse an den Daten entsteht. Adrian Pohl ergänzte, dass die Technologie schon vielfach angewendet werde, ohne dass man noch ausdrücklich darüber rede. Sören Auer bestätigte diesen Eindruck. Es gebe schon viele Erweiterungen, die auf der LOD-Technologie basieren, ohne dass man dies bemerke, und die als selbstverständlich wahrgenommen werden. Auch die DDB solle für LOD freigegeben werden, um das Experimentieren mit diesen Technologien zu erleichtern. Beata Mache sah eine „Grenze der Leidensfähigkeit“ in der Forschung erreicht. Die Menge der unstrukturierten Suchergebnisse in allgemeinen Suchmaschinen sei tatsächlich ein großes Problem. „Wenn ich merke, welchen Fortschritt ich mit der GND oder dem Geo-Browser erziele, bin ich eher bereit zum Experimentieren.“ Lambert Heller ergänzte, es gäbe vor allem kaum benutzerfreundliche Tools für Linked Data, etwa für die Verwendung von Normdaten in kollaborativen Bibliographen. Frank Scholze fragte abschließend danach, warum ausgerechnet Bibliothekare es nicht schafften, länderübergreifend Vokabulare zu pflegen. Wie könne man die Organisation solcher Anwendungen anschieben? Brauche es eine andere Organisationsform? Sören Auer sah einen allgemeinen Wandel in der Entwicklung sich vollziehen, der mit traditionellen Geschäftsmodellen nicht beschrieben werden könne. An den Anwendungen werde inzwischen weltweit gearbeitet, die Lebenszyklen seien viel schneller als früher. Die Open Source Communities berücksichtigten dies, ebenso wie etwa die Apache Corporate Governance. Es gebe das DBPedia Mappings Wiki, das als Organisationsform sehr gut funktioniere. Dies seien Elemente, die dazu beitragen, Kooperationsbarrieren zu senken. Beata Mache machte darauf aufmerksam, dass gerade die kleinen Fächer auf Sichtbarkeit angewiesen sind und hier ein besonderer Bedarf herrscht. Mit der Verwendung etwa der GND erreiche man hohe Popularität. Wissenschaftler bräuchten in jedem Fall verlässliche Organisationsformen, um den Zeitpunkt der Datenveröffentlichung zu kontrollieren. Auch seien niedrigschwellige Tools wesentlich, die es Wissenschaftlern mittels einfachen Copy-and-Paste erlauben, LOD zu nutzen.
Der zweite Tag startete mit einem Vortrag von Kai Eckert (HdM) und Markus Kaindl (Springer). Diese stellten eine aktuelle LOD-Plattform mit Kongressdaten aus dem Verlagsbereich vor, die sowohl Daten aus dem Hause Springer als auch andere Daten vereint. Die besondere Herausforderung besteht darin, laufend neue Daten zu integrieren. Die Ontologie ist dementsprechend auch noch nicht stabil, sondern wird laufend überarbeitet. Seit Veröffentlichung des Piloten erhalten die Entwickler auch kontinuierlich Rückmeldungen aus der Community, die berücksichtigt werden. Man versuche, mit sehr einfachen Daten zu arbeiten. Es werden Original-Daten von den Konferenz-Webseiten gespeichert. Zur Disambiguierung werden DBPedia und die GND eingesetzt. Grafische Aufbereitung und Visualisierung sind möglich. Gegenwärtig läuft ein Redesign. Weitere Konferenzen, insbesondere von LNCS und auch aus Technik und Maschinenbau sollen aufgenommen werden. Dezidierte Konferenzseiten zur Geschichte der Konferenzen, den meistzitierten Artikeln und erfolgreichsten Autoren sind geplant. Ziel sei es, nicht nur Springer-Konferenzen zu hosten, sondern ein wichtiges Portal für Konferenzen ganz allgemein zu werden. Der LOD-Pilot soll in den nächsten Monaten in das NPG Linked Data System integriert werden. Aus dem Publikum wurde ergänzt, dass man das Angebot begrüße und die Daten soeben in den heimischen Discovery-Service integriere.
Stephan Bartholmei (DNB) berichtete von den Erfolgsgeheimnissen des Kultur-Hackathon „Coding da Vinci“. In diesem Jahr wurden 53 Datensets zur Verfügung gestellt, ca. 150 Teilnehmer, darunter viele Studierende, sind der Standard bei den Veranstaltungen. Zunächst erwarten die Teilnehmer, dass Kulturdaten vor allem Buchscans sind, sind dann aber von der Vielfalt der Objekte begeistert. Die interessantesten Objekte seien allerdings meist am schlechtesten erschlossen. Insbesondere die GND war ein wichtiger Motor, um LOD mit Kulturdaten zu promoten. Bartholmei schloss mit einer Reihe von Beispielen, die im Rahmen der Hackathons entstanden. Die App „Mnemosyne“ wurde 2014 entwickelt und hat seither mehrere internationale Preise gewonnen. „Großstadtziegel“ ist eine App zum Praktizieren von Oral History. „Kurbelkamera“ hat das Motto „filming like it’s 1903“. Mit einer Kurbel wird die Abspielgeschwindigkeit von Filmen gesteuert – eine App, die bei Veranstaltungen insbesondere mit Kindern, zum Einsatz kommen kann. Trendsetter 2014 waren Apps mit Rückschwung ins Analoge, wie beispielsweise „Cyberbeetle“. Es ist schwer vorhersagbar, was bei den Entwicklerteams jeweils am besten ankommt. Auch mangelhafte Metadaten-Sets können im LOD-Ansatz Wirksamkeit entfalten. Die Entwicklerteams fragten häufig nach Geschäftsideen, und es sei eine Herausforderung an die Veranstalter, dies noch besser zu begleiten. Derzeit plane man eine Regionalisierung für 2017. Der Hackathon sei in jedem Fall sehr wichtig, weil er auch die Auseinandersetzung mit den Erschließungsprozessen fördert.
Najko Jahn (UB Bielefeld) widmete sich einem ganz anderen Thema, nämlich LOD-Workflows für die Offenlegung von Publikationsgebühren. Im Rahmen einer „Open APC Initiative“ begann man damit, die Bielefelder Daten zur Verfügung zu stellen, andere Einrichtungen schlossen sich an. Es handelt sich um einfache CSV-Dateien, die die Kosten der einzelnen Artikel belegen. Mit Hilfe dieser Daten konnte beispielsweise untersucht werden, wie sich Open-Access-Kosten auf Verlage verteilen. Diese Kosten steigen in den Einrichtungen sehr stark. Die Daten wurden auch für das aktuelle White Paper der MDPL ausgewertet. Darüber hinaus werden Workshops angeboten, bei denen gezeigt wird, wie Daten aus Erwerbungsausgaben nachgenutzt werden können.
Francesca Schulze schloss mit einem sehr aussagekräftigen Bericht über einen Strategieprozess bei der Deutschen Digitalen Bibliothek (DDB) und Europeana an, der die Verbesserung der Metadaten-Qualität zum Ziel hat. Metadaten-Qualität sei allerdings sehr schwer zu definieren. Schulze stellte die Qualitätskriterien der Europeana Metadata Quality Task Force vor. Hohe Priorität genieße die signifikante Erhöhung der Anzahl der digitalen Objekte, denn 11,8 Millionen von 18,7 Millionen Nachweisen insgesamt sind nicht mit einem digitalen Objekt verbunden. Datenqualität sei eigentlich kein Endprodukt der DDB, sondern an diesen Prozessen seien sehr viele Akteure beteiligt. Schulze versuchte auch die Frage nach Metadaten-Standards zu beantworten. Man brauche vor allem mehr praxisrelevante Dokumentationen für die Nutzer der Europeana, die auch Fragen zur Präsentation in Abhängigkeit von der Qualität der Lieferobjekte beantworten. Mehr Pflichtelemente seien nicht die Lösung, wesentlich sei es, dass sie für den Endnutzer einen Sinn ergäben.
Giulio Andreini (net7, Pisa) berichtete über die Web-Applikation Pundit, mit der semantische Annotationen von Webseiten im Browser (als Google-Chrome-Extension) durchgeführt werden können. Es handelt sich um eine LOD-Applikation, die die Verwendung von Daten unterschiedlicher Quellen ermöglicht. Pundit wurde mit Blick auf Annotationen in der Europeana entwickelt. Mittels eines Tripel-Composers können Relationen definiert werden. Prädikate werden aus einem vorhandenen Vokabular geladen, es können aber auch eigene Vokabulare integriert werden. Objekte können sowohl persönlich definierte Gegenstände sein, als auch Gegenstände aus Pundit oder von weiteren Linked-Data-Providern (DBPedia, Europeana, Geonames). Alle Annotationen können auch exportiert werden. Pundit bietet verschiedene Nutzungsoptionen. Das Business-Modell von Pundit sieht so aus, dass zwischen Light-, Pro- und Manager-Versionen gewählt werden kann. Darüber hinaus existiert auch ein Pundit Laboratory. Man plane, Pundit auch für weitere Projekte über die Europeana hinaus bereitzustellen.
Jens Mittelbach (SLUB Dresden) stellte die Architektur der SLUB-Dateninfrastruktur vor und erläuterte deren Entwicklungsperspektiven mit Bezug auf LOD. Bottom-up-Ansätze seien derzeit zu zufällig und zu vereinzelt. Es fehle das Commitment der Einrichtungen, ihre Ressourcen sichtbar zu machen. Die Bereitstellung von Katalogdaten als LOD sei nur ein Punkt unter vielen. Um LOD-Praxis nachhaltig zu entwickeln, sei „Learning by doing“ und Kollaboration jenseits „erzwungener Bündnisse“ wichtig, appellierte Mittelbach.
Ein weiteres Mal mit dem Thema Datenqualität beschäftigte sich Regine Stein (Deutsches Dokumentationszentrum für Kunstgeschichte). Das museumsspezifische XML-Schema LIDO fokussiere alle Arten von Objektgattungen in Museen, habe aber von Anfang an die Linked-Data-Perspektive im Blick gehabt. Der Begriff „Metadaten“ sei für die Museumsdaten eigentlich irreführend, da es sich dabei genaugenommen um den eigentlichen Content handele, weil das Digitalisat des Objekts nur wenig Information vermittle und ohne Metadaten nicht verständlich sei. Im Museumskontext sei die Frage der Pflichtelemente (Schulze) durchaus relevant, und man habe weitere Pflichtelemente identifiziert, wie etwa eine generische Objektklassifikation, Standortangaben und wenigstens eine Information zur Objektgeschichte (Akteur, Datierung, Ortsangabe, kultureller Kontext o. ä.). Stein begrüßte besonders, dass seitens der Europeana nun auch die Datengeber als wichtige Nutzer wahrgenommen werden. Ungenügende Lösungen in der Europeana würden auf die datenliefernden Institutionen zurückfallen.
Die Veranstaltung schloss mit einem Block zu grundsätzlichen Fragen unter dem Titel „Entitäten im Fokus“. Markus Krötzsch (TU Dresden) führte zunächst in Wikidata, die freie Wissensbasis von Wikipedia ein. In einer graphischen Visualisierung führte er vor, dass ein großer Anteil der deutschen Wikipedia kein englischsprachiges Äquivalent hat. Viele Inhalte sind international somit nicht sichtbar. In Wikidata spielten diese regionalen Besonderheiten keine Rolle. 1 874 Eigenschaften können in Wikidata beschrieben werden, in DBPedia sind es allerdings bereits Zehntausende. Dennoch sei man stolz, schon so viele Eigenschaften definiert zu haben, mit denen Nutzer Aussagen formulieren können.
Einen „leichtgewichtigen Normdatendienst“, Entity Facts, stellten Michael Büchner und Sarah Hartmann (beide DNB) vor. Entity Facts ist ein Datendienst der DNB, der maschinenlesbare „Faktenblätter“ zu Entitäten der GND bereitstellt. Die Daten werden im JavaScript-Object-Notation-Format (JSON-Format) angeboten, das eine einfache Einbindung in externe Anwendungen ermöglicht. Entity Facts verfolgt das Ziel einer guten Erweiterbarkeit – sowohl um Entitäten als auch um Eigenschaften – und von vornherein auch der Mehrsprachigkeit (deutsch und englisch). Die Implementierung und Realisierung erfolgte mit Werkzeugen, die im Rahmen der Culturegraph-Plattform entwickelt worden waren. Bilder der Personen werden aus Wikimedia bezogen, aber nicht ausgeliefert. Die Entitäten „Person“ und „Körperschaft“ sind zwischenzeitlich vollständig umgesetzt, und es sollen weitere Entitäten in den Service einbezogen werden (Geografika sind für 2017 geplant). Auch die Integration von ORCIDs wurde angekündigt, ebenso wie die Bereitstellung beim Linked-Data-Service, was vom Publikum mit Nachdruck begrüßt wurde.
Tom Baker (Sungkyunkwan University Korea) stellte das Global Agricultural Concept Scheme vor, das zum Ziel hat, die Interoperabilität zwischen drei landwirtschaftlichen Thesauri (AGROVOC, CAB Thesaurus, NAL Thesaurus) zu verbessern. Man wolle aber nicht von drei auf vier Thesauri übergehen, sondern AGROVOC und NALT zugunsten eines neuen Dienstes GACS ablösen. Ergänzend soll es die Plattform Agrosemantics geben, auf der der neue Thesaurus den Kern von weiteren miteinander verbundenen Thesauri und Daten bilden soll. GACS entwickele sich damit zu einem Daten-Hub und Bezugspunkt für die lokal und stark verstreut stattfindenden Erhebungen, mit dem Ziel einer Normalisierung und Kohärenz von Datensätzen – etwa um komplexe Phänomene wie den Klimawandel besser bewerten zu können. So gehe man mit Agrosemantics über die traditionellen Szenarien von Thesauri weit hinaus.
Die Tagung schloss mit einem Erfahrungsbericht von Reinhard Förtsch (DAI Berlin). Förtsch verwies darauf, dass Linked-Data-Konzepte häufig missbraucht werden, um „religiously correct“ zu erscheinen. An verschiedenen Beispielen aus der Archäologie wie nomisma.org oder Pelagios zeigte Förtsch das Potential von LOD-Anwendungen auf. Es gebe elegante Forschungsumgebungen und Leseerfahrungen, wie etwa beim Hellespont Project, die das aufzeigten. Nicht „useless dumps“ seien vonnöten, sondern es müssten neue Wege zum Finden, Visualisieren und Analysieren begangen werden. Beeindruckend war die Präsentation des Syrian Heritage Projects, das Kulturschätze, die verloren sind oder jederzeit zerstört werden können, in einer LOD-Umgebung visualisiert. Vom traditionellen „first think and sort, then link“ müsse man zur umgekehrten Reihenfolge kommen: „first link, then think and sort“. Förtsch schloss mit dem durchaus polemisch gemeinten Aufruf, es müsse Schluss sein mit traditionellen Hierarchien, Thesauri und Ontologien.
Helge Steenweg, stellvertretender DINI-Vorsitzender, verabschiedete die Teilnehmer nach zwei inhaltsreichen Kongresstagen und richtete den Blick noch einmal zurück auf die Podiumsdiskussion des ersten Tages. Er rief die Teilnehmer auf, eine reale Sicht auf zukünftige Entwicklungen zu nehmen und tragfähige Konzepte zu entwickeln, um LOD-Anwendungen nachhaltig zu betreiben. Die Kongressverlauf kann unter dem Hashtag #dinijt15 nachverfolgt werden. Die Vortragsfolien der Referenten finden sich unter: https://dini.de/veranstaltungen/jahrestagungen/2015/programm/.
© 2016 Walter de Gruyter GmbH, Berlin/Boston