Jump to ContentJump to Main Navigation
Show Summary Details
More options …

ABI Technik

Zeitschrift für Automation, Bau und Technik im Archiv-, Bibliotheks- und Informationswesen

Editor-in-Chief: Söllner, Konstanze

Ed. by Bauer, Bruno / Brandtner, Andreas / Haas, Edeltraud / Maier, Gerald / Schnelling, Heiner / Sommer, Dorothea

Online
ISSN
2191-4664
See all formats and pricing
More options …
Volume 38, Issue 1

Issues

Aktives Forschungsdatenmanagement

Research Data Management Organiser (RDMO)

Heike NeurothORCID iD: http://orcid.org/0000-0002-3637-3154 / Claudia EngelhardtORCID iD: http://orcid.org/0000-0002-3391-7638 / Jochen KlarORCID iD: http://orcid.org/0000-0002-5883-4273 / Jens LudwigORCID iD: http://orcid.org/0000-0002-2998-1696 / Harry EnkeORCID iD: http://orcid.org/0000-0002-2366-8316
Published Online: 2018-04-04 | DOI: https://doi.org/10.1515/abitech-2018-0008

Zusammenfassung

Forschungsdatenmanagement und damit einhergehend Forschungsdatenmanagementpläne nehmen national und international an Bedeutung zu. Nicht nur, dass verschiedene Förderorganisationen wie die National Science Foundation (USA), der Schweizerische Nationalfonds (SNF), die Deutsche Forschungsgemeinschaft (DFG) sowie die Europäische Kommission mit Horizon 2020 (H2020) bereits bei Projektanträgen Auskunft über den Umgang mit den nachgenutzten oder erstellten Forschungsdaten verlangen, es beschäftigen sich auch mehr und mehr Initiativen wie zum Beispiel international die Research Data Alliance oder in Deutschland die DINI/nestor-Arbeitsgruppe Forschungsdaten mit dem Thema. International setzt sich dabei mehr und mehr die Erkenntnis durch, dass es im Umgang mit Forschungsdaten nicht mit einem einmaligen Erstellen eines Forschungsdatenmanagementplans getan ist, sondern dass sich die Pläne aktiv dem Verlauf des Forschungsprozesses anpassen und für verschiedene Bedarfe zur Verfügung gestellt werden müssen. So kann es sinnvoll und notwendig sein, weitere Beteiligte wie zum Beispiel IT-Support oder übergeordnete Datenmanager beim Erstellen und Aktualisieren eines Forschungsdatenmanagementplans zu berücksichtigen. Daher muss ein Werkzeug zur Unterstützung von diesen Plänen über das bloße Ausfüllen von Vorlagen der Förderorganisation hinaus weitere Aufgaben erfüllen und so den gesamten Prozess des Forschungsdatenmanagements unterstützen. Der Research Data Management Organiser (RDMO) ist ein solches Werkzeug, das im Rahmen eines DFG-Projektes entwickelt und mit Hilfe unterschiedlicher Gruppen von Nutzenden getestet wurde. Das RDMO-Tool ist multilingual, flexibel an Community- und Organisationsanforderungen anpassbar und unterstützt verschiedene Aufgaben wie zum Beispiel unterschiedliche Export-Funktionen oder die Erledigung zeitlich gebundener Tasks. In einem DFG-Nachfolgeprojekt, das Ende 2017 gestartet ist, werden in RDMO wichtige Erweiterungen sowohl technischer Art als auch bezogen auf verschiedene Aspekte der Nachhaltigkeit vorgenommen.

Abstract

Research data management gets more and more international attention, and one of its major components are research data management plans. Various funding agencies, e.g. the National Science Foundation in the US, the Schweizer Nationalfonds (SNF), the Deutsche Forschungsgemeinschaft (DFG), and very prominently the European Commission with Horizon 2020 (H2020) ask for concise descriptions of data management as part of a funding proposal. Also, initiatives like the Research Data Alliance (RDA) or the DINI/nestor workgroup Research Data are focusing attention on this topic. Management of research data is no longer viewed as done by drafting merely a static research data management plan, but is now regarded as a process of active support and care during the whole research process. Different participants of the research process need different and up-to-date status information. A tool to support data management during the whole research process has more to deliver than a plain document as required by the respective funding agencies. The Research Data Management Organiser (RDMO) is a companion tool for organising this process as a collaborative effort of various stakeholders or participants. RDMO features multilingual capabilities, adaptability to requirements of communities or organisations, a templating system for export of collected data, snapshotting and timeline capabilities. A second project phase, also funded by DFG, has started end of 2017 to extend RDMO’s technical capabilities and ease of use, and to address the aspects of sustainability and community support.

Schlüsselwörter: aktives Forschungsdatenmanagement; Forschungsdatenmanagementplan; Dokumentation von Forschungsdaten

Keywords: active research data management; research data management plan; documentation of research data

1 Einleitung

1.1 Forschungsdaten(management)

Die Notwendigkeit des Forschungsdatenmanagements (FDM) in wissenschaftlichen und zum Teil auch in wirtschaftlichen1 Vorhaben sowie der Wert von Forschungsdaten sind in den letzten Jahren wesentlich deutlicher in das Bewusstsein sowohl der Forschungsorganisationen als auch der Forschungsförderer gerückt. Eine der wichtigsten Komponenten des Forschungsdatenmanagements sind Datenmanagementpläne (DMP), deren Nutzung und Potential jedoch weiterhin nicht ausgeschöpft sind. Auf Seiten der Forschungsförderer hat dies vor allem dazu geführt, die aus dem angloamerikanischen Raum stammenden DMP in den Förderbedingungen zu verankern. Hier ist insbesondere die Europäische Kommission mit dem Förderprogramm Horizon 2020 zu nennen. Der zunächst auf sieben, später auf neun Forschungsgebiete angelegte Open Research Data Pilot2 wurde ab 2017 auf das gesamte Förderportfolio ausgedehnt.3 Das bedeutet konkret, dass jedes Horizon 2020-Projekt, das nicht von vornherein eine begründete Opt-Out-Möglichkeit4 wählt, einen DMP erstellen muss. In den Horizon 2020-Richtlinien zum Datenmanagement wird nunmehr explizit betont, dass Datenmanagementpläne im Projektverlauf zu aktualisieren sind, wenn sich signifikante Änderungen in Bezug auf die Daten ergeben. Dies solle unabhängig von der regulären Kommunikation mit dem Förderer geschehen. Die Aktualisierung bezieht sich nicht nur auf neu hinzugekommene Datensätze während des Projektverlaufs, sondern beispielsweise auch auf Änderungen in der Projektzusammensetzung oder Ergänzungen von relevanten Leitlinien, Policies usw. Es wurde erkannt, dass statische DMP, also einmal zu Beginn eines Projektes angefertigte und danach nicht mehr aktualisierte Pläne, wenig hilfreich sind für die Dokumentation und v. a. Interpretation der Forschungsdaten. Vielmehr wird der Prozess des Forschungsdatenmanagements jetzt umfassender gesehen und unterliegt deutlich dynamischen Verläufen. Dies führt letztendlich hin zu einem aktiven DMP, der über die ganze Laufzeit eines Projektes gepflegt und aktualisiert wird. Solche aktiven DMP reflektieren immer den aktuellen Stand aller für das Datenmanagement wichtigen Aspekte und sind eine relevante Informationsquelle nicht nur für die am Projekt beteiligten Akteure, sondern auch für die Nachnutzung der Forschungsdaten.

In Deutschland veröffentlichte die DFG 2015 ihre Leitlinien zum Umgang mit Forschungsdaten.5 In diesen werden Datenmanagementpläne zwar (noch) nicht explizit erwähnt, jedoch werden Antragstellende dazu aufgefordert, in ihrem Antrag Aussagen zu Erzeugung, Auswertung usw. von Forschungsdaten zu tätigen. Dies umfasst zum Beispiel auch Informationen zu den verwendeten Datentypen, zur Nutzung fachspezifischer Standards und zur Wahl angemessener Repositorien, zu den Rechten betroffener Dritter sowie zu den Planungen bezüglich der Datenveröffentlichung – und somit Elemente, die typischerweise in einem Datenmanagementplan enthalten sind. Immer mehr wissenschaftliche Einrichtungen und Infrastrukturanbieter greifen das Thema auf, etwa indem sie Forschungsdaten-Policies6 verabschieden und Unterstützungsangebote zum Forschungsdatenmanagement für Wissenschaftlerinnen und Wissenschaftler7 aufbauen. Dabei möchten viele Hochschulen und Wissenschaftseinrichtungen ihren Forschenden nicht nur Beratung anbieten, sondern zum Teil auch Software-Werkzeuge zur Verfügung stellen, die nicht nur die Erstellung von Datenmanagementplänen erleichtern, sondern auch die Planung und Organisation des Datenmanagements projektbegleitend unterstützen. Die beiden international verbreiteten Software-Werkzeuge DMPTool8 und DMPonline9 berichten von gemeinsam mehr als 21 000 Nutzenden und 22 500 DMP bis Ende 2015.10 Beide Tools unterstützen aber bisher stärker Aspekte wie Controlling und projektbegleitende Aktualisierung von Datenmanagementplänen als die konkrete Aufgabenorganisation und verantwortliche Rollenverteilung im Projekt. In einer gemeinsamen DMPRoadmap11 formulieren sie als Hauptziele für zukünftige Entwicklungen Internationalisierung, Nachnutzung von Metadaten, Offenheit und Evaluierung (Assessment). In dieser Diskussion spielt die geplante Unterstützung von aktualisierbaren DMP (Active DMPs) eine wichtige Rolle.12 Eine neuere Überlegung ist es, DMP auch maschinell ausführbar zu machen (Actionable DMPs) und für die Automatisierung und Kontrolle des Datenmanagements zu nutzen, wie der Zusammenschluss im Rahmen der DMPRoadmap dokumentiert. Es wird jedoch zugleich angemerkt, dass bisher nur wenige praktikable Resultate vorliegen.13 In DMP-Roadmap wird, im Gegensatz zu RDMO, weiterhin an einer zentralen (nationalen) Instanz für die Ablage von DMP festgehalten.

1.2 Hintergrund des DFG-Projekts

Die DFG förderte ab November 2015 für 18 Monate das Vorhaben „Entwicklung und Implementierung eines Werkzeugs für die Planung, Umsetzung und Kontrolle des Forschungsdatenmanagements (FDMP-Werkzeug)“ und fördert seit November 2017 für 30 Monate das Nachfolge-Projekt „Research Data Management Organiser (RDMO)“.

Während die erste Phase von den beiden Projektpartnern Leibniz-Institut für Astrophysik Potsdam (AIP) und Fachbereich Informationswissenschaften an der Fachhochschule Potsdam (FHP) verantwortet wurde, ist in der zweiten Phase die Bibliothek des Karlsruher Instituts für Technologie (KIT) zum Projektkonsortium hinzugestoßen.

Mit Ende der ersten Förderphase steht nun ein Werkzeug zur Verfügung, das die strukturierte Planung, Umsetzung und Verwaltung des Forschungsdatenmanagements unterstützt und zusätzlich die textuelle Ausgabe von Datenmanagementplänen ermöglicht. Konzeptuell ist die Begleitung des gesamten Forschungsprozesses mit Hilfe des Werkzeugs möglich. Im Verlauf der ersten Projektphase wurde das Werkzeug in Research Data Management Organiser (RDMO) umbenannt, um den aktiven Charakter von Forschungsdatenmanagement zu betonen und darauf aufmerksam zu machen, dass verschiedene Stakeholder mit zum Teil ganz unterschiedlichen Perspektiven das Werkzeug nutzen können. RDMO ermöglicht es den Forschenden, aber auch anderen am Forschungsprozess beteiligten Akteuren wie IT-Verantwortlichen, Bibliothek oder Rechenzentrum, alle zum Forschungsdatenmanagement nötigen Informationen an einem Punkt einzugeben und in einem kollaborativen Prozess über die ganze Projektlaufzeit aktuell zu halten („Active DMP“). Die geschieht in Form eines strukturierten Online-Interviews auf Basis eines konfigurierbaren Fragenkatalogs. Auf die Informationen kann dann auf verschiedene Weise zugegriffen werden. So können für die Antragstellung oder Berichte textuelle DMP nach hinterlegten Vorlagen (beispielsweise H2020 DMP) erstellt und in gängigen Formaten exportiert werden. Über eine API können die Daten in weiteren Software-Komponenten weiterverarbeitet werden.

Die Software kann, mit überschaubarem Aufwand, von einzelnen Forschungseinrichtungen und Hochschulen, aber auch Kollaborationen oder Projektverbünden, eigenständig installiert und betrieben werden. Hierbei können eigene Fragenkataloge und Vorlagen hinterlegt oder der innerhalb des RDMO-Projekts konzipierte generische Fragenkatalog angepasst werden. Hierdurch wird eine optimale Integration einer eigenen RDMO-Instanz in den fachlichen oder lokalen Kontext des Betreibers ermöglicht. Die eingegebenen Daten verbleiben beim Betreiber und müssen nicht an Dritte weitergegeben werden.

2 Research Data Management Organiser (RDMO)

Die Aufgaben und Arbeiten im Projekt waren in drei Arbeitspakete (AP) gegliedert:

  • AP 1 Konzeption: Dieses Arbeitspaket widmete sich der Konzeption der Inhalte, der Struktur und des Bedienungsablaufs des im Tool verwendeten Fragenkatalogs und untersuchte den disziplinspezifischen Anpassungsbedarf am Beispiel der Astrophysik und der Sozialwissenschaften.

  • AP 2 Software: Aufgabe dieses Arbeitspaketes war die technische Entwicklung des Tools, was auch die Konzeption der Softwarearchitektur und des Datenmodells beinhaltete.

  • AP 3 Community und Nutzertests: Schwerpunkt dieses Arbeitspaketes war der Austausch mit den Zielgruppen über verschiedene Kanäle bezüglich der Anforderungserhebung und die Evaluierung des RDMO-Tools.

Im Folgenden werden die Aktivitäten und Ergebnisse in diesen Bereichen beschrieben, wobei den Arbeiten in AP 3 aufgrund ihrer engen Verquickung mit denen in den anderen beiden APs kein eigenes Unterkapitel gewidmet, sondern über sie im Zusammenhang mit diesen berichtet wird.

2.1 Konzeption

Die Konzeption des vom RDMO-Projekt entwickelten Fragenkatalogs baut auf eigenen Vorarbeiten aus früheren Projekten auf. Hier ist insbesondere der „Leitfaden zum Forschungsdatenmanagement“14 zu nennen, der im Projekt WissGrid (2009–2012) entwickelt wurde und auf Vorarbeiten insbesondere des Digital Curation Center (DCC)15 aufbaut, die basierend auf eigener Expertise ergänzt, modifiziert und strukturiert wurden. Ein weiterer wichtiger Baustein war eine Weiterentwicklung der WissGrid-Checkliste, die am Max-Planck-Institut zur Erforschung multireligiöser und multiethnischer Gesellschaften (MPI MMG) im Rahmen eines Projektes mit der Niedersächsischen Staats- und Universitätsbibliothek Göttingen erarbeitete wurde und in der bereits Folgeaufgaben zu Fragen definiert wurden. Neben diesen beiden Hauptquellen wurden auch Datenmanagementpläne und Checklisten anderer Tools und Institutionen sowie Vorgaben oder Richtlinien relevanter Forschungsförderer evaluiert, aus denen ebenfalls Anregungen aufgenommen wurden. Nennenswert sind hier vor allem die Checkliste der Universität Bielefeld16 und die Guidelines on FAIR Data Management in Horizon 2020.17 Auf Grundlage dieser Vorarbeiten wurde ein Entwurf der Struktur und Abfolge der Fragen erarbeitet und in einem ersten Prototyp umgesetzt, der im Rahmen mehrerer Experteninterviews mit verschiedenen Zielgruppen18 vorgestellt wurde. Auf Basis des Feedbacks zum Fragenkatalog, den Funktionalitäten und der Usability wurden diese iterativ weiterentwickelt. Des Weiteren wurden auch aktuelle Entwicklungen und Bedarfe19 einbezogen. Auf Expertenworkshops mit Vertreterinnen und Vertretern von Infrastruktureinrichtungen und -initiativen sowohl mit institutioneller als auch mit fachwissenschaftlicher Ausrichtung wurden ebenfalls Anregungen und Bedarfe gesammelt, die in die Weiterentwicklung von RDMO geflossen sind.

Zur Definition der Anforderungen verschiedener Stakeholder in Bezug auf inhaltliche Aspekte wie auch die Usability wurde der aus der agilen Softwareentwicklung stammende Ansatz der User Stories20 genutzt. Dabei werden die Anforderungen in strukturierter Form beschrieben, die die Perspektive unterschiedlicher Akteursgruppen („In meiner Rolle als A …“), die gewünschte Interaktion zwischen Akteur und System („… möchte ich B tun …“) und den beabsichtigen Nutzen bzw. das Ziel der Interaktion („…, um den Nutzen C zu erreichen.“) einbezieht.

Es wurden insgesamt etwa 70 User Stories für die folgenden Akteursgruppen (bzw. Rollen)21 definiert:

  • Autorin oder Autor,

  • Infrastrukturdienstleister,

  • Vorgesetze oder Vorgesetzter bzw. Institutsleitung,

  • Datenmanagerin oder Datenmanager,

  • Gast,

  • Managerin oder Manager,

  • IT-Administratorin oder IT-Administrator bzw. IT-Support und

  • Entwicklerin oder Entwickler.

Die folgenden Kategorien bilden die Bereiche ab, die für das Erreichen des Ziels einer Interaktion verantwortlich sind:

  • Versionierung,

  • Kollaboration,

  • Usability, Eingabehilfen und Vorlagen,

  • Anpassbarkeit der Fragen und Antwortoptionen,

  • Fragenlogik,

  • Aufgabenverwaltung,

  • Rollendefinition und

  • Schnittstellen und Exportmöglichkeiten.

Im Folgenden finden sich einige Beispiele für die User Stories, jeweils charakterisiert durch die betreffende Akteursgruppe, die gewünschte Interaktion, den erhofften Nutzen und die relevante Kategorie:

  • Als Autorin oder Autor möchte ich auf alte Versionen meines DMP zugreifen, um fehlerhafte Bearbeitungen nachvollziehen zu können (Kategorie: Versionierung).

  • Als Autorin oder Autor möchte ich andere Personen zu meinem DMP als Leserin bzw. Leser oder Autorin bzw. Autor einladen können, damit sie mitwirken können (Kategorie: Kollaboration).

  • Als Autorin oder Autor möchte ich Vorlagen meiner Institution und Förderer sowie Empfehlungen für DMP nutzen, um den Schreibprozess zu beschleunigen (Kategorie: Usability, Eingabehilfen, Vorlagen).

  • Als Infrastrukturdienstleister möchte ich Auswahlfelder mit praktikablen, korrekten und standardisierten Alternativen für möglichst viele Fragen definieren können, damit ich die Nutzerantworten standardisieren und einfacher auswerten kann (Kategorie: Anpassbarkeit der Fragen und Antwortoptionen).

  • Als Datenmanagerin oder -manager22 möchte ich Antworten aus ganz verschiedenen RDMO-Installationen abfragen können, um Statistiken über verschiedene Einrichtungen hinweg erstellen zu können (Kategorie: Schnittstellen und Exportmöglichkeiten).

  • Als Infrastrukturdienstleister möchte ich die Antworten eines DMP einsehen können, um entsprechende Planungen vornehmen zu können, etwa zur rechtzeitigen Bereitstellung von Speicherplatz (Kategorie: Aufgabenverwaltung).

  • Als Managerin oder Manager möchte ich im Auftrag des Betreibers eine Instanz von RDMO inhaltlich und organisatorisch betreuen, um die Nutzenden und den Betreiber bei der Planung des DMP zu unterstützen (Kategorie: Rollendefinition).

  • Als Vorgesetze oder Vorgesetzter bzw. Institutionsleitung möchte ich eine graphische Übersicht über die Daten in RDMO abrufen können, um vergleichen und kontrollieren zu können (Kategorie: Usability, Eingabehilfen, Vorlagen).

  • Als IT-Administratorin oder -Administrator bzw. IT-Support möchte ich im Auftrag des Betreibers eine Instanz von RDMO technisch betreuen, um die Verlässlichkeit und den Betrieb der Services sicherzustellen (Kategorie: Rollenverteilung).

  • Als Entwicklerin oder Entwickler möchte ich die technische Plattform RDMO weiterentwickeln oder anpassen, um das Werkzeug nachnutzen zu können und nicht etwas komplett Neues entwickeln zu müssen (Kategorie: Rollendefinition).

  • Als Infrastrukturdienstleister möchte ich Fragen und Antworten verschiedener Granularität anbieten, damit je nach Bedarf, Fähigkeit und Bereitschaft im praktikablen Detailgrad geplant werden kann (Kategorie: Fragenlogik).

Die meisten Rollen in den User Stories sind bisher mit der Akteursgruppe „Autorin oder Autor“ verknüpft (über die Hälfte), während die Kategorien mehr oder weniger gleichmäßig verteilt sind. Es wird interessant sein zu sehen, welche Akteursgruppen und Kategorien bei einem breiten Einsatz des RDMO-Werkzeugs noch zum Einsatz kommen werden. Eine finale Definition der Akteursgruppen wird in einem nächsten Schritt, abgestimmt mit den bisherigen Interessenten, entwickelt. Es dürfte nicht ganz einfach sein, die notwendigen unterschiedlichen Rollen auf die verschiedenen organisatorischen Strukturen der Forschungseinrichtungen und Hochschulen adäquat abzubilden.

Ausgehend von den oben genannten Vorarbeiten wurde zu Beginn des Projektes eine erste Entwurfsversion der Fragenstruktur erstellt. Der Fragenverlauf einschließlich der Abhängigkeiten wurde zunächst mit Hilfe des yED Graph Editors23 visualisiert. Diese erste Version wurde in den Prototyp des Werkzeugs implementiert und projektintern getestet. Hierbei wurden zu einer Vielzahl von Fragen auch bereits Hilfetexte und externe Links eingefügt sowie bereits die Übersetzung der Fragen, Antworten und Hinweistexte ins Englische vorgenommen. Ab diesem Zeitpunkt konnten weitere Änderungen an den Fragen dann auch direkt im Werkzeug umgesetzt werden.

Die Veröffentlichung der neuen Richtlinien der Europäischen Kommission zum FAIR Data Management in Horizon 2020, die wesentlich detaillierter und umfangreicher sind als die zuvor geltenden, führte ebenfalls noch einmal zu einer Überarbeitung des Fragenkatalogs. So ist eine Reihe von Fragen neu aufgenommen worden, um mit den H2020-Anforderungen vollständig kompatibel zu sein.

Die zum Projektende der ersten Förderphase vorliegende Version des Fragenkatalogs umfasst sieben Themengebiete, die sich wiederum in Unterthemen und schließlich in einzelne Fragen oder Fragensets aufgliedern:

  • Allgemeine Angaben zum Projekt: In diesem Abschnitt werden wichtige Rahmendaten eines Projekts erhoben. Dies umfasst z. B. die Forschungsfrage, die Projektlaufzeit, die Projektpartner einschließlich der bei diesen jeweils für das Datenmanagement verantwortlichen Personen sowie Richtlinien im Umgang mit Forschungsdaten, etwa der eigenen oder von Partnerinstitutionen, dem Forschungsförderer oder von Fachgesellschaften, die berücksichtigt werden sollten.

  • Inhaltliche Einordnung der Daten: In diesem Abschnitt wird beschrieben, welche Art bzw. welche Arten von Daten genutzt werden, ob sie nachgenutzt oder selbst erhoben bzw. selbst erstellt werden sowie ob, und, wenn ja, mit welchem Aufwand sie reproduzierbar sind. Zudem wird gefragt, für wen die Daten für die Nachnutzung eventuell interessant sein könnten.

  • Technische Einordnung der Daten: In diesem Themenblock werden eine Reihe von Informationen erfasst, die zum einen für die Speicherung und Nutzung der Daten während der Projektlaufzeit, zum anderen aber auch für die Langzeitarchivierung und die Nachnutzung von großer Bedeutung sind. Hierzu gehören die Größe bzw. Menge der Daten, die Formate und die Programme und Technologien, die zur Erzeugung der Daten genutzt werden. Auch werden mit den Zeitpunkten der Datenerhebung, -aufbereitung, -analyse und -veröffentlichung wichtige Zeitpunkte im Datenlebenszyklus erhoben.

  • Datennutzung während des Projekts: Die Fragen in diesem Abschnitt haben die Datennutzung während der Laufzeit eines Vorhabens im Fokus. Ziel ist es, anhand der gewonnenen Informationen einschätzen zu können, welche Infrastrukturressourcen und ggf. auch, welche Unterstützung durch IT- oder (zentrales) Datenmanagement benötigt werden. Konkret werden Angaben zur Datenspeicherung und -sicherheit, zum Teilen und der Veröffentlichung, zum kollaborativen Arbeiten an den Daten, zu unterstützungsbedürftigen Nutzungsszenarien, zur Qualitätssicherung und zu den Kosten verschiedener Aspekte oder Schritte der Datennutzung erhoben. Bezüglich der Kosten wird unterschieden zwischen Personalkosten, die in Personenmonaten anzugeben sind, und Sachkosten, die in Euro erfragt werden. Dabei wird es sich, insbesondere in der Planungsphase oder zu Beginn eines Projektes, i. d. R. um Schätzungen handeln. In den folgenden Themenblöcken werden ebenfalls die Aufwände für jeweils relevante Maßnahmen in dieser Form erhoben. Werden die einzelnen Posten zusammengezählt, kann am Ende eine Schätzung des für das Datenmanagement im Projekt erforderlichen Gesamtbedarfs an Personal- und Sachmitteln ermittelt werden.

  • Metadaten und Referenzierung: Mit Metadaten werden Daten beschrieben, damit sie verstanden, sinnvoll verwaltet und später gezielt wiedergefunden werden können. Dies ist sowohl für die interne Organisation und Verwaltung der Daten während des Projektes als auch für die Langzeitarchivierung, Veröffentlichung und Nachnutzung wichtig. Auch das Forschungsdezernat oder die Leitung einer Institution, die eine RDMO-Instanz betreibt und einen Überblick über alle an der Einrichtung genutzten bzw. erzeugten Daten erlangen will, ist auf diese Metadaten entsprechend angewiesen. In diesem Block wird auch erfragt, welche Metadaten notwendig sind, um die Daten und ihre Genese zu verstehen und welche davon manuell, automatisch oder semi-automatisch erhoben werden. Zudem wird nach der Nutzung von persistenten Identifikatoren gefragt, die eine dauerhafte und verlässliche Referenzierung digitaler Objekte ermöglichen.

  • Rechtliche und ethische Fragen: In Bezug auf rechtliche und ethische Fragen im Zusammenhang mit Forschungsdaten sind insbesondere zwei Gebiete relevant: sensible Daten und urheberrechtlich oder durch verwandte Schutzrechte geschützte Daten. Bei sensiblen Daten spielen personenbezogene Daten die größte Rolle, doch können Daten auch aus anderen Gründen sensibel sein (z. B., weil sie Standortinformationen zu geschützten Pflanzen- oder Tierarten oder Betriebsgeheimnisse enthalten). Geben Nutzende an, mit personenbezogenen Daten zu arbeiten, folgen Fragen zu Datenschutz und Anonymisierung. Außerdem wird erhoben, ob das Vorhaben von einer Ethikkommission begutachtet worden ist und ob behördliche Genehmigungen benötigt werden.

  • Langfristige Archivierungsstrategie: Der letzte Themenblock widmet sich der Langzeitarchivierung der Forschungsdaten nach dem Projektende. Hier werden Fragen zur Auswahl der zu archivierenden Daten gestellt. Dazu gehören Fragen wie aus welchen Gründen, nach welchen Kriterien und durch wen die Auswahl erfolgt. Es wird außerdem erhoben, wann, wie lange und wo die Daten gespeichert werden sollen sowie, ob das ausgewählte (fachspezifische) Repositorium oder Datenzentrum zertifiziert ist und mit ihm bereits Kontakt aufgenommen wurde, um die Voraussetzungen und Rahmenbedingungen der Datenübernahme zu klären. Auch wird gefragt, ob die Daten erst nach einer Sperrfrist zugänglich gemacht werden sollen.

Auf Seiten der Antwortmöglichkeiten wurde soweit möglich auf die Nutzung von Freitextfeldern verzichtet, da so die Antworten, insbesondere über verschiedene Projekte hinweg, besser vergleichbar und weiter (automatisch) verarbeitbar sind. Auch stellt dies eine Voraussetzung dar, um bestimmte Aufgaben automatisiert zu implementieren, die dann relevante Stakeholder zu einem definierten Zeitpunkt über weitere To-dos alarmieren. Für einen Großteil der relevanten Fragen konnte dies umgesetzt werden. Dabei wurden, wo es sinnvoll schien, kontrollierte Vokabulare eingebunden.

Der Fokus bei der Konzeption des detaillierten Fragenkatalogs lag darauf, alle Aspekte zu berücksichtigen, die für das Datenmanagement notwendig sind. Der Fragenkatalog wird im RDMO-eigenen XML-basierten Austauschformat auf GitHub zur Verfügung gestellt24 und kann von Institutionen, Projekten usw. in eigenen RDMO-Instanzen nachgenutzt werden. Er ist als Baukasten oder Anregung für die Erstellung eines auf die Bedürfnisse des jeweiligen Kontextes angepassten, eigenen Fragenkataloges gedacht.

Teil der konzeptionellen Arbeit bezüglich des Fragenkatalogs war die Untersuchung des fachspezifischen Anpassungsbedarfs am Beispiel der Sozialwissenschaften und der Astrophysik. Hierfür wurde zunächst die Fachliteratur25 ausgewertet. Die so gewonnenen Informationen wurden in den Interviews mit Vertreterinnen und Vertretern der Beispieldisziplinen überprüft sowie anschließend auch noch einmal im Rahmen von Expertenworkshops zur Diskussion gestellt. Dabei hat sich gezeigt, dass der Anteil an Fragen, für die ein disziplinspezifischer Detailgrad sinnvoll wäre,26 nur sehr gering ist. Eine weitergehende Anpassung ist erst auf einer sehr feingranularen Ebene sinnvoll. Dies führt dann aber dazu, dass der resultierende Fragenkatalog so eng auf einen sehr eingeschränkten Nutzendenkreis zugeschnitten wäre, dass sich ein solches Vorgehen wahrscheinlich nur in wenigen speziellen Fällen empfiehlt.

Bei den Antwortoptionen sowie für die Hilfe- bzw. Hinweistexte ergibt sich dagegen ein anderes Bild: Hier wird eine disziplin- ggf. auch methodenspezifische Anpassung – etwa indem im Antwortbereich Dropdown-Listen mit einer Vorauswahl an jeweils relevanten disziplinspezifischen Optionen angeboten werden – als sehr nützlich angesehen. Gleiches gilt für Hinweistexte, die mit passenden Beispielen oder mit Verweisen auf für die jeweilige Disziplin relevante Ressourcen angereichert werden können. Die Teilnehmerinnen und Teilnehmer des Expertenworkshops waren sich einig, dass eine solche Anpassung ausgesprochen vorteilhaft wäre. Dies stelle zum einen für die jeweilige Fachdisziplin eine große Hilfe beim Beantworten der Fragen und der darauf aufbauenden Verwaltung und Analyse relevanter Informationen dar, zum anderen erleichtert es durch die Standardisierung eines möglichst großen Teils der Antworten die Aggregation und das Vergleichen von Informationen über mehrere Projekte hinweg.

Jedoch kann eine solche Anpassung nicht für eine Vielzahl von Disziplinen zentral von einem Projekt wie RDMO geleistet werden, sondern muss vielmehr durch die Fachwissenschaften (z. B. organisiert in Fachgesellschaften) selbst erfolgen. Der Beitrag von RDMO ist ein generischer Fragenkatalog als Grundlage und Rahmen hierfür sowie die Bereitstellung eines technischen Werkzeuges, das es erlaubt, Fragenkatalog und Hilfetexte flexibel und einfach zu editieren und dynamisch an die Erfordernisse verschiedener Kontexte anzupassen. Zudem kann das RDMO-Projekt die nötigen Prozesse moderieren und verschiedene interessierte Fach-Communities zusammenbringen. Interessant in diesem Zusammenhang ist, dass sich eine Interest Group (IG) bei der internationalen Initiative Research Data Alliance seit kurzer Zeit genau dieser Herausforderung stellt. Die IG „Domain Repositories27“ beschäftigt sich mit der Entwicklung von domainspezifischen Datenmanagementplänen, die zu einer internationalen Akzeptanz, Nachnutzung und Verbreitung in den jeweiligen Fachdisziplinen führen soll.

2.2 Software

Das RDMO-Werkzeug ist als interaktive Webanwendung realisiert und steht als Open-Source unter der Apache-2.0-Lizenz zur Verfügung.28 Die Software ermöglicht es sowohl einzelnen Forschenden als auch Kollaborationen, alle für das nachhaltige Datenmanagement nötigen Informationen zentral einzugeben und zu verwalten. Auf der obersten Ebene werden diese Informationen anhand von durch die Nutzenden im jeweiligen Forschungskontext zu definierenden Projekten verwaltet. An diesen Projekten kann kollaborativ durch mehrere Personen, denen verschiedene Zugriffsrollen zugeordnet werden können, gearbeitet werden.

Die Eingabe der Informationen zu einem Projekt erfolgt in RDMO in Form eines strukturierten Interviews über das interaktive Webinterface. Das Überspringen nicht relevanter Fragen auf Basis bereits gegebener Antworten, die Nutzung verschiedener Widgets (Schieberegler, Auswahlboxen, Dropdown-Menüs usw.), die Verwendung von kontrollierten Vokabularen als Antwortoptionen usw. unterstützen eine effiziente Eingabe. Das Einfrieren der bisherigen Antworten in Datensätzen in Form von Snapshots ermöglicht eine Versionierung zu beliebigen Zeitpunkten (z. B. für Antragseinreichung, Zwischenbericht, Abschlussbericht, Publikation).

Die Ausgabe der Informationen kann über verschiedene Wege erfolgen. Die einfachste Möglichkeit ist hierbei die Ausgabe der im Interview gegebenen Antworten mit den zugehörigen Fragen als Text. Darüber hinaus können im System auch Vorlagen zu textuellen Ansichten hinterlegt werden, die aus den gegebenen Antworten neue Texte generieren, um beispielsweise mit den Anforderungen von Horizon 2020 konforme Datenmanagementpläne zu erzeugen. Es können Aufgaben definiert werden, die, durch bestimmte Antworten gesteuert, auf zukünftige Handlungsbedarfe aufmerksam machen (z. B. Abschätzung eines finanziellen Bedarfs für die Speicherung der Forschungsdaten). Schließlich werden noch programmierbare Schnittstellen (APIs) bereitgestellt, die die Nachnutzung der Daten durch andere Software-Werkzeuge ermöglichen.

Um diese Funktionalitäten zu realisieren, verfügt RDMO über ein komplexes Datenmodell29, das in Abbildung 1 dargestellt ist. Sowohl die Fragen des Fragenkataloges als auch die eingegebenen Antworten sowie Ansichten und Aufgaben referenzieren hierbei auf sogenannte Attribute und Entitäten eines baumförmigen Domänenmodells. Die Attribute dienen, wie Variablen in Programmiersprachen, als Bezeichner für einzelne Informationseinheiten (z. B. textuelle Antworten, Daten, ausgewählte Optionen). Die Entitäten fassen diese als Information zu Datensätzen zusammen. Mit diesem Datenmodell verknüpft sind einerseits die in Sets organisierten Antwortoptionen und andererseits Bedingungen, die regeln, ob ein Attribut im gegebenen Kontext aktiv ist oder gegebenenfalls die verbundene Frage im Interview übersprungen werden kann. Alle im Datenmodell enthaltenen Elemente können durch ein Management-Backend editiert werden, ohne am RDMO-Quellcode Änderungen vornehmen zu müssen, wie auch Elemente hinzugefügt oder entfernt werden können. Weiter können Elemente in einem speziellen XML-Format exportiert und importiert werden, um einen Austausch zwischen den einzelnen, verteilten RDMO-Instanzen zu ermöglichen.

RDMO-Datenmodell
Abb. 1:

RDMO-Datenmodell

Besonderer Wert wird auf die reibungslose Installation und Anpassbarkeit von RDMO durch Arbeitsgruppen und Institutionen wie Forschungsinstitute, Bibliotheken oder Hochschulen gelegt. Es ist durch sogenannte Themes möglich, das Layout sowie Farben und Schriften an das Corporate Design der betreibenden Institution anzupassen. Inhaltlich kann RDMO durch das Editieren der Elemente des Datenmodells an lokale oder fachliche Gegebenheiten angepasst werden. Authentifizierungsschnittstellen wie Shibboleth, LDAP und OAUTH2 ermöglichen die Nutzung eines lokalen Benutzermanagements für RDMO.

Für die Entwicklung von RDMO wurde auf diverse, in der Software-Community etablierte Werkzeuge und Bibliotheken zurückgegriffen. Hierzu zählen insbesondere:

  • Django: ein in der Programmiersprache Python geschriebenes Framework zur Erstellung dynamischer Webseiten nach dem Model-View-Controller-Entwurfsmuster30

  • Django REST Framework: eine auf Django aufbauende Bibliothek für APIs nach dem REST-Prinzip31

  • AngularJS: ein JavaScript-Framework für interaktive Webseiten32

  • Bootstrap: eine CSS- und Javascript-Bibliothek zur Entwicklung moderner und mobil-freundlicher Webseiten33

  • Pandoc: ein Dokumentkonverter, der Exporte in viele gebräuchliche Formate ermöglicht34

Der eigentliche Entwicklungsprozess fand über die ganze Projektlaufzeit in iterativer Form und in enger Abstimmung mit der Entwicklung des Fragenkatalogs statt. Im April 2017 konnte das RDMO-Werkzeug in einer stabilen Beta-Version veröffentlicht werden. Zum Testen von RDMO wurde das Django-eigene Test-Framework verwendet und über die Dienste Travis CI35 und Coveralls36 ein Continuous-Integration-Workflow realisiert.

Neben der Entwicklung der Software wurde auch eine Demo-Instanz37 aufgebaut. Diese Webseite wurde in der Vergangenheit (Expertengespräche, Workshops) verwendet und steht auch zukünftig weiteren Interessierten zur Verfügung. Für die Nutzung ist nur eine einfache Registrierung erforderlich. Eine Authentisierung mit ORCID38 oder gängigen Social-Media-Plattformen ist ebenfalls möglich. Darüber hinaus stehen eine technische Dokumentation39 und zusätzliche Skripte zur Installation mit einem Docker-Container40 bereit.

3 Ausblick

Die erste Projektphase hatte eine Laufzeit von 18 Monaten und war personell mit insgesamt 1,33 Vollzeitäquivalenten verteilt über zwei Einrichtungen ausgestattet. Die Ergebnisse wurden regelmäßig auf Workshops und Konferenzen vorgestellt,41 zuletzt auf der internationalen Tagung iPRES 2017 in Kyoto (Japan).42 Auf Grund des Erfolges von RDMO und auf Grund zahlreicher Nachfragen von interessierten Fach-Communities und Institutionen in Deutschland ist erfolgreich ein Nachfolgeantrag eingereicht worden. Die Arbeiten werden ab Ende 2017 dann mit insgesamt drei Partnern43 weitergeführt.

Aufbauend auf den Ergebnissen des Vorgängerprojekts RDMO und basierend auf konkreten Rückmeldungen und Bedarfen der Zielgruppen werden im Nachfolgeprojekt diese Ziele verfolgt:

  • Erweiterung des Organisers: Das RDMO-Werkzeug wird so erweitert, dass es Nutzenden nicht nur ermöglicht, vor dem Projektstart einen Datenmanagementplan zu entwerfen, sondern auch das Datenmanagement während des kompletten Projektverlaufs zu organisieren. Dafür ist zum einen erforderlich, die bereits anpassbaren Fragen des RDMO-Werkzeugs noch mit konkreten Aufgaben und Rollen zu verknüpfen, um einen „actionable data management plan“ zu erhalten. Zum anderen werden die zentralen Aufgaben der Kostenabschätzung, des Ingest-Prozesses und der Interoperabilität mit z. B. Nachweissystemen durch zu entwickelnde Module und ein Metadaten Application Profile besonders unterstützt. So wird RDMO nach der Beantwortung der Fragen eine Kostenabschätzung anhand der Kriterien von Datenrepositorien geben oder ein passendes Datenrepositorium anhand einer Verknüpfung mit re3data44 vorschlagen. Durch die Implementierung entsprechender Schnittstellen und Identifier-Systeme wird eine Verlinkung des Datenmanagementplans mit den tatsächlichen Daten in temporären Projektspeicherorten bzw. in dauerhaften Datenrepositorien sowie eine Übernahme von Metadaten aus Forschungsinformationssystemen (FIS) ermöglicht.

  • Integration in die Infrastruktur: Damit das RDMO-Werkzeug ein verlässliches Service-Angebot von Infrastrukturanbietern wird, wird die Integration des Werkzeugs in die jeweiligen Infrastrukturen weiter vereinfacht. Zentrale Punkte hierfür sind eine standardisierte Installation (z. B. über Docker-Container), Wartbarkeit (über einen integrierten Update-Mechanismus) und eine erweiterte Unterstützung von üblichen Authentifizierungs- und Autorisierungsverfahren.

  • Etablierung in der Community: Sehr viele Fachdisziplinen (Biodiversität, Psychologie usw.) und Institutionen (z. B. Hochschulen, Leibniz-Einrichtungen) bzw. Wissenschaftsorganisationen (z. B. Fraunhofer Gesellschaft45) sind auf der Suche nach einem zentralen Tool zur Unterstützung von Datenmanagement und -plänen für ihre Einrichtung, die dynamisch die Dokumentation des Datenmanagements über die komplette Laufzeit von datengetriebenen Projekten abbilden und verschiedene Sichtweisen (z. B. Forschungsreferent, IT-Dienstleister) erlauben. Zudem ist es auch wichtig, international anschlussfähig zu bleiben (z. B. DMPonline46 der DCC in Großbritannien, DMPTool47 der Calofornia Digital Library in den USA). Des Weiteren ist es sinnvoll, die Nutzung des Tools und den konkreten Einsatz vor Ort in den Communities über Schulungen und Online-Tutorials zu fördern. Gerade der letzte Punkt als dezentraler Ansatz ist notwendig, um das RDMO-Werkzeug schnell und rasch in den tagtäglichen Einsatz zu bringen.

  • Nachhaltigkeit/Verstetigung: Nachhaltigkeitsdiskussionen zeigen deutlich, dass daran gearbeitet werden muss, RDMO in den Communities als eigenständiges Tool soweit zu verankern, dass sich diese RDMO-Instanzen in Zukunft selbst tragen und auf diese Weise RDMO insgesamt weiterentwickelt wird. Dies wird durch die erweiterte Zusammenarbeit mit Initiativen wie E-Science Baden-Württemberg48 und Einrichtungen aus den Wissenschaftsorganisationen und Hochschulen möglich. Auch gilt es, RDMO zu einer stabilen Produktreife zu entwickeln, mit skalierbarer Anwendung und Interoperabilität zum Beispiel auch zwischen parallelen Instanzen innerhalb einer Disziplin.

Insgesamt gilt es im Nachfolgeprojekt einerseits, eine dezentrale Struktur aufzubauen, die die technische und organisatorische Weiterentwicklung des RDMO-Werkzeugs garantiert, und andererseits eine aktive Community zu etablieren, die alle relevanten Aspekte des aktiven Forschungsdatenmanagements und deren Stakeholder berücksichtigt. Im besten Fall entsteht so in Deutschland, quer über die Fachdisziplinen und Wissenschaftsorganisationen hinweg, ein gemeinsamer Prozess, der basierend auf transparenten Entscheidungen Forschungsdatenmanagement und damit auch die Reproduzierbarkeit, Validierbarkeit und Nachnutzung von Forschungsdaten erlaubt. Damit würde auch von den Forschenden und den Infrastruktureinrichtungen in Deutschland ein wesentlicher Beitrag zu den Diskussionen und Initiativen um Open Science49 geleistet.

Footnotes

About the article

Heike Neuroth

Prof. Dr. rer. nat. Heike Neuroth

Claudia Engelhardt

Claudia Engelhardt

Jochen Klar

Dr. Jochen Klar

Jens Ludwig

Jens Ludwig

Harry Enke

Dr. Harry Enke


Published Online: 2018-04-04

Published in Print: 2018-04-25


Citation Information: ABI Technik, Volume 38, Issue 1, Pages 55–64, ISSN (Online) 2191-4664, ISSN (Print) 0720-6763, DOI: https://doi.org/10.1515/abitech-2018-0008.

Export Citation

© 2018 by De Gruyter.Get Permission

Comments (0)

Please log in or register to comment.
Log in