Zusammenfassung
Der Artikel zeigt auf, welche Schritte notwendig sind und welche Aufgaben wahrgenommen werden müssen, um Forschungsdatenmanagement umfassend zu betreiben. Grundlage hierfür ist der Lebenszyklus von Forschungsdaten, der das Grundgerüst eines Datenmanagementplans darstellt. Auf dieser Basis wird exemplarisch das Leistungsportfolio einer wissenschaftlichen Spezialbibliothek für die Lebenswissenschaften dargestellt, das ausgewählte Phasen und Aufgaben im Lebenszyklus von Forschungsdaten unterstützt.
Einleitend erfolgt ein Überblick über die Definition von Forschungsdaten und Vorteile von Open Data sowie über die Rahmensetzung der Forschungsförderer im Hinblick auf das projektbezogene Forschungsdatenmanagement.
Abstract
The following article shows the necessary steps and tasks that have to be done to extensively run research data management. It is based on the life cycle of research data which is a data management plan’s basic framework. Based on this, the performance portfolio of a scientific specialist library for life sciences is described as an example, which supports selected phases and tasks within the life cycle of research data.
As an introduction, an overview is given of the definition of research data and the advantages of Open Data as well as the framework set by research patrons regarding project-related research data management.
1 Einleitung
Forschungsdaten sind „Data that are used as primary sources to support technical or scientific enquiry, research, scholarship, or artistic activity, and that are used as evidence in the research process and/or are commonly accepted in the research community as necessary to validate research findings and results.”[1] In jeder Disziplin muss auf Basis dieser grundlegenden Definition fachspezifisch festgelegt werden, was die jeweiligen Forschungsdaten sind.
Die hier als Beispiel herangezogenen Lebenswissenschaften umfassen die Disziplinen Medizin sowie Ernährungs-, Agrar- und Umweltwissenschaften. In den Agrarwissenschaften sind Forschungsdaten u. a.
Messdaten (z. B. Sediment-Analyse-Daten, Temperatur-Angaben),
Geodaten (z. B. GIS-Dateien),
Genomdaten (z. B. Länge extrahierter Genome von Pflanzen),
Interviews (z. B. mit Experten) oder
Bilder (z. B. Fotos, Satellitenaufnahmen).
In jeder Disziplin gibt es darüber hinaus besondere Rahmenbedingungen, die im Forschungsdatenmanagement berücksichtigt werden müssen. In den Agrarwissenschaften fokussiert sich die Diskussion aktuell auf den Umgang mit sog. Big Data. Hier geht es um betriebsbezogene Maschinendaten, die im Zuge der Digitalisierung der Landwirtschaft von Maschinen während des Arbeitsprozesses erhoben und weitergeleitet werden. Dies sind zunächst einmal Rohdaten, die im Grunde kommerziell von den Maschinenherstellern genutzt werden. Sie werden dann zu Forschungsdaten im o. g. Sinne, wenn die Wissenschaft Zugang zu ihnen bekommt und sie zu Forschungszwecken verwendet. Vorteile von Forschungsergebnissen aus der Auswertung von Big Data bzw. Forschungsdaten für die Landwirtschaft können z. B. eine Schonung des Feldbodens durch eine bessere Koordination der Landmaschinen sein oder – allgemein – die Lösung praktischer Probleme, um einen Beitrag zur Verbesserung der weltweiten Ernährungssituation zu leisten.
Am Beispiel der Medizin handelt es sich bei Forschungsdaten um[2] :
Bilddaten aus bildgebenden Verfahren (z. B. MRT),
Sensordaten aus Biosignal- oder Vitalparametermessung (z. B. EKG, EEG),
Biomaterialdaten aus Laboruntersuchungen (z. B. Blutproben, Genom-Daten),
Befunddaten aus der ärztlichen Diagnostik (z. B. Anamnese),
Statistikdaten (z. B. aus anonymisierten Befunddaten),
Klassifikationen und Codes zu Krankheiten oder Materialien (z. B. International Statistical Classification of Diseases and Related Health Problems (ICD)),
Stammdaten der Patientenverwaltung (z. B. aus Krankenhausinformationssystemen).
Besondere Rahmenbedingungen für das Forschungsdatenmanagement in der Medizin sind beispielsweise die enormen Datenmengen, die für eine Archivierung bzw. Publikation anfallen, was vor allem auf die Vielzahl der bildgebenden Verfahren zurückzuführen ist oder auf Daten aus Gen-Sequenzierungen. Eine weitere Besonderheit bilden die rechtlichen Rahmenbedingungen in der Medizin im Hinblick auf Datenschutz und Persönlichkeitsrechte von Patienten.
2 Open Data und Data Sharing
Im Sinne der „guten wissenschaftlichen Praxis“ sollen Forschungsdaten langfristig gesichert und offen zugänglich gemacht werden.[3] Bei offen zugänglichen Forschungsdaten spricht man von Open Data. Open Data sind im Internet verfügbar, liegen in einem maschinenlesbaren Format vor und sind mit einer Lizenz versehen, die jedem erlaubt, sie zu nutzen und mit anderen zu teilen.[4] Shared Data sind nicht notwendigerweise Open Data, wenn sie lediglich mit einem begrenzten Personenkreis, z. B. innerhalb eines Forschungsinstituts mit Kolleginnen und Kollegen, geteilt werden.
3 Rahmensetzung der Forschungsförderer
Sowohl auf nationaler als auch europäischer Ebene werden die Forderungen nach einem offenen Zugang zu Forschungsdaten stärker, wenn er derzeit auch noch nicht verpflichtend ist. Die Deutsche Forschungsgemeinschaft hat Leitlinien zum Umgang mit Forschungsdaten formuliert, laut denen bereits in der Projektplanung Überlegungen zum Forschungsdatenmanagement erfolgen, die Daten zeitnah bereitgestellt und für mindestens zehn Jahre archiviert werden sollen. Die Kosten für das Forschungsdatenmanagement können mit einem Antrag bei der DFG eingeworben werden.[5] Auf europäischer Ebene hat die Europäische Kommission im Rahmen des aktuellen Förderprogramms Horizon 2020 einen sog. Open Data Pilot aufgelegt. Projekte aus bestimmten Themenbereichen wie Zukunftstechnologien, Forschungsinfrastrukturen oder Sozialwissenschaften werden verpflichtet, einen Datenmanagementplan aufzustellen.[6]
4 Forschungsdatenmanagement
“Data Management refers to the storage, access and preservation of data produced from a given investigation. Data management practices cover the entire lifecycle of the data, from planning the investigation to conducting it, and from backing up data as it is created and used to long term preservation of data deliverables after the research investigation has concluded.” [7]
Grundlage des Forschungsdatenmanagements in Forschungsprojekten ist folglich der Lebenszyklus von Forschungsdaten. Er besteht aus den Schritten Planung/Erstellung, Auswahl, Ingest/Übernahme, Speicherung/Infrastruktur, Erhaltungsmaßnahmen und Zugriff/Nutzung.[8]

Der Lebenszyklus von Forschungsdaten.
Er wird ergänzt durch übergreifende Aufgaben, die unabhängig von der Planung und Durchführung der einzelnen Schritte bewältigt werden müssen. Als übergreifende Aufgaben des Forschungsdatenmanagements gelten (Gesamt-) Organisation, Kostenberechnung und -träger, rechtliche Rahmenbedingungen, Beschreibung/Erstellung von Metadaten und Vergabe von persistenten Identifikatoren.[9]

Übergreifende Aufgaben im Forschungsdatenmanagement.
Um diese Schritte und Aufgaben zu erfüllen, ist es hilfreich vor Projektbeginn einen sog. Datenmanagementplan (DMP) aufzustellen. Als Orientierungshilfen hierfür gibt es verschiedene webbasierte Werkzeuge, die durch die einzelnen Schritte führen.[10]
Vom britischen Digital Curation Center (DCC) wird die Anwendung DMPonline betrieben. Hier können kollaborativ DMP erstellt und bearbeitet werden, jedoch ist die Anwendung auf die Situation im Vereinigten Königreich mit seinen Förderorganisationen ausgerichtet. Die Vorlagen zu DMP werden durch die Nutzenden ausgefüllt. Angereichert wird dies durch Vorgaben der Förderorganisation, des DCC und, für einige Universitäten im UK, durch Hinweise der eigenen Institution. Neben den britischen Förderprogrammen lässt sich DMPonline auch für DMP für Horizon 2020 nutzen. Für den deutschsprachigen Raum hat die Humboldt-Universität-Berlin eine Handreichung zur Benutzung von DMPonline für Horizon 2020 erarbeitet.[11] DMPonline ist unter einer freien Software-Lizenz (Affero General Public License AGPL3) auf github.com veröffentlicht.[12]
Das erste Online Tool für die Erstellung eines DMP in Deutschland stammt von der Universität Bielefeld. Eingebettet in die Beratungsleistungen der Kontaktstelle Forschungsdaten an der Universitätsbibliothek können hier Datenmanagementpläne durch die Mitglieder der Universität erstellt werden.[13]
Die Technische Universität Berlin arbeitet mit TUP-DMP an einem Tool zur Erstellung von DMP für das TU eigene Repository DepositOnce.[14]
Das seit 2015 von der DFG geförderte Projekt „DMP Werkzeug“[15] entwickelt ein generisches Tool zur Erstellung von Datenmanagementplänen, das die strukturierte Planung, Umsetzung und Verwaltung des Forschungsdatenmanagements unterstützt und zusätzlich die textuelle Ausgabe eines Forschungsdatenmanagementplans ermöglicht. Das Tool wird auf der WissGrid Checkliste zum Forschungsdatenmanagement basieren[16] und alle involvierten Akteure ansprechen, sowie die gesamte Projektlaufzeit abdecken. Das fertige Tool soll selbstständig durch Institutionen oder Universitäten installierbar sein und sich einfach durch disziplin- bzw. institutionsspezifische Inhalte anreichern lassen.
5 Leistungsportfolio einer wissenschaftlichen Bibliothek
Vor dem Hintergrund verschiedener Zielsetzungen wissenschaftlicher Bibliotheken im Hinblick auf die räumliche Ausdehnung ihrer Aktivitäten (lokal, regional, überregional), ihrer Zielgruppen sowie fachlichen Abdeckung, müssen auch die Ziele und Maßnahmen im Bereich Forschungsdatenmanagement angepasst sein.
Während eine Universitätsbibliothek alle Fachdisziplinen im Blick haben muss und lokal ausgerichtet ist, muss sich eine fachlich fokussierte Spezialbibliothek an den fachspezifischen Gegebenheiten in ihren Disziplinen orientieren. In der Regel ist hier eine überregionale Zuständigkeit gegeben.
Eine wissenschaftliche Bibliothek kann in allen Schritten und Aufgaben des Forschungsdatenmanagements beratend tätig sein. In ausgewählten Schritten können Angebote den Managementprozess auch direkt unterstützen.
Um die Angebote einer Bibliothek zu konkretisieren, wird hier das Fallbeispiel von PUBLISSO[17] , dem Open-Access-Publikationsportal von ZB MED Leibniz-Informationszentrum Lebenswissenschaften dargestellt.
Ausschlaggebend dafür Services im Bereich Forschungsdatenmanagement aufzubauen war eine im Jahr 2013 durchgeführte Markt- und Zielgruppenanalyse als Grundlage einer zu entwickelnden Strategie für ZB MED.
In einer Onlineumfrage, die einen der Bausteine der Analyse darstellte, wurden u. a. auch gezielt Fragen an Forschende zum Angebot von Serviceleistungen rund um das Forschungsdatenmanagement gestellt, z. B.:
Würden Sie anderen Forschenden eigene empirische Datensätze für deren Analysen zur Verfügung stellen?
Wie interessant ist für Sie folgendes Modell: ein zentrales deutsches Informationszentrum bietet die Nutzung einer Datenbank für empirische Datensätze an?
Anhand der hierzu gegebenen Antworten sowie Äußerungen von Forschenden und Bibliotheksvertretern im Rahmen der darüber hinaus durchgeführten Fokusgruppengespräche wurde deutlich, dass das Forschungsdatenmanagement ein strategisches Gap bei ZB MED darstellt. Das bedeutet, dass ZB MED hier ein neues zusätzliches Angebot schaffen sollte, das im Wesentlichen in einem Beratungsservice, in der Kooperation mit bestehenden Forschungsdatenplattformen sowie ggf. in der Schaffung eigener Infrastrukturen für die Publikation von Forschungsdaten bestehen sollte. Der sog. DOI-Service zur Vergabe von persistenten Identifikatoren für digitale Objekte, der bereits seit einigen Jahren angeboten wurde, stellt für die neuen Angebote eine wichtige Grundlage dar.
Auf Basis der Ergebnisse aus der Markt- und Zielgruppenanalyse betätigt sich ZB MED als überregional zuständiges Informationszentrum im Wesentlichen in drei Bereichen in Bezug auf das Forschungsdatenmanagement:
Beraten,
Publizieren,
Vernetzen.
Die Beratung wendet sich konkret an die relevanten Zielgruppen der Forschenden und der Multiplikatoren in Bibliotheken, Publikationsangebote für Forschungsdaten richten sich in der Regel ausschließlich an die Wissenschaftlerinnen und Wissenschaftler. Der Bereich „Vernetzen“ bezieht sich auf die Beteiligung von ZB MED in Gremien, z. B. in themenbezogenen Arbeitsgruppen, bzw. den Aufbau von Netzwerken in den wissenschaftlichen Fachcommunities, beispielsweise durch Vorträge auf Fachtagungen. Aber auch Kontakte in die Politik sind hier Bestandteil. Insgesamt dient der Bereich „Vernetzen“ dazu eine Verbindung zwischen Theorie und Praxis zu schaffen und die Beratungs- und Publikationsangebote an aktuelle Entwicklungen und die Bedürfnisse der Zielgruppen anzupassen.
5.1 Beratungsleistungen
Die Beratung umfasst folgende Bausteine:
Informationstexte in Form von Frequently Asked Questions (FAQs),
Workshops und Vorträge für Wissenschaftlerinnen und Wissenschaftler sowie für Multiplikatoren in wissenschaftlichen Bibliotheken, an Graduiertenschulen und an lebenswissenschaftlichen Fachbereichen von Hochschulen,
Persönliche Beratung über ein Kontaktformular oder telefonisch. Dabei geht es v. a. um Fragen wie: Veröffentlichung von Forschungsdaten und damit zusammenhängende Themen, Erstellung von Datenmanagementplänen, rechtliche Aspekte etc.,
Tutorials zu verschiedenen Services im Forschungsdatenmanagement.[18]
5.2 Persistente Identifikatoren
Durch die Vergabe eines Persistenten Identifikators, z. B. dem Digital Object Identifier (DOI), wird die Auffindbarkeit und Zitierfähigkeit von Publikationen, insbesondere auch Forschungsdaten, sichergestellt. ZB MED ist Mitglied im DataCite-Konsortium und agiert als DOI-Vergabestelle für akademische Onlineangebote aus den Lebenswissenschaften. DOIs werden schwerpunktmäßig für Forschungsdaten, aber auch für Volltexte vergeben.
5.3 Publikation von Forschungsdaten
Die Publikationsmöglichkeiten im Rahmen von PUBLISSO bauen auf dem strategischen Ziel auf, bereits vorhandene Infrastrukturen zur Datenpublikation in den Lebenswissenschaften aufzuzeigen und an den Stellen eigene Angebote aufzubauen, wo Lücken identifiziert werden. Dies bezieht sich beispielsweise auf den sog. Long Tail der Forschungsdaten, also Daten, die ein geringes Datenvolumen aufweisen, in verschiedenen Datenformaten vorliegen und somit nur schwer standardisierbar sind, aber auch auf lebenswissenschaftliche Teildisziplinen, in denen Möglichkeiten zur Datenarchivierung und -publikation weitgehend fehlen.
Konkrete Angebote im Rahmen der Publikation von Forschungsdaten macht ZB MED in folgenden Bereichen:
Nachweis fachrelevanter Forschungsdatenrepositorien zur Datenpublikation und Recherche:
In einer Tabelle verlinkt PUBLISSO auf rund 250 Datenrepositorien aus den Lebenswissenschaften, die eine Open Access Datenpublikation ermöglichen. Grundlage dieser Tabelle ist eine Recherche im Portal re3data.org[19] , das qualitätsgeprüfte Datenrepositorien nach verschiedenen Kriterien auflistet. Die in PUBLISSO geführten Repositorien wurden alle nochmals überprüft und aufgelistet. Dabei erleichtern Filter nach Kriterien wie „fachlicher Schwerpunkt“ oder „Sitz des Betreibers“ die Suche nach geeigneten Repositorien. Eigene Recherchen sowie ständige Überprüfungen der gelisteten Repositorien ergänzen und aktualisieren die Auflistung.
Veröffentlichung von Forschungsdaten im Zusammenhang mit der Publikation eines Zeitschriftenartikels im Rahmen von German Medical Science (GMS):
Die Plattform GMS betreibt ZB MED gemeinsam mit der Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF) und dem Deutschen Institut für Medizinische Dokumentation und Information (DIMDI). ZB MED übernimmt die Redaktion für alle GMS-Beiträge, berät die herausgebenden Fachgesellschaften, bereitet die zuvor im Peer-Review-Verfahren begutachteten Fachartikel für die Veröffentlichung vor und publiziert sie anschließend. Die über GMS veröffentlichten Artikel sind sowohl über das ZB MED-Suchportal LIVIVO als auch über Suchmaschinen wie Google auffindbar.
Autorinnen und Autoren, die über GMS veröffentlichen, können die ihren Artikeln zugrunde liegenden Forschungsdaten kostenfrei publizieren. ZB MED kooperiert zu diesem Zweck mit dem Forschungsdatenrepositorium Dryad und übernimmt die Publikationskosten. Durch die wechselseitige Zitierung von Artikel und Forschungsdaten wird die Sichtbarkeit für beide gesteigert.
Publikation von Forschungsdaten im Fachrepositorium Lebenswissenschaften:
Neben der Publikation digitaler Grauer Literatur, Zweitveröffentlichungen und Dissertationen besteht hier künftig die Möglichkeit, singuläre Forschungsdaten abzulegen, aber auch eine Verbindung mit einer zugehörigen Textpublikation herzustellen.
Aufbau eines fachlichen Forschungsdatenrepositoriums für eine lebenswissenschaftliche Disziplin:
Während das Fachrepositorium Lebenswissenschaften einen eher generischen Charakter hat, da es alle lebenswissenschaftlichen Forschungsdaten abdeckt, soll in Fächern wie den Agrar- oder Ernährungswissenschaften ein fachspezifisches Forschungsdatenrepositorium aufgebaut werden. Auch hier gilt das Ziel, Lücken zu schließen. Daher wird der Fokus nicht auf die Medizin gesetzt, wo es bereits eine Vielzahl vorhandener Strukturen gibt, wie die Recherche nach Forschungsdatenrepositorien gezeigt hat.
Ein Forschungsdatenrepositorium für die Agrarwissenschaften wird derzeit mit Kooperationspartnern aus der Fachcommunity diskutiert und ggf. werden Fördergelder dafür beantragt.
5.4 Zugriff auf Forschungsdaten
Das ZB MED Suchportal für Lebenswissenschaften LIVIVO weist derzeit bereits eine Vielzahl von Forschungsdaten aus dem Datenrepositorium DRYAD nach. Diese sind durch den Filter „Documenttype=research data“ direkt suchbar. Geplant ist eine weitere Einbindung von Daten aus lebenswissenschaftlichen Datenrepositorien, vorzugsweise von Datenzentren, die über DataCite DOIs für ihre Forschungsdaten vergeben. Durch die DataCite Mitgliedschaft von ZB MED ist eine direkte Einbindung über die DOI möglich und die Datenzentren können nach passender fachlicher Ausrichtung und der Bereitstellung geeigneter Forschungsdaten ausgewählt werden.
6 Fazit
Dass wissenschaftliche Bibliotheken sich mit dem Thema Forschungsdaten auseinandersetzen, ist vor dem Hintergrund der aktuellen Diskussionen und der Rahmensetzung der Forschungsförderer sicherlich notwendig. Denn die Forschenden haben eine Vielzahl von Fragen zum Umgang mit Forschungsdaten und hier besteht die Chance, die Bibliothek als kompetenten Ansprechpartner zu positionieren. Welche Services eine Bibliothek anbietet, ist sicherlich von der jeweiligen Aufgabenstellung, den (Personal-) Kapazitäten und dem Bedarf der Zielgruppe abhängig. Ein Spektrum möglicher Angebote wurde hier aufgezeigt.
Eine Bibliothek kann jedoch nicht nur passiv abwarten bis Fragen an sie herangetragen werden, sondern sollte den Gedanken von Open Data auch aktiv vorantreiben. Wichtige Voraussetzung hierfür ist eine Vernetzung mit den Forschenden, um deren Bedarfe kennenzulernen und bedarfsgerecht reagieren zu können – und dies auf jede einzelne Disziplin heruntergebrochen. Sicherlich ist hier noch eine Menge Überzeugungsarbeit zu leisten, um Forschende zunehmend zur Publikation ihrer Forschungsdaten zu motivieren.
About the author

Birte Lindstädt
ZB MED Leibniz-Informationszentrum Lebenswissenschaften, Gleueler Straße 60, 50931 Köln
© 2016 by De Gruyter