Skip to content
Publicly Available Published by De Gruyter Saur July 23, 2020

Die Bedeutung von ‚Use-Cases‘ für das qualitätsgerechte Forschungsdatenmanagement

  • Annette Strauch

    Annette Strauch arbeitet seit 2012 im Bereich Forschungsdatenmanagement und Digitale Langzeitarchivierung (kiz, Universität Ulm, ZIMT, Universität Siegen, SFB 1187, INF-Projekt). In der Universitätsbibliothek Hildesheim ist sie seit März 2018 für alle Bereiche im Forschungsdatenmanagement die Ansprechperson. Im Vordergrund des Forschungsdatenmanagement stehen für sie die Nutzerinnen und Nutzer der technischen und serviceorientierten Infrastrukturen sowie der Austausch mit den Akteurinnen und Akteuren in der globalen Forschungsdaten-Community.

    EMAIL logo

Einleitung

Forschungsdaten sind alle Daten, die während des Forschungsprozesses entstehen. Die Möglichkeit zum Austausch und zur Nachnutzung dieser Daten erhöht den gesellschaftlichen Mehrwert von Forschungsergebnissen. Doch dafür braucht es überregionale und disziplinübergreifende Standards. Der Beitrag zeigt den Weg der Universität Hildesheim, wie diese entwickelt werden können.

Im Forschungsdatenmanagement wird für jedes einzelne Projekt die Forschungspraxis, die Analysemethoden und der Umgang mit Metadaten betrachtet, und zwar im Kontext der jeweiligen Fachkultur. Im nächsten Schritt sollte diskutiert werden, was sich im jeweiligen Forschungsprozess bewährt hat und was nicht. Dieser praxisbezogene Ansatz ist zu einem wichtigen Bestandteil der Forschung und somit des Datenmanagements geworden. Er ist die Grundlage dafür, wie Standards im Forschungsdatenmanagement entwickelt werden und er begründet die Bedeutung von Use Cases in diesem Prozess. Nur wenn der Aufwand für das Datenmanagement Forschende in ihrer Praxis unterstützen kann, wird der Mehrwert anerkannt. Dieser Mehrwert wird erweitert, wenn aus fachspezifischen Fallbeispielen disziplinübergreifende Muster abgeleitet und z. B. interoperable Metadaten hinzufügt werden können.

Forschungsdatenmanagement der Stiftung Universität Hildesheim

Die Leitlinien zum Umgang mit Forschungsdaten an der Stiftung Universität Hildesheim (SUH)[1] wurden am 5. Februar 2020 von der Erweiterten Hochschulleitung verabschiedet und bieten den Forschenden der SUH einen Orientierungsrahmen, der Transparenz, Klarheit und Unterstützung im Umgang mit Forschungsdaten schafft. Anlass dafür waren insbesondere die Anforderungen von Forschungsförderern wie der Deutschen Forschungsgemeinschaft (DFG), dem Bundesministerium für Bildung und Forschung oder der Europäischen Union.

Im Sinne von Open Science gehören die neuen Leitlinien zum Umgang mit Forschungsdaten an der SUH in den gleichen Kontext wie die Leitlinien zum Open Access-Publizieren.[2] Zudem tragen sie dazu bei, die jüngst von 160 internationalen Universitäten unterzeichnete Sorbonne-Erklärung zum Zugang zu Forschungsdaten[3] auch an der SUH zu realisieren, da Forschungsdatenmanagement (FDM) sowohl die FAIR (findable, accessible, interoperable, reusable) Data Principles[4] als auch die Software- und Datenzitationsprinzipien (Data Citation Principles) einhalten sollte.

Handlungserfordernisse für FAIR-Data Prinzipien an der SUH

Übergreifende Handlungserfordernisse konnten bisher für alle Fachbereiche der SUH ermittelt werden. Lösungen für kollaboratives Arbeiten auf nachhaltigen, sicheren Arbeitsplattformen sind u. a. mit der niedersächsischen Initiative Academic Cloud (AC)[5] bereits in Beratungsgesprächen vermittelt worden. Knapp 6.500 Nutzerinnen und Nutzer haben sich in der AC registriert. 2.500 Personen davon sind im Februar 2020 angemeldet gewesen. Der Anteil der SUH liegt bei ca. 1.750 eingetragenen bzw. 700 aktiven Nutzerinnen und Nutzern. Die rechtssichere Nachnutzung von Forschungsdaten in den Projekten ist gewährleistet und Mustereinwilligungen stehen zur Verfügung ebenso wie der nachhaltige Zugriff auf diverse übergreifende Archivierungs- und Publikationskontexte.

An der SUH können digitale Daten inklusive forschungsrelevanten Daten institutionell bei HilData[6] gespeichert werden. Ab Ende März 2020 wird es auch ein Dataverse[7] – Forschungsdatenrepositorium in Kooperation mit der eResearch Alliance (eRA) in Göttingen geben, das zunächst als Pilot getestet werden soll. Dieses Kooperationsvorhaben findet im Rahmen der Forschungsdateninitiative Niedersachsen statt, ein Zusammenschluss von Akteurinnen und Akteuren in den Bibliotheken und Rechenzentren in Niedersachsen.

Die Humboldt-Universität zu Berlin empfiehlt disziplinspezifische Richtlinien im FDM zu nutzen.[8] Wichtig ist aber auch der Datentransfer über disziplinäre Grenzen hinaus. Dazu muss implizites fachspezifisches Wissen laut RfII-Empfehlungen expliziert, d. h. in interoperable Forschungsdaten transformiert werden.[9] Dafür liefert z. B. die Initiative NFDI4Objects[10] einen Rahmen für Kooperationen zur Entwicklung nachnutzbarer und austauschbarer Standards. Dieses NFDI-Konsortium identifiziert Musterdatensätze für den Austausch im Sinne des Semantic Web und stellt Ontologien und Frameworks bereit, mit denen Forschende Daten beschreiben können, um die Interpretation und Kombination zu unterstützen. Beispielhaft geht es hier darum, Ergebnisse aus dem Forschungsdatenmanagement in der Archäologie für andere Disziplinen der materiellen Kultur durch Standardisierung nachnutzbar zu machen.[11]

Diese Erfahrungen nutzt die SUH, um Forschungsdatenstandards und neue Konzepte für die Biologie, Mathematik, Physik, Geografie in NFDI4Objects einzubringen, die interoperabel genutzt werden können. Außerdem beschäftigt sich das Center for World Music[12] mit materieller Kultur (materielle und digitale Sammlungen), einem Bereich, der für NFDI4Objects relevant ist. Von einem Forscherteam wird Musik aus Nigeria digitalisiert und muss mit Metadaten versehen werden.

Use-Cases im FDM an der SUH

Das FDM der SUH[13] unterstützt darüber hinaus alle einzelnen Fachgemeinschaften[14] im First-Level-Support in Beratungen in der UB und im Rahmen der Digitalberatung Niedersachsen[15] beim Umgang mit der Datenmanagementplanung in Beratungsanträgen und Empfehlung der Nutzung des RDMO-Tools[16] sowie hinsichtlich der Repositorienlösungen. Die Nutzercommunities der SUH kommen schwerpunktmäßig aus den Erziehungswissenschaften, den Kulturwissenschaften, Sprach- und Informationswissenschaften sowie aus dem Bereich des Maschinellen Lernens.

Bei den Beratungen werden realisierte Use-Cases einbezogen und vorhandene Fallstudien weiterentwickelt. Einen guten Orientierungsrahmen für das generische FDM von der Produktion bis zur Langzeitarchivierung bildet neben dem Datenlebenszyklus seit über einem Jahrzehnt das Data Curation Continuum[17] als Workflow für unterschiedliche Fallbeispiele. Entlang des Data Curation Continuum kann z. B. in einem Bottom-Up-Verfahren jeweils die nächsthöhere disziplinäre Aggregationsstufe per Metadatentransfer erreicht werden.

Abbildung 1 
Gliederung des Data Curation Continuum in vier Domänen. Beim Datentransfer werden vorliegende Metadaten um weitere Elemente angereichert. (Klump, 2009)
Abbildung 1

Gliederung des Data Curation Continuum in vier Domänen. Beim Datentransfer werden vorliegende Metadaten um weitere Elemente angereichert. (Klump, 2009)

Ein Fallbeispiel für einen stark interdisziplinären Forschungsverbund mit heterogenen Datenformaten und methodischer Vielfalt ist das Zentrum für Digitalen Wandel (ZfDW)[19]. Ein Forschungsschwerpunkt Politik und Internet arbeitet zudem international vergleichend. Ein Data Science Lab stellt Hard- und Software für die Durchführung innovativer Methoden der Erhebung und Analyse großer Datenbestände der Online-Kommunikation (Webseiten, Online-Plattformen, soziale Netzwerke) zur Verfügung.

Wenn das ZfDW den Digitalen Wandel untersucht und Forschungskooperationen gebündelt werden, wird für die vier Untersuchungsgebiete die Interoperabilität im Verknüpfen der Forschungsdaten relevant, aus denen einzelne Use-Cases abgeleitet werden:

  1. Demokratie, Öffentlichkeit und Governance

  2. Ästhetische Praxis

  3. Sprache, Information und Wissen

  4. Digitale Wirtschaft und Künstliche Intelligenz.

Hier kommen technische, sozial- und geisteswissenschaftliche Forschung unter dem Aspekt der Digitalisierung zusammen. Nur bei Anwendung gemeinsamer Standards für den Umgang mit Forschungsdaten und nachhaltiger Lösungen können Forschungsdaten der Wirtschaftsinformatik, Politikwissenschaften, Computerlinguistik und aus allen Instituten der SUH ausgetauscht werden. So werden z. B. den Digital Humanities-Projekten Standards, die im Projekt CLARIN-D[20] entwickelt wurden, zur Verfügung gestellt. Der Einsatz computerlinguistischer Werkzeuge wird im FDM in standardisierter Form abgebildet.

SOLDISK

Ein Beispiel für solch einen Use-Case in Hildesheim ist der interdisziplinäre Forschungsverbund „SOLDISK: Solidaritätsdiskurse in Krisen – Analyse und Erklärung von Solidaritätsvorstellungen in Migrationskontexten“ [21]. Für das Projekt wird das DMP-Tool RDMO eingesetzt, das für die Universität Hildesheim vom lokalen Rechenzentrum installiert wurde und zum Einsatz bereitsteht. Damit können Institutionen und Forschende das Forschungsdatenmanagement ihrer Projekte strukturiert planen und durchführen. Das Werkzeug dient zur Erfassung aller relevanten Planungsinformationen in Datenmanagementplänen und zur Verwaltung aller Datenmanagementaufgaben.

Bei SOLDISK gehen die beteiligten Forschenden des Instituts für Sozialwissenschaften und des Instituts für Informationswissenschaft und Sprachtechnologie der Universität Hildesheim davon aus, dass Ausnahmesituationen die Solidarität innerhalb der Gesellschaft auf die Probe stellen. Welche individuellen Vorstellungen die politischen Entscheidungsträger, aber auch die sozialen Akteure von Solidarität haben, ist der Kern der Analyse des Vorhabens. Es fallen in diesem Projekt qualitative und auch quantitative Daten an, die zum Teil öffentlich sind, aber zum Teil auch geschlossen. Forschungsdaten sind beispielsweise Leserinnen- und Leserbriefe von Zeitungen, Kommentare von Online-Artikeln, die via Webscraping computerlinguistisch aufbereitet werden. Über die Datenschnittstelle (API) können die meisten Forschungsdaten von abgeordnetenwatch.de maschinenlesbar als JSON genutzt werden. Über API können Informationen zu bestimmten Parlamentsperioden (Legislaturen und Wahlen), Daten zu Kandidierenden und Abgeordneten, wie z. B. Wahlkreise, Wahlergebnisse, Abstimmungsverhalten, Nebentätigkeiten und einzelne namentliche Abstimmungen und das Abstimmungsverhalten der Abgeordneten und Fraktionen abgerufen werden. Standards und Use-Cases ergeben sich dabei aus den Forschungsmethoden, d. h. wie die Forschungsdaten erhoben, bearbeitet und analysiert werden, z. B. die Online- und Offline Kommunikation. Daraus leiten sich die neuen Standards für die Politik-, Sozialwissenschaften ab und für Projekte, die ähnlich forschen werden.

So entsteht innerhalb der Datenmanagementplanung im Laufe des Forschungsprojekts als ‘Living Object’ ein Use-Case. Dieser schließt auch die frühzeitige Berücksichtigung der digitalen Langzeitarchivierung der Forschungsdaten aus den unterschiedlichen Teilprojekten ein. Allerdings müssen entsprechend den Empfehlungen der RFII zur Datenqualität[22] die konkreten projektspezifischen Bedingungen, unter denen Daten entstanden sind, sowie ihre prozessorientierten Zustände im Verlauf nachvollziehbar sein. Dies ist auch die Voraussetzung dafür, dass Forschungsdaten interoperabel sind, also verbindlichen Standards der Beschreibung unterliegen, die sie für unterschiedliche ‘Communities of Practice’ nachnutzbar machen.

Abbildung 2 
RFII Herausforderung: Impliziertes Wissen explizieren.
Abbildung 2

RFII Herausforderung: Impliziertes Wissen explizieren.

In der Nachnutzbarkeit liegt der Sinn von Use-Cases für möglichst viele Forschungskontexte „(...) von beliebig reproduzierbaren Datensets, zum Beispiel in der Genomanalyse, bis hin zu einmaligen, nicht reproduzierbaren Beobachtungsdaten, wie sie in der Astrophysik erzeugt werden. Auch im Bereich der Biodiversitätsforschung oder bei archäologischen Grabungen sind Probennahmen und Dokumentationsprozesse oftmals nicht wiederholbar.[23]

Fazit und Ausblick

Use-Cases haben im Kontext der Ziele der Initiative Nationale Forschungsdateninfrastruktur (NFDI) eine wichtige Funktion. Sie tragen dazu bei, Anbieter und Nutzer zusammen zu bringen, neu beginnende Forschungsprojekte über bestehende Standards und ihre praktische Umsetzbarkeit zu informieren und interoperables FDM zu verbreiten und disziplinär und projektspezifisch weiterzuentwickeln. Use Cases können die empirische Basis von Standards mit Bezug auf die wichtigen Merkmale Datenschutz, Souveränität, Integrität und Datenqualität stabilisieren und im besten Falle eine globale Verbreitung ermöglichen. Soweit Analysemethoden und Werkzeuge der Forschung international sind, können auch Metadatenstandards, die sich lokal bewährt haben, grenzüberschreitend nachgenutzt werden.

Praxisnahe Use Cases schaffen nicht nur ein Bewusstsein für FDM. In ihrer Gesamtheit bieten die Fallbeispiele auch einen ontologisch umschrieben Orientierungsrahmen und präsentieren nachnutzbare Werkzeuge in einem realen Forschungsszenario, wenn sie transferorientiert eingebettet werden. Gleichzeitig sorgen interoperable Metadaten dafür, dass Forschungsdaten vorhabenspezifisch gefunden und nachgenutzt werden können.

Deskriptoren: Fallbeispiel, Forschung, Forschungsdatenmanagement, Interoperabilität, Datenqualität, Informationskompetenz, Nachhaltigkeit in der Forschung

Über den Autor / die Autorin

Annette Strauch M. A.

Annette Strauch arbeitet seit 2012 im Bereich Forschungsdatenmanagement und Digitale Langzeitarchivierung (kiz, Universität Ulm, ZIMT, Universität Siegen, SFB 1187, INF-Projekt). In der Universitätsbibliothek Hildesheim ist sie seit März 2018 für alle Bereiche im Forschungsdatenmanagement die Ansprechperson. Im Vordergrund des Forschungsdatenmanagement stehen für sie die Nutzerinnen und Nutzer der technischen und serviceorientierten Infrastrukturen sowie der Austausch mit den Akteurinnen und Akteuren in der globalen Forschungsdaten-Community.

Literatur

Curdt, Constanze; Grasse, Marleen; Hess, Volker; Kasties, Nils; López, Anja; Magrean, Benedikt; Perry, Anja u. a. (2018). Zur Rolle Der Hochschulen – Positionspapier Der Landesinitiative NFDI und Expertengruppe FDM der Digitalen Hochschule NRW. Zum Aufbau Einer Nationalen Forschungsdateninfrastruktur. URL: https://zenodo.org/record/1217527 [23.3.2020].Search in Google Scholar

Deutsche Forschungsgemeinschaft (2019). Umgang mit Forschungsdaten. URL: http://www.dfg.de/foerderung/antrag_gutachter_gremien/antragstellende/nachnutzung_forschungsdaten/ [23.3.2020].Search in Google Scholar

Klump, J. (2009). Digitale Forschungsdaten, In: H. Neuroth et al., Hrsg. 2009. NESTOR-Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. URL: http://nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_427.pdf [23.3.2020].Search in Google Scholar

RfII–Rat für Informationsinfrastrukturen (2019). Herausforderung Datenqualität – Empfehlungen zur Zukunftsfähigkeit von Forschung im digitalen Wandel, zweite Auflage, Göttingen. URL: http://www.rfii.de/download/herausforderung-datenqualitaet-november-2019/ [23.3.2020].Search in Google Scholar

Strauch, Annette; Dahnke, Michael (2019). Forschungsdatenmanagement und Infrastruktur im SFB 1187 Medien Der Kooperation. Bausteine Forschungsdatenmanagement. URL: https://doi.org/10.17192/bfdm.2019.2.8071 [23.3.2020].Search in Google Scholar

Strauch, Annette; Hess, Volker (2019). Von der Produktion bis zur Langzeitarchivierung qualitativer Forschungsdaten im SFB 1187. Bibliothek Forschung & Praxis 43, Nr. 1. URL: https://doi.org/10.1515/bfp-2019-2005 [23.3.2020].Search in Google Scholar

Strauch, Annette (2018). Medien der Kooperation. Forschungsdaten.org. URL: http://www.forschungsdaten.org/index.php/Medien_der_Kooperation [23.3.2020].Search in Google Scholar

Strauch, Annette. 2018. Medien der Kooperation SFB 1187. DHd. URL: https://dig-hum.de/forschung/projekt/medien-der-kooperation-sfb-1187[23.3.2020].Search in Google Scholar

Treloar, A., D. Groenewegen, and C. Harboe-Ree (2007). The Data Curation Continuum – Managing Data Objects in Institutional Repositories, D-Lib Magazine, 13(9/10), 13, URL: http://www.dlib.org/dlib/september07/treloar/09treloar.html [23.3.2020].Search in Google Scholar

Wilkinson, et al. (2016). The FAIR Guiding Principles for scientifc data management and stewardship. Scientifc Data, 3, Article number: 160018. [23.3.2020].Search in Google Scholar

Online erschienen: 2020-07-23
Erschienen im Druck: 2020-07-03

© 2020 Walter de Gruyter GmbH, Berlin/Boston

Downloaded on 28.3.2024 from https://www.degruyter.com/document/doi/10.1515/iwp-2020-2087/html
Scroll to top button