Jump to ContentJump to Main Navigation
Show Summary Details
More options …

Information - Wissenschaft & Praxis

Ed. by Reibel-Felten, Margarita


CiteScore 2018: 0.06

SCImago Journal Rank (SJR) 2018: 0.131
Source Normalized Impact per Paper (SNIP) 2018: 0.220

Online
ISSN
1619-4292
See all formats and pricing
More options …

Replikationen, Reputation und gute wissenschaftliche Praxis

Replication, Reputation and good Scientific Practice

Les réplications, la reproductibilité et les bonnes pratiques scientifiques

Benedikt Fecher
  • Corresponding author
  • Alexander von Humboldt Institut für Internet und Gesellschaft, Französische Straße 9, 10117 BerlinGermany
  • Email
  • Other articles by this author:
  • De Gruyter OnlineGoogle Scholar
/ Ph.D. Mathis Fräßdorf / Dr. Marcel Hebing / Prof. Dr. Gert G. Wagner
Published Online: 2017-05-06 | DOI: https://doi.org/10.1515/iwp-2017-0025

Zusammenfassung

In Zeiten wachsender Publikationszahlen und zunehmend datenintensiver Forschung stoßen die klassischen Qualitätssicherungsmaßnahmen, wie die Peer-Review, an ihre Grenzen. Vor diesem Hintergrund werden Replikationsstudien verstärkt als gute wissenschaftliche Praxis und Lösungsansatz diskutiert, um dem Problem methodisch unzureichender und oftmals fehlerbehafteter Analysen zu begegnen. Denn schlechte Analysen untergraben nicht zuletzt das Vertrauen der Öffentlichkeit in die Wissenschaft. Dennoch werden in allen Disziplinen bisher nur wenige Replikationsstudien durchgeführt. In diesem Aufsatz zeigen wir die zentralen Probleme bei der Replizierbarkeit wissenschaftlicher Ergebnisse auf und schlagen Maßnahmen vor, die auf den impliziten Reputationsmechanismen der akademischen Wissenschaft beruhen

Abstract

In times of rising publication rates and increasingly data-intensive research, the established measurements guaranteeing high quality academic output such as peer review have reached their limits. Against this background, the replicability of scientific results, particularly replication studies, have been discussed as a hallmark of good scientific practice. Thus, failures of replication raises the public's mistrust in the scientific enterprise. More and systematic replication studies are discussed as a solution to counter recent issues of analyses which were found to be methodological unsound or erroneous. Nevertheless, few replication studies are being conducted. The aims of this article are to introduce the main issues regarding the replicability of scientific results, and to suggest policy measures in order to raise the number of replication studies that build upon the implicit mechanisms that structure academic reputation.

Résumé

En période de hausse du nombre de publications d’articles et de recherches à forte intensité de données, les mesures classiques visant à s'assurer de leur qualité, tels que l'examen par des pairs, arrivent à leurs limites. Dans ce contexte, les études de réplication sont de plus en plus envisagées comme bonne pratique scientifique susceptible de contrecarrer ce problème. Et pourtant, peu d’études de réplication interdisciplinaires sont menées. Dans cet article, nous démontrons les problèmes centraux de la reproductibilité des résultats scientifiques. De plus, nous présentons un cadre conceptuel qui permet – sur base de mécanismes de réputation implicites des sciences académiques – d’augmenter la reproductibilité des résultats scientifiques et le nombre d'études de réplication.

Deskriptoren: Wissenschaftliches Arbeiten; Forschungsdokumentation; Forschung; Publikation

Descriptors: Scientific work; research documentation; research; publication

Descripteurs: Travail scientifique; document de recherche; recherche; publication

Krise der wissenschaftlichen Qualitätssicherung

Es ist eine einfache wissenschaftsethische Wahrheit, dass Ergebnisse immer hinterfragt werden sollen. Nichts anderes meint Karl Poppers „kritischer Rationalismus“ oder Robert K. Mertons „organisierte Skepsis“ (Merton, 1973; Popper, 2002). Beide beschreiben die prinzipielle Überprüfbarkeit (Falsifizierbarkeit) und die tatsächliche Überprüfung von wissenschaftlichen Ergebnissen (Replikationsstudien) als elementare Prinzipien einer autonomen und zugleich der Gesellschaft verpflichteten Wissenschaft. Dieses Selbstverständnis erklärt sich daraus, dass wissenschaftliche Ergebnisse wirtschaftliche und politische Entscheidungen informieren und den öffentlichen Diskurs beeinflussen können (Burman, Reed & Alm, 2010).

Poppers und Mertons Prinzipien der guten wissenschaftlichen Praxis scheinen aktueller denn je, betrachtet man die breit international stattfindenden Diskussionen um die Replizierbarkeit wissenschaftlicher Ergebnisse (Benedictus, Miedema & Ferguson, 2016; Loeb, 2016; McNutt, 2014; Munafò u. a., 2017). Den Anlass dafür gibt eine Vielzahl von Studien aus den letzten Jahren, die zeigen, dass nur ein Bruchteil der veröffentlichten Ergebnisse in empirisch-wissenschaftlichen Disziplinen tatsächlich replizierbar ist.

Die vermutlich aufsehenerregendste dieser Studien stammt aus dem Bereich der Psychologie. In einem großangelegten Replikationsversuch konnte das Autorenkollektiv “Open Science Collaboration” um Brian Nosek gerade einmal neununddreißig von hundert Ergebnissen erfolgreich replizieren (Open Science Collaboration, 2015). Auch andere Forscher berichten von Problemen mit der Replizierbarkeit in ihren Feldern: Für die Wirtschaftswissenschaften stellen Camerer et al. (Camerer u. a., 2016) mit einem ähnlichen Aufbau wie die Open Science Collaboration fest, dass vierzig Prozent aller experimentell erzielten Ergebnisse nicht replizierbar sind (siehe auch Bohannon, 2015; Bohannon, 2016). Besonders erschreckend: Ein Versuch, dreiundfünfzig “landmark studies” aus dem Bereich der Krebsforschung zu replizieren, war bei gerade einmal sechs Studien (11 %) erfolgreich (Begley & Ellis, 2012).

Auch wenn die Definition einer erfolgreichen Replikation sich von Studie zu Studie und Wissenschaftlerin zu Wissenschaftler unterscheiden mag, ist es unstrittig, dass in sämtlichen empirischen Disziplinen Vorbehalte gegenüber publizierten Ergebnissen berechtigt sind. Selbst die Zeitschrift The Economist, die sich sonst nur am Rande mit wissenschaftlichen Themen beschäftigt, thematisierte 2013 diese Krise in einer Coverstory mit dem vielsagenden Titel “How Science Goes Wrong” (The Economist, 2013). In einem Internet-Survey der Zeitschrift Nature aus dem Jahr 2016 sagte über die Hälfte (52 %) der antwortenden 1567 Wissenschaftler und Wissenschaftlerinnen, dass sich die Wissenschaft in einer signifikanten Replikationskrise befindet. Siebzig Prozent der Befragten gaben weiterhin an, dass sie selbst bereits bei dem Versuch, ein veröffentlichtes Ergebnis zu replizieren, gescheitert seien (Baker, 2016).

Gründe für die Krise

Es lassen sich viele Gründe für die Krise in der wissenschaftlichen Qualitätssicherung ausmachen. Häufig ist die statistische Aussagekraft einer Stichprobe zu gering (aber die Peer-Review lässt die Studie trotzdem passieren), die verwendeten Methoden wurden nicht ausreichend dokumentiert oder es fehlen die zugrundeliegenden Analyseskripte (Baker, 2016). Doch gab es in den letzten Jahren auch vermehrt Fälle des Datenmissbrauchs und schlichtweg Betrug. Hwangs gefälschte Berichte über Durchbrüche in der Stammzellenforschung (Cyranoski, 2006) oder Schöns fingierte Ergebnisse bei organischen Transistoren in über vierzig Publikationen (Grant, 2002) sind nur die skandalösesten Beispiele einer fragwürdigen wissenschaftlichen Ethik. Weitaus verbreiteter – und nicht unüblich (Ioannidis, 2005) – sind selektives Berichten und sogenanntes “p-Hacking”, also auf Basis von nicht vorab formulierten und dokumentierten Nullhypothesen die Suche nach statistisch signifikanten Ergebnissen bei gleichzeitigem Verschweigen von nicht-signifikanten Ergebnissen.

Das Hauptproblem der Krise der wissenschaftlichen Qualitätssicherung scheint allerdings systemimmanent zu sein. Es sind schließlich publizierte und damit bereits begutachtete Ergebnisse, die in wesentlichen Teilen nicht überprüfbar oder fehlerhaft sind. Die Replikationskrise zeigt folglich, dass die etablierten Mechanismen der wissenschaftlichen Qualitätssicherung, insbesondere das “Peer-Review”, allein nicht in der Lage ist, die Stimmigkeit wissenschaftlicher Ergebnisse sicherzustellen (Ioannidis, 2012); wahrscheinlich, weil die Anreize für die Gutachter nicht hoch genug sind, Analysen im Detail nachzuvollziehen oder sogar nachzurechnen.

Es liegt nahe, dass neben dem Peer-Review zusätzliche Kontrollinstanzen geschaffen oder gestärkt werden müssen. Replikationsstudien wären eine naheliegende Kontrollinstanz, aber es werden bisher nur wenige durchgeführt beziehungsweise veröffentlicht. Eine bibliometrische Studie über Replikationen in den Wirtschaftswissenschaften, an der zwei der hier beteiligten Autoren beteiligt waren, zeigte, dass gerade einmal 0,1 Prozent aller wissenschaftlichen Artikel aus den Top-50 der wirtschaftswissenschaftlichen Zeitschriften Replikationsstudien im engeren Sinne sind (Mueller-Langer, Fecher, Harhoff & Wagner, 2017). Und es ist nicht davon auszugehen, dass die Anzahl der Replikationsstudien in Zeitschriften mit geringerem Impact höher ist. In anderen Worten: Die Wahrscheinlichkeit, durch eine Replikationsstudie falsifiziert zu werden, ist für Wissenschaftler de facto so gering, dass dieser Aspekt keine Anreize setzt, besonders sorgfältig zu arbeiten.

Replikation und Reputation

In dem zuvor zitierten Nature-Survey von Wissenschaftlern wurde auch nach den Gründen für die mangelnde Replizierbarkeit gefragt. Die meistgenannten Gründe – bei einer Auswahl von vierzehn Bewertungs-Items – waren „selective reporting“ und Publikationsdruck (Baker, 2016). Interessanterweise sprechen beide für eine fehlgeleitete Wissenschaftskultur. Das selektive Berichten von Ergebnissen bekundet eine Reputationskultur, die zu viel Wert auf signifikant Neues legt, und der Publikationsdruck (“publish or perish”) entspricht der Annahme, dass die reine Quantität an Publikationen per se ein gutes Zeichen für den wissenschaftlichen Erkenntnisgewinn sei und deswegen erstrebenswert, unabhängig davon, dass ein beachtlicher Teil dieser Publikationen keinerlei Bedeutung erlangt (Dahlia, 2014).

Es gibt gewissermaßen ein Primat des Neuen und damit einhergehend ein Anerkennungssystem, dass es belohnt, wenn das Neue in möglichst vielen Publikationen „vermarktet“ wird. Die Überprüfung und Sicherstellung der Überprüfbarkeit von wissenschaftlichen Ergebnissen sind dagegen wenig ruhmreiche und noch dazu aufwendige Unterfangen (Park, 2004) in der wissenschaftlichen Reputationsökonomie, in der die Produktion und der Austausch von Wissen an die Reputationserwägungen der Marktteilnehmer (hier Wissenschaftler) gekoppelt sind (Fecher, Friesike, Hebing, Linek & Sauermann, 2015). Dieser Zusammenhang zwischen Wissenschaftlerverhalten und Reputationserwägungen wird schon lange in den Economics of Science und von Wissenschaftssoziologen behandelt. Auch die zuvor erwähnte Studie von Müller-Langer und Koautoren über Replikationen in den Wirtschaftswissenschaften zeigte, dass Wissenschaftler auch bei Replikationsvorhaben vor allem darauf abzielen, einen möglichst hohen Impact zu erzielen (Mueller-Langer u. a., 2017). Sukhtankar stellt eben dieses Verhalten für das Feld der Entwicklungsökonomie fest (Sukhtankar, 2017). Die Akkumulation von geprüftem kleinschrittigen Wissensfortschritt, wie ihn Popper beschreibt, wird so behindert.

Eine augenscheinliche und disziplinübergreifende Ursache für die Krise der wissenschaftlichen Qualitätssicherung ist, dass zu wenige Replikationsstudien durchgeführt werden. Eine Erklärung hierfür ist, dass der individuelle Nutzen für den Wissenschaftler nicht mit dem sozialen Nutzen übereinstimmt (Scheliga & Friesike, 2014). Anstatt Ergebnisse leicht überprüfbar zu machen, etwa durch ausführliche Datendokumentation und -veröffentlichung, und Replikationsstudien durchzuführen, werden eher schlecht dokumentierte neue – und in beachtlichem Ausmaß auch fehlerhafte – Ergebnisse produziert. Selbst schlechte Publikationen zahlen, sofern halbwegs der Impact der Zeitschrift stimmt, in der sie publiziert werden, stärker auf das individuelle Renommee eines Forschers und damit auch auf das berufliche Fortkommen ein als für den kumulativen Wissensfortschritt dringend notwendige Replikationsarbeiten (Ioannidis, 2012).

Mittel gegen die Krise

Damit mehr Replikationen durchgeführt werden, müssen Maßnahmen zur Steigerung im Kontext der wissenschaftlichen Wertschöpfung und damit vor dem Hintergrund ihrer Reputationsmechanismen gedacht werden. Das heißt, dass der „Reputationsnutzen“ von Replikationsstudien für den Replizierenden und den Replizierten erhöht werden und die mit Replikationen verbundenen Transaktionskosten niedriger gehalten werden müssen.

Ein Reputationsnutzen entsteht nur, wenn es für einen wissenschaftlichen Output eine formale Form der Anerkennung gibt, die dazu beiträgt, dass ein Wissenschaftler eine bessere Position im Feld erlangt. Für Replikationsstudien könnte dies etwa eine zitierbare Publikation in einer Fachzeitschrift sein. Bislang publizieren Fachzeitschriften allerdings äußerst selten Replikationsstudien, obwohl in Zeiten von Online-Publikationen das frühere Platz- und Nachrichtenwertargument hinfällig ist. Außerdem könnten Forschungsförderer explizit Replikationsstudien fordern und fördern, so dass durch einen erfolgreichen Drittmittelantrag Reputation geschaffen wird (Nature, 2016). Fachgemeinschaften könnten mit Replikationstracks auf Fachtagungen Bewusstsein für das Problem schaffen und selbst – wie bei den Psychologen geschehen (Open Science Collaboration, 2015) – Replikationen initiieren.

Neben besseren Anreizen, Replikationsstudien durchzuführen, müssten Forscher dazu gebracht werden, ihre Ergebnisse überprüfbar zu machen, indem sie neben einer Veröffentlichung der Daten etwa die Datenerhebung dokumentieren und diese zusammen mit Analyseskripten veröffentlichten (Acord & Harley, 2012; Fecher, Friesike & Hebing, 2015). Letztlich ist es Aufgabe der Institutionen, durch geeignete Veröffentlichungsstrategien für entsprechende Anreize zu sorgen. Beispielsweise dadurch, dass eine Veröffentlichung von Forschungsdaten explizit gewürdigt wird bei Berufungsverfahren oder bei Entfristungsentscheidungen. So gesehen muss der Bewertungshorizont dringend erweitert werden, um einen Kulturwandel herbeizuführen, der den Herausforderungen einer Wissenschaft im 21. Jahrhundert gerecht wird.

Damit mehr Wissenschaftler Replikationsstudien durchführen, müssten die Transaktionskosten gesenkt werden. Dies ist in erster Linie eine Aufgabe von Forschungsinfrastrukturen, die Forschungsdaten bereitstellen. Die Infrastruktureinrichtungen, z. B. Datenarchive, müssen sicherstellen, dass Daten und Ergebnisse ausreichend dokumentiert vorliegen und Methoden und Analyseskripte archiviert sind. Auch die Gesetzgeber können Transaktionskosten senken, etwa dergestalt, dass die bestehenden international unterschiedlichen Datenschutz- und Urheberrechtsregime vereinheitlicht werden, wie zum Beispiel mit den auf der EU-Ebene angedachten Harmonisierungsbestrebungen. Ein weiterer Aspekt der Transaktionskosten besteht für Forschende in der Unsicherheit darüber, ob und zu welchen Konditionen sie Datensätze verfügbar machen können. Zum einen bedarf es detaillierter Informationsangebote für Forschende, um ihnen die Bedingungen, unter denen ihre Daten veröffentlicht werden können, deutlich zu machen. Schließlich dürfen die Rechte Dritter, insbesondere der Datenschutz, auch durch Replikationen nicht verletzt werden. Zum zweiten ist es Aufgabe von Datenrepositorien, mit standardisierten Lizenzmodellen (bspw. Creative Commons) zu arbeiten, um Unsicherheiten bezüglich der Rechte der Nachnutzer auszuschließen.

Ein weiterer Aspekt aus dem Bereich der Infrastrukturleistung ist die Frage nach der Verfügbarkeit der Replikationsergebnisse (Markttransparenz). Woher weiß die Scientific Community, ob es für ein empirisches Paper bereits eine Replikation gegeben hat? Möglicherweise gibt es auch heute schon viel mehr Replikationen, nur werden die Ergebnisse nicht wahrgenommen? Die Initiative „Replication in Economics“ der Universität Göttingen stößt in diese Lücke.1 Die Initiative gibt Replikationsstudien ein Forum, so dass sie leicht gefunden werden können. Dies könnte über Repositorien geschehen, in denen neben der Originalpublikation und den Daten auch die Replikationsstudien präsentiert werden. Es könnte auch über explizit für Replikationen ausgerichtete Journals geschehen, (wie z. B. im Bereich der empirischen Wirtschaftsforschung durch das in Gründung befindliche „International Journal for Re-Views In Empirical Economics“ der Zentralbibliothek der Wirtschaftswissenschaften (ZBW).2 Derartige Journals könnten zu einer kulturellen Verankerung der Replikationspraxis in allen empirisch forschenden Disziplinen beitragen.

Neben Replikations-Richtlinien von wissenschaftlichen Fachgemeinschaften und Replikationszeitschriften könnte im Besonderen die Integration von Replikationsstudien in der Lehre eine Möglichkeit sein, der Krise der Replizierbarkeit entgegenzuwirken und die Überprüfung und Überprüfbarkeit wissenschaftlicher Studien zu erhöhen (Fecher, Fräßdorf & Wagner, 2016). Und warum sollten bei kumulativen Dissertationen nicht auch Replikationsstudien, auch wenn sie schlicht Befunde bestätigen, als eine relevante Veröffentlichung zählen?

Literatur

Footnotes

About the article

Published Online: 2017-05-06

Published in Print: 2017-05-04


Citation Information: Information - Wissenschaft & Praxis, Volume 68, Issue 2-3, Pages 154–158, ISSN (Online) 1619-4292, ISSN (Print) 1434-4653, DOI: https://doi.org/10.1515/iwp-2017-0025.

Export Citation

© 2017 Walter de Gruyter GmbH, Berlin/Boston.Get Permission

Comments (0)

Please log in or register to comment.
Log in