Benedikt Fecher, Mathis Fräßdorf, Marcel Hebing and Gert G. Wagner

Replikationen, Reputation und gute wissenschaftliche Praxis

De Gruyter | 2017

Zusammenfassung

In Zeiten wachsender Publikationszahlen und zunehmend datenintensiver Forschung stoßen die klassischen Qualitätssicherungsmaßnahmen, wie die Peer-Review, an ihre Grenzen. Vor diesem Hintergrund werden Replikationsstudien verstärkt als gute wissenschaftliche Praxis und Lösungsansatz diskutiert, um dem Problem methodisch unzureichender und oftmals fehlerbehafteter Analysen zu begegnen. Denn schlechte Analysen untergraben nicht zuletzt das Vertrauen der Öffentlichkeit in die Wissenschaft. Dennoch werden in allen Disziplinen bisher nur wenige Replikationsstudien durchgeführt. In diesem Aufsatz zeigen wir die zentralen Probleme bei der Replizierbarkeit wissenschaftlicher Ergebnisse auf und schlagen Maßnahmen vor, die auf den impliziten Reputationsmechanismen der akademischen Wissenschaft beruhen

Krise der wissenschaftlichen Qualitätssicherung

Es ist eine einfache wissenschaftsethische Wahrheit, dass Ergebnisse immer hinterfragt werden sollen. Nichts anderes meint Karl Poppers „kritischer Rationalismus“ oder Robert K. Mertons „organisierte Skepsis“ (Merton, 1973; Popper, 2002). Beide beschreiben die prinzipielle Überprüfbarkeit (Falsifizierbarkeit) und die tatsächliche Überprüfung von wissenschaftlichen Ergebnissen (Replikationsstudien) als elementare Prinzipien einer autonomen und zugleich der Gesellschaft verpflichteten Wissenschaft. Dieses Selbstverständnis erklärt sich daraus, dass wissenschaftliche Ergebnisse wirtschaftliche und politische Entscheidungen informieren und den öffentlichen Diskurs beeinflussen können (Burman, Reed & Alm, 2010).

Poppers und Mertons Prinzipien der guten wissenschaftlichen Praxis scheinen aktueller denn je, betrachtet man die breit international stattfindenden Diskussionen um die Replizierbarkeit wissenschaftlicher Ergebnisse (Benedictus, Miedema & Ferguson, 2016; Loeb, 2016; McNutt, 2014; Munafò u. a., 2017). Den Anlass dafür gibt eine Vielzahl von Studien aus den letzten Jahren, die zeigen, dass nur ein Bruchteil der veröffentlichten Ergebnisse in empirisch-wissenschaftlichen Disziplinen tatsächlich replizierbar ist.

Die vermutlich aufsehenerregendste dieser Studien stammt aus dem Bereich der Psychologie. In einem großangelegten Replikationsversuch konnte das Autorenkollektiv “Open Science Collaboration” um Brian Nosek gerade einmal neununddreißig von hundert Ergebnissen erfolgreich replizieren (Open Science Collaboration, 2015). Auch andere Forscher berichten von Problemen mit der Replizierbarkeit in ihren Feldern: Für die Wirtschaftswissenschaften stellen Camerer et al. (Camerer u. a., 2016) mit einem ähnlichen Aufbau wie die Open Science Collaboration fest, dass vierzig Prozent aller experimentell erzielten Ergebnisse nicht replizierbar sind (siehe auch Bohannon, 2015; Bohannon, 2016). Besonders erschreckend: Ein Versuch, dreiundfünfzig “landmark studies” aus dem Bereich der Krebsforschung zu replizieren, war bei gerade einmal sechs Studien (11 %) erfolgreich (Begley & Ellis, 2012).

Auch wenn die Definition einer erfolgreichen Replikation sich von Studie zu Studie und Wissenschaftlerin zu Wissenschaftler unterscheiden mag, ist es unstrittig, dass in sämtlichen empirischen Disziplinen Vorbehalte gegenüber publizierten Ergebnissen berechtigt sind. Selbst die Zeitschrift The Economist, die sich sonst nur am Rande mit wissenschaftlichen Themen beschäftigt, thematisierte 2013 diese Krise in einer Coverstory mit dem vielsagenden Titel “How Science Goes Wrong” (The Economist, 2013). In einem Internet-Survey der Zeitschrift Nature aus dem Jahr 2016 sagte über die Hälfte (52 %) der antwortenden 1567 Wissenschaftler und Wissenschaftlerinnen, dass sich die Wissenschaft in einer signifikanten Replikationskrise befindet. Siebzig Prozent der Befragten gaben weiterhin an, dass sie selbst bereits bei dem Versuch, ein veröffentlichtes Ergebnis zu replizieren, gescheitert seien (Baker, 2016).

Gründe für die Krise

Es lassen sich viele Gründe für die Krise in der wissenschaftlichen Qualitätssicherung ausmachen. Häufig ist die statistische Aussagekraft einer Stichprobe zu gering (aber die Peer-Review lässt die Studie trotzdem passieren), die verwendeten Methoden wurden nicht ausreichend dokumentiert oder es fehlen die zugrundeliegenden Analyseskripte (Baker, 2016). Doch gab es in den letzten Jahren auch vermehrt Fälle des Datenmissbrauchs und schlichtweg Betrug. Hwangs gefälschte Berichte über Durchbrüche in der Stammzellenforschung (Cyranoski, 2006) oder Schöns fingierte Ergebnisse bei organischen Transistoren in über vierzig Publikationen (Grant, 2002) sind nur die skandalösesten Beispiele einer fragwürdigen wissenschaftlichen Ethik. Weitaus verbreiteter – und nicht unüblich (Ioannidis, 2005) – sind selektives Berichten und sogenanntes “p-Hacking”, also auf Basis von nicht vorab formulierten und dokumentierten Nullhypothesen die Suche nach statistisch signifikanten Ergebnissen bei gleichzeitigem Verschweigen von nicht-signifikanten Ergebnissen.

Das Hauptproblem der Krise der wissenschaftlichen Qualitätssicherung scheint allerdings systemimmanent zu sein. Es sind schließlich publizierte und damit bereits begutachtete Ergebnisse, die in wesentlichen Teilen nicht überprüfbar oder fehlerhaft sind. Die Replikationskrise zeigt folglich, dass die etablierten Mechanismen der wissenschaftlichen Qualitätssicherung, insbesondere das “Peer-Review”, allein nicht in der Lage ist, die Stimmigkeit wissenschaftlicher Ergebnisse sicherzustellen (Ioannidis, 2012); wahrscheinlich, weil die Anreize für die Gutachter nicht hoch genug sind, Analysen im Detail nachzuvollziehen oder sogar nachzurechnen.

Es liegt nahe, dass neben dem Peer-Review zusätzliche Kontrollinstanzen geschaffen oder gestärkt werden müssen. Replikationsstudien wären eine naheliegende Kontrollinstanz, aber es werden bisher nur wenige durchgeführt beziehungsweise veröffentlicht. Eine bibliometrische Studie über Replikationen in den Wirtschaftswissenschaften, an der zwei der hier beteiligten Autoren beteiligt waren, zeigte, dass gerade einmal 0,1 Prozent aller wissenschaftlichen Artikel aus den Top-50 der wirtschaftswissenschaftlichen Zeitschriften Replikationsstudien im engeren Sinne sind (Mueller-Langer, Fecher, Harhoff & Wagner, 2017). Und es ist nicht davon auszugehen, dass die Anzahl der Replikationsstudien in Zeitschriften mit geringerem Impact höher ist. In anderen Worten: Die Wahrscheinlichkeit, durch eine Replikationsstudie falsifiziert zu werden, ist für Wissenschaftler de facto so gering, dass dieser Aspekt keine Anreize setzt, besonders sorgfältig zu arbeiten.

Replikation und Reputation

In dem zuvor zitierten Nature-Survey von Wissenschaftlern wurde auch nach den Gründen für die mangelnde Replizierbarkeit gefragt. Die meistgenannten Gründe – bei einer Auswahl von vierzehn Bewertungs-Items – waren „selective reporting“ und Publikationsdruck (Baker, 2016). Interessanterweise sprechen beide für eine fehlgeleitete Wissenschaftskultur. Das selektive Berichten von Ergebnissen bekundet eine Reputationskultur, die zu viel Wert auf signifikant Neues legt, und der Publikationsdruck (“publish or perish”) entspricht der Annahme, dass die reine Quantität an Publikationen per se ein gutes Zeichen für den wissenschaftlichen Erkenntnisgewinn sei und deswegen erstrebenswert, unabhängig davon, dass ein beachtlicher Teil dieser Publikationen keinerlei Bedeutung erlangt (Dahlia, 2014).

Es gibt gewissermaßen ein Primat des Neuen und damit einhergehend ein Anerkennungssystem, dass es belohnt, wenn das Neue in möglichst vielen Publikationen „vermarktet“ wird. Die Überprüfung und Sicherstellung der Überprüfbarkeit von wissenschaftlichen Ergebnissen sind dagegen wenig ruhmreiche und noch dazu aufwendige Unterfangen (Park, 2004) in der wissenschaftlichen Reputationsökonomie, in der die Produktion und der Austausch von Wissen an die Reputationserwägungen der Marktteilnehmer (hier Wissenschaftler) gekoppelt sind (Fecher, Friesike, Hebing, Linek & Sauermann, 2015). Dieser Zusammenhang zwischen Wissenschaftlerverhalten und Reputationserwägungen wird schon lange in den Economics of Science und von Wissenschaftssoziologen behandelt. Auch die zuvor erwähnte Studie von Müller-Langer und Koautoren über Replikationen in den Wirtschaftswissenschaften zeigte, dass Wissenschaftler auch bei Replikationsvorhaben vor allem darauf abzielen, einen möglichst hohen Impact zu erzielen (Mueller-Langer u. a., 2017). Sukhtankar stellt eben dieses Verhalten für das Feld der Entwicklungsökonomie fest (Sukhtankar, 2017). Die Akkumulation von geprüftem kleinschrittigen Wissensfortschritt, wie ihn Popper beschreibt, wird so behindert.

Eine augenscheinliche und disziplinübergreifende Ursache für die Krise der wissenschaftlichen Qualitätssicherung ist, dass zu wenige Replikationsstudien durchgeführt werden. Eine Erklärung hierfür ist, dass der individuelle Nutzen für den Wissenschaftler nicht mit dem sozialen Nutzen übereinstimmt (Scheliga & Friesike, 2014). Anstatt Ergebnisse leicht überprüfbar zu machen, etwa durch ausführliche Datendokumentation und -veröffentlichung, und Replikationsstudien durchzuführen, werden eher schlecht dokumentierte neue – und in beachtlichem Ausmaß auch fehlerhafte – Ergebnisse produziert. Selbst schlechte Publikationen zahlen, sofern halbwegs der Impact der Zeitschrift stimmt, in der sie publiziert werden, stärker auf das individuelle Renommee eines Forschers und damit auch auf das berufliche Fortkommen ein als für den kumulativen Wissensfortschritt dringend notwendige Replikationsarbeiten (Ioannidis, 2012).

Mittel gegen die Krise

Damit mehr Replikationen durchgeführt werden, müssen Maßnahmen zur Steigerung im Kontext der wissenschaftlichen Wertschöpfung und damit vor dem Hintergrund ihrer Reputationsmechanismen gedacht werden. Das heißt, dass der „Reputationsnutzen“ von Replikationsstudien für den Replizierenden und den Replizierten erhöht werden und die mit Replikationen verbundenen Transaktionskosten niedriger gehalten werden müssen.

Ein Reputationsnutzen entsteht nur, wenn es für einen wissenschaftlichen Output eine formale Form der Anerkennung gibt, die dazu beiträgt, dass ein Wissenschaftler eine bessere Position im Feld erlangt. Für Replikationsstudien könnte dies etwa eine zitierbare Publikation in einer Fachzeitschrift sein. Bislang publizieren Fachzeitschriften allerdings äußerst selten Replikationsstudien, obwohl in Zeiten von Online-Publikationen das frühere Platz- und Nachrichtenwertargument hinfällig ist. Außerdem könnten Forschungsförderer explizit Replikationsstudien fordern und fördern, so dass durch einen erfolgreichen Drittmittelantrag Reputation geschaffen wird (Nature, 2016). Fachgemeinschaften könnten mit Replikationstracks auf Fachtagungen Bewusstsein für das Problem schaffen und selbst – wie bei den Psychologen geschehen (Open Science Collaboration, 2015) – Replikationen initiieren.

Neben besseren Anreizen, Replikationsstudien durchzuführen, müssten Forscher dazu gebracht werden, ihre Ergebnisse überprüfbar zu machen, indem sie neben einer Veröffentlichung der Daten etwa die Datenerhebung dokumentieren und diese zusammen mit Analyseskripten veröffentlichten (Acord & Harley, 2012; Fecher, Friesike & Hebing, 2015). Letztlich ist es Aufgabe der Institutionen, durch geeignete Veröffentlichungsstrategien für entsprechende Anreize zu sorgen. Beispielsweise dadurch, dass eine Veröffentlichung von Forschungsdaten explizit gewürdigt wird bei Berufungsverfahren oder bei Entfristungsentscheidungen. So gesehen muss der Bewertungshorizont dringend erweitert werden, um einen Kulturwandel herbeizuführen, der den Herausforderungen einer Wissenschaft im 21. Jahrhundert gerecht wird.

Damit mehr Wissenschaftler Replikationsstudien durchführen, müssten die Transaktionskosten gesenkt werden. Dies ist in erster Linie eine Aufgabe von Forschungsinfrastrukturen, die Forschungsdaten bereitstellen. Die Infrastruktureinrichtungen, z. B. Datenarchive, müssen sicherstellen, dass Daten und Ergebnisse ausreichend dokumentiert vorliegen und Methoden und Analyseskripte archiviert sind. Auch die Gesetzgeber können Transaktionskosten senken, etwa dergestalt, dass die bestehenden international unterschiedlichen Datenschutz- und Urheberrechtsregime vereinheitlicht werden, wie zum Beispiel mit den auf der EU-Ebene angedachten Harmonisierungsbestrebungen. Ein weiterer Aspekt der Transaktionskosten besteht für Forschende in der Unsicherheit darüber, ob und zu welchen Konditionen sie Datensätze verfügbar machen können. Zum einen bedarf es detaillierter Informationsangebote für Forschende, um ihnen die Bedingungen, unter denen ihre Daten veröffentlicht werden können, deutlich zu machen. Schließlich dürfen die Rechte Dritter, insbesondere der Datenschutz, auch durch Replikationen nicht verletzt werden. Zum zweiten ist es Aufgabe von Datenrepositorien, mit standardisierten Lizenzmodellen (bspw. Creative Commons) zu arbeiten, um Unsicherheiten bezüglich der Rechte der Nachnutzer auszuschließen.

Ein weiterer Aspekt aus dem Bereich der Infrastrukturleistung ist die Frage nach der Verfügbarkeit der Replikationsergebnisse (Markttransparenz). Woher weiß die Scientific Community, ob es für ein empirisches Paper bereits eine Replikation gegeben hat? Möglicherweise gibt es auch heute schon viel mehr Replikationen, nur werden die Ergebnisse nicht wahrgenommen? Die Initiative „Replication in Economics“ der Universität Göttingen stößt in diese Lücke.[1] Die Initiative gibt Replikationsstudien ein Forum, so dass sie leicht gefunden werden können. Dies könnte über Repositorien geschehen, in denen neben der Originalpublikation und den Daten auch die Replikationsstudien präsentiert werden. Es könnte auch über explizit für Replikationen ausgerichtete Journals geschehen, (wie z. B. im Bereich der empirischen Wirtschaftsforschung durch das in Gründung befindliche „International Journal for Re-Views In Empirical Economics“ der Zentralbibliothek der Wirtschaftswissenschaften (ZBW).[2] Derartige Journals könnten zu einer kulturellen Verankerung der Replikationspraxis in allen empirisch forschenden Disziplinen beitragen.

Neben Replikations-Richtlinien von wissenschaftlichen Fachgemeinschaften und Replikationszeitschriften könnte im Besonderen die Integration von Replikationsstudien in der Lehre eine Möglichkeit sein, der Krise der Replizierbarkeit entgegenzuwirken und die Überprüfung und Überprüfbarkeit wissenschaftlicher Studien zu erhöhen (Fecher, Fräßdorf & Wagner, 2016). Und warum sollten bei kumulativen Dissertationen nicht auch Replikationsstudien, auch wenn sie schlicht Befunde bestätigen, als eine relevante Veröffentlichung zählen?

Literatur

Acord, S. K. & Harley, D. (2012). Credit, time, and personality: The human challenges to sharing scholarly work using Web 2.0. New Media & Society, 15(3), 379–397. https://doi.org/10.1177/1461444812465140. Search in Google Scholar

Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533(7604), 452–454. https://doi.org/10.1038/533452a. Search in Google Scholar

Begley, C. G. & Ellis, L. M. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483(7391), 531–533. https://doi.org/10.1038/483531a. Search in Google Scholar

Benedictus, R., Miedema, F. & Ferguson, M. W. J. (2016). Fewer numbers, better science. Nature, 538(7626), 453–455. https://doi.org/10.1038/538453a. Search in Google Scholar

Bohannon, J. (2015). Many psychology papers fail replication test. Science, 349(6251), 910–911. https://doi.org/10.1126/science.349.6251.910. Search in Google Scholar

Bohannon, J. (2016). About 40 % of economics experiments fail replication survey. Science. https://doi.org/10.1126/science.aaf4141. Search in Google Scholar

Burman, L. E., Reed, W. R. & Alm, J. (2010). A Call for Replication Studies. Public Finance Review, 38(6), 787–793. https://doi.org/10.1177/1091142110385210. Search in Google Scholar

Camerer, C. F., Dreber, A., Forsell, E., Ho, T.-H., Huber, J., Johannesson, M., Wu, H. (2016). Evaluating replicability of laboratory experiments in economics. Science. https://doi.org/10.1126/science.aaf0918. Search in Google Scholar

Cyranoski, D. (2006). Rise and fall. news@nature. https://doi.org/10.1038/news060109-8 Search in Google Scholar

Dahlia, R. (2014, April 23). Are 90 % of academic papers really never cited? Reviewing the literature on academic citations. http://blogs.lse.ac.uk/impactofsocialsciences/2014/04/23/academic-papers-citation-rates-remler/. Search in Google Scholar

Fecher, B., Fräßdorf, M. & Wagner, G. G. (2016). Perceptions and Practices of Replication by Social and Behavioral Scientists: Making Replication a Mandatory Element of Curricula Would be Useful. DIW Discussion Papers. Search in Google Scholar

Fecher, B., Friesike, S. & Hebing, M. (2015). What Drives Academic Data Sharing? PLOS ONE, 10(2), e0118053. https://doi.org/10.1371/journal.pone.0118053. Search in Google Scholar

Fecher, B., Friesike, S., Hebing, M., Linek, S. & Sauermann, A. (2015). A Reputation Economy: Results from an Empirical Survey on Academic Data Sharing. DIW Berlin Discussion Paper, 1454. http://dx.doi.org/10.2139/ssrn.2568693. Search in Google Scholar

Grant, P. M. (2002). Scientific credit and credibility. Nature Materials, 1(3), 139–141. https://doi.org/10.1038/nmat756. Search in Google Scholar

Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLoS Medicine, 2(8), e124. https://doi.org/10.1371/journal.pmed.0020124. Search in Google Scholar

Ioannidis, J. P. A. (2012). Why Science Is Not Necessarily Self-Correcting. Perspectives on Psychological Science, 7(6), 45–654. https://doi.org/10.1177/1745691612464056. Search in Google Scholar

Larsen, P. O. & von Ins, M. (2010). The rate of growth in scientific publication and the decline in coverage provided by Science Citation Index. Scientometrics, 84(3), 575–603. https://doi.org/10.1007/s11192-010-0202-z. Search in Google Scholar

Loeb, A. (2016). Good data are not enough. Nature, 539(7627), 23–25. https://doi.org/10.1038/539023a. Search in Google Scholar

McNutt, M. (2014). Reproducibility. Science, 343(6168), 229–229. https://doi.org/10.1126/science.1250475. Search in Google Scholar

Merton, R. K. (1973). The sociology of science: theoretical and empirical investigations. Chicago: University of Chicago Press. Search in Google Scholar

Mueller-Langer, F., Fecher, B., Harhoff, D. & Wagner, G. G. (2017). The Economics of Replication. Max Planck Institute for Innovation & Competition Research Paper, (17-3). https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2908716. Search in Google Scholar

Munafò, M. R., Nosek, B. A., Bishop, D. V. M., Button, K. S., Chambers, C. D., Percie du Sert, N., ... Ioannidis, J. P. A. (2017). A manifesto for reproducible science. Nature Human Behaviour, 1(1), 21. https://doi.org/10.1038/s41562-016-0021. Search in Google Scholar

Nature. (2016). Go forth and replicate! Nature, 536(7617), 373–373. https://doi.org/10.1038/536373a. Search in Google Scholar

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716-aac4716. https://doi.org/10.1126/science.aac4716 Search in Google Scholar

Park, C. L. (2004). What is the value of replicating other studies? Research Evaluation, 13(3), 189–195. https://doi.org/10.3152/147154404781776400. Search in Google Scholar

Popper, K. R. (2002). Logik der Forschung. Wien, Österreich: Julius Springer. Search in Google Scholar

Scheliga, K. & Friesike, S. (2014). Putting open science into practice: A social dilemma? First Monday, 19(9). https://doi.org/10.5210/fm.v19i9.5381. Search in Google Scholar

Sukhtankar, S. (2017, Januar). Replications in Development. Gehalten auf der American Economic Association Annual Meeting, Chicago. https://www.aeaweb.org/conference/2017/preliminary/2100?sessionType%5Bsession%5D=1&organization_name=&search_terms=replication&day=&time=[3.2.2017]. Search in Google Scholar

The Economist. (2013). Problems with scientific research: How Science Goes Wrong. http://www.economist.com/news/leaders/21588069-scientific-research-has-changed-world-now-it-needs-change-itself-how-science-goes-wrong [3.2.2017]. Search in Google Scholar