Skip to content
BY 4.0 license Open Access Published by De Gruyter Oldenbourg February 18, 2023

Gütekriterien in der Soziologie

Eine analytisch-empirische Perspektive

Quality Criteria in Sociology
An Analytical-empirical Perspective
  • Gunnar Otte

    Gunnar Otte, geb. 1971 in Celle. Studium der Sozialwissenschaften mit Schwerpunkt Soziologie an den Universitäten Hannover, Mannheim und Bloomington, Indiana (USA). Promotion in Mannheim, Habilitation an der FU Berlin. Von 1998–2003 wissenschaftlicher Mitarbeiter an der Universität Mannheim; von 2003–2008 wissenschaftlicher Mitarbeiter an der Universität Leipzig; von 2008–2011 wissenschaftlicher Assistent an der Universität Zürich; von 2011–2014 Professor für Methoden der empirischen Sozialforschung an der Philipps-Universität Marburg; seit 2014 Professor für Sozialstrukturanalyse an der Johannes Gutenberg-Universität Mainz.

    Forschungsschwerpunkte: Soziale Ungleichheit, Kultursoziologie, Kunstsoziologie, Methoden der empirischen Sozialforschung, erklärende Soziologie.

    Wichtigste Publikationen: Sozialstrukturanalysen mit Lebensstilen. Eine Studie zur theoretischen und methodischen Neuorientierung der Lebensstilforschung, Wiesbaden, 2004. Programmatik und Bestandsaufnahme einer empirisch-analytischen Kunstsoziologie. Sociologia Internationalis 50: 115–143 (2012). Was ist Kultur und wie sollen wir sie untersuchen? Entwurf einer sozialwissenschaftlichen Sozialstruktur- und Kulturanalyse. In: Julia Böcker et al. (Hrsg.): Zum Verhältnis von Empirie und kultursoziologischer Theoriebildung. Stand und Perspektiven. Weinheim: 74–104 (2018). Zuletzt in dieser Zeitschrift: Ein Blick in die Black Box des Review-Verfahrens. ZfS 48: 1–5 (2019).

    ORCID logo EMAIL logo
    , Tim Sawert

    Tim Sawert, geb. 1986 in Kaiserslautern. Studium der Soziologie an den Universitäten Mannheim, Utrecht (Niederlande) und der Freien Universität Berlin. Promotion an der Universität Potsdam. Von 2013–2017 wissenschaftlicher Mitarbeiter an der Universität Potsdam; von 2017–2021 wissenschaftlicher Mitarbeiter an der Freien Universität Berlin; seit 2021 wissenschaftlicher Mitarbeiter an der Johannes Gutenberg-Universität Mainz.

    Forschungsschwerpunkte: Soziale Ungleichheit, Kultursoziologie, Migration und Integration, Methoden der empirischen Sozialforschung.

    Wichtigste Publikationen: Latente Mechanismen sozialer Hierarchisierung. Die Wahl alter Sprachen als Reproduktionsmechanismus des Bildungsbürgertums, Wiesbaden (2018). Understanding the Mechanisms of Ethnic Discrimination: A Field Experiment on Discrimination against Turks, Syrians and Americans in the Berlin Shared Housing Market. Journal of Ethnic and Migration Studies 46: 3937–3954 (2020). Control Variable Selection in Applied Quantitative Sociology: A Critical Review. European Sociological Review [im Veröffentlichungsprozess] (2023, mit Ulrich Kohler & Fabian Class). Zuletzt in dieser Zeitschrift: The Cultural Dimension of the Globalization Divide. Do Lifestyle Signals affect Cosmopolitans’ Willingness to Interact? ZfS 51: 263–277 (2022, mit Rasmus Ollroge).

    ORCID logo
    , Josef Brüderl

    Josef Brüderl, geb. 1960 in Fridolfing/Obb. Studium der Soziologie und Volkswirtschaftslehre in München. Promotion an der LMU München 1990. Von 1987–1997 wissenschaftlicher Mitarbeiter in München, Chicago und Bern. Habilitation an der Universität Bern 1997. Von 1998–2011 Professor für Statistik und sozialwissenschaftliche Methodenlehre an der Universität Mannheim. Seit 2011 Professor für Soziologie an der LMU München.

    Forschungsschwerpunkte: Paneldatenmethoden, Familienforschung, Meta-Science.

    Wichtigste Publikationen: Is there a Male Marital Wage Premium? American Sociological Review 83: 744–770 (2018, mit Volker Ludwig). Has the Credibility of the Social Sciences Been Credibly Destroyed? Socius 7:1–14 (2021, mit Katrin Auspurg). Zuletzt in dieser Zeitschrift: Der Effekt der Erwerbstätigkeit von Frauen auf die Fertilität, ZfS 37: 117–136 (2008, mit Jette Schröder).

    ORCID logo
    , Stefanie Kley

    Stefanie Kley, geb. 1971 in Mannheim. Studium der Sozialökonomie und Soziologie in Hamburg. Promotion und Habilitation in Bremen. Von 2003–2009 wissenschaftliche Mitarbeiterin an der Universität Bremen; von 2009–2011 wissenschaftliche Mitarbeiterin an der Universität Hamburg; von 2011–2015 Professurvertretung an der Universität Hamburg; 2015/16 wissenschaftliche Mitarbeiterin an der Universität Oldenburg; seit 2016 Professorin für Soziologie, insb. Ökologisierung und quantitative Methoden der Sozialforschung an der Universität Hamburg.

    Forschungsschwerpunkte: Räumliche Mobilität und Migration, Effekte der Wohnumgebung, soziale Differenzierung im Lebensverlauf und zwischen sozialen Klassen.

    Wichtigste Publikationen: Explaining the Stages of Migration within a Life-course Framework. European Sociological Review 27: 469–486 (2011). Facilitators and Constraints at each Stage of the Migration Process. Population Studies 71 (S1): 35–49 (2017). Intergenerational Transmission of Housing Choice: The Relevance of Green Spaces for Moving into a Family House across Social Class. Population, Space and Place: e2299 (2020, mit Anna Stenpaß). How a Lack of Green in the Residential Environment lowers the Life Satisfaction of City Dwellers and increases their Willingness to relocate. Sustainability 13: 3984 (2021, mit Tetiana Dovbishchuk). Zuletzt in dieser Zeitschrift: Gefährdet Pendelmobilität die Stabilität von Paarbeziehungen? Einflüsse von Erwerbskonstellationen und Haushaltsarrangements in Ost- und Westdeutschland auf die Trennungswahrscheinlichkeit von Paaren. ZfS 41: 356–374 (2012).

    , Clemens Kroneberg

    Clemens Kroneberg, geb. 1980 in Darmstadt. Studium der Sozialwissenschaften an den Universitäten Heidelberg und Mannheim. Promotion in Mannheim. Von 2004–2010 wissenschaftlicher Mitarbeiter und von 2011–2013 Juniorprofessor für Soziologische Theorie an der Universität Mannheim; seit 2013 Professor für Soziologie an der Universität zu Köln.

    Forschungsschwerpunkte: Soziale Grenzziehungen und Diversität, Kriminalität und Delinquenz, soziale Netzwerke, Handlungstheorie.

    Wichtigste Publikationen: Analytic Criminology: Mechanisms and Methods in the Explanation of Crime and its Causes. Annual Review of Criminology 5: 179–220 (2022, mit Per-Olof H. Wikström). More than a Sorting Machine: Ethnic Boundary Making in a Stratified School System. American Journal of Sociology 125: 431–484 (2019, mit Hanno Kruse). Struggling over the Boundaries of Belonging. A Formal Model of Nation Building, Ethnic Closure, and Populism. American Journal of Sociology 118: 176–230 (2012, mit Andreas Wimmer). Rational Choice Theory and Empirical Research. Methodological and Theoretical Contributions in Europe. Annual Review of Sociology 38: 73–92 (2012, mit Frank Kalter). Zuletzt in dieser Zeitschrift: Ethnic Discrimination in the German Housing Market. ZfS 47: 134–146 (2018, mit Andreas Horr und Christian Hunkler).

    and Ingo Rohlfing

    Ingo Rohlfing promovierte 2007 an der Jacobs University in Bremen in Political Science und hat seit Oktober 2022 den Lehrstuhl für Methoden der empirischen Sozialforschung an der Universität Passau inne. In seiner Forschung befasst er sich mit der Transparenz und Glaubwürdigkeit von Forschungsergebnissen in den Sozialwissenschaften und der Entwicklung qualitativer und quantitativer Methoden sowie von Mixed-Methods-Designs. Mehr Informationen: https://orcid.org/0000-0001-8715-4771

    ORCID logo

Zusammenfassung

Der Artikel entwickelt einen Katalog von elf wissenschaftlichen Gütekriterien für soziologische Forschungsarbeiten aus einer analytisch-empirischen Perspektive. Der Kriterienkatalog umfasst Qualitätsanforderungen an die Theorieentwicklung und die empirische Sozialforschung. Unterschieden werden zwei Basiskriterien, die den gesamten Forschungsprozess betreffen, neun Kernkriterien, die an einzelnen Etappen dieses Prozesses ansetzen, und eine Reihe von Unterkriterien, die der Spezifikation der Kernkriterien dienen. Die Entwicklung der Kriterien erfolgt entlang eines stilisierten Forschungsprozesses, wie er in der quantitativen Sozialforschung üblich ist. Gleichwohl wird der Versuch unternommen, die Kriterien so zu formulieren, dass diese für die qualitative Sozialforschung anschlussfähig sind. Der Beitrag hat zum Ziel, der soziologischen Forschungsgemeinschaft einen aus analytisch-empirischer Perspektive begründeten Referenzrahmen zur Verfügung zu stellen, der die Erarbeitung hochwertiger Forschung anleitet und die Beurteilung von Forschungsleistungen kriteriengeleitet unterstützt.

Abstract

From a perspective of analytical-empirical sociology, this contribution develops an inventory of eleven quality criteria for sociological science. This inventory encompasses standards for theory development as well as empirical social research. We distinguish two basic criteria, which pertain to the entire research process, nine core criteria, which refer to single stages of this process, and several sub-criteria, which specify the core criteria. The criteria are developed along a stylized research process which is common in quantitative social research. Nonetheless, the criteria are formulated in a way that makes them applicable to qualitative social research as well. Grounded in the analytical tradition of sociology, our paper seeks to provide the scientific community with a framework which may guide high-quality research and support the criteria-based review of research output.

1 Einleitung

Wissenschaftliche Forschung unterliegt regelmäßig Qualitätsurteilen, sei es bei der Lektüre, der Reanalyse, der Begutachtung oder der Anwendung publizierter Erkenntnisse. Typische Fragen lauten: Wie brauchbar ist eine Theorie, wie belastbar eine empirische Studie, wie originell eine Publikation? Qualitätsurteile speisen sich häufig aus dem impliziten Wissen darüber, was man persönlich für gute Forschung hält. Sie lassen sich aber auch anhand expliziter Gütekriterien fundieren. Gütekriterien sind grundlegende Maßstäbe, anhand derer sich Forschungsqualität in intersubjektiv teilbarer Weise beurteilen lässt (Gerring 2012a: 12–16; Strübing 2014: 79 f.; Döring & Bortz 2016: 82 f.). Sie sind meist graduell konzipiert: Forschungsqualität kann mehr oder weniger stark ausgeprägt sein und sie steigt typischerweise in dem Maß, wie wissenschaftlich anerkannte, in der Methodenliteratur begründete Verfahrensregeln angewendet werden (Döring & Bortz 2016: 92). Gütekriterien sind relativ zeitstabile Zielgrößen der Qualitätsbeurteilung, während Verfahrensregeln konkrete Handlungsanweisungen sind, die sich mit dem Stand der Methodenforschung ändern können. Wir widmen uns in erster Linie der Debatte um Gütekriterien und gehen auf Verfahrensregeln nur am Rande ein.

Die Beschäftigung mit diesem Thema adressiert drei Personenkreise (Steinke 1999: 11): Gütekriterien dienen Forschenden als Reflexionsmaßstäbe für ihre Forschungs- und Publikationstätigkeit, Gutachtenden als Bewertungsgrundlagen im Prozess der wissenschaftlichen Qualitätssicherung, etwa im Peer Review, und wissenschaftsexternen Akteuren als Marker von Wissenschaftlichkeit. Forschung, die sich nicht an Gütekriterien orientiert, läuft „Gefahr, beliebig und willkürlich zu werden“ (Steinke 1999: 51).

Wie stark bei der Beurteilung soziologischer Forschung auf Gütekriterien rekurriert wird und welche das sind, variiert nach Teilgebieten der Disziplin. Häufig wird konstatiert, dass sich im Feld der qualitativen Sozialforschung aufgrund ihrer methodologischen Heterogenität kein konsensfähiger Satz von Gütekriterien etabliert hat, sondern dass Qualität dort nach Regeln einzelner Forschungsansätze bemessen wird (Flick 2019: 473). Diese Debatte wurde jüngst von Strübing et al. (2018) mit dem Vorschlag von fünf ansatzübergreifenden Gütekriterien neu belebt (vgl. Eisewicht & Grenz 2018; Hirschauer et al. 2019; Jansen 2019). Vergleichbare Grundsatzdebatten gibt es in der quantitativen Sozialforschung kaum. Dort gelten im Besonderen die Validität und Reliabilität mit ihren Spezifikationen als etabliert (Diekmann 2011: 247–261; Döring & Bortz 2016: Kap. 3; Krebs & Menold 2019). Diskutiert werden eher Optimierungen von Verfahrensregeln, etwa zum Total Survey Error (Groves et al. 2009). Auch für soziologische Theorien lassen sich Gütekriterien formulieren. Auffällig ist aber, dass sie in Theorielehrbüchern meist völlig fehlen (z. B. Rosa et al. 2018) oder randständig bleiben (z. B. Joas & Knöbl 2004: 13–38). Behandelt werden sie eher in Beiträgen zur Methodologie der Sozialwissenschaften (z. B. Opp 2014).

Wie wir in Abschnitt 2 darlegen, veranlasst uns der aktuelle Stand dieser Debatten zur Entwicklung eines umfassenden Gütekriterienkataloges, der alle Schritte des Forschungsprozesses berücksichtigt, Qualitätsanforderungen für Theorien einbezieht, deskriptive wie kausale Zielsetzungen empirischer Forschung aufgreift, etablierte Kriterien der quantitativen Forschung auf den Prüfstand stellt und ihre Übertragbarkeit auf qualitative Studien reflektiert. Wie häufig betont wird, müssen Gütekriterien vor dem Hintergrund des zugrunde liegenden Wissenschaftsverständnisses entfaltet werden (King et al. 1994: Kap. 1; Steinke 1999: 12 f.; Döring & Bortz 2016: 84–93). Unser Wissenschaftsverständnis folgt der analytisch-empirischen Soziologie, einer weit verzweigten Strömung der Soziologie mit einem gemeinsamen Grundverständnis, das wir in Abschnitt 3 erläutern (vgl. Raub et al. 2022). Unsere Fragestellung lautet: Welche Gütekriterien sind aus analytisch-empirischer Perspektive für die Soziologie zentral? Wir greifen dabei bekannte Kriterien auf, formulieren aber auch Vorschläge, die sich in der Literatur selten finden, etwa zur Darstellung der Unsicherheit von Forschungsergebnissen. Konzipiert ist der Kriterienkatalog im präskriptiven Sinne, d. h. er gibt Empfehlungen, woran sich Forschung orientieren soll, um effektiv zum wissenschaftlichen Erkenntnisgewinn beizutragen. Wir behaupten nicht, dass analytisch-empirisch ausgerichtete Forschung immer so verfährt. Auch hegen wir nicht die Erwartung, dass alle Positionen der Soziologie sich in unserer Taxonomie wiederfinden werden. Gleichwohl denken wir, dass sie auch Forschende ansprechen kann, die sich nicht der analytisch-empirischen Soziologie zurechnen.

Die analytisch-empirische Soziologie arbeitet zumeist mit quantitativ-standardisierten Methoden. Auch qualitative Methoden und Daten lassen sich mit diesem Wissenschaftsverständnis produktiv nutzen. Dies gilt fraglos für die kausalanalytisch interessierte qualitativ-komparative Forschung (vgl. Ragin 1987, 2000; Goertz & Mahoney 2012; Bennett & Checkel 2014; Thomann & Maggetti 2018). Es gilt aber auch für Teile der qualitativ-interpretativen Forschung, deren Erträge etwa darin bestehen, soziale Felder zu analysieren, Prozesse zu rekonstruieren, soziale Mechanismen zu identifizieren oder Typenzugehörigkeiten zu erklären (vgl. Goldthorpe 2007: 81–90; Vaughan 2009; Varese 2022; Kelle & Kluge 2010: Kap. 5). Zwar werden in großen Teilen der qualitativ-interpretativen Soziologie eigenständige Kriterien gefordert (z. B. Steinke 1999: 204; Strübing et al. 2018: 84). Doch zeigen wir exemplarisch, dass viele Alternativvorschläge den von uns als relevant erachteten, meist der quantitativen Forschung entstammenden Gütekriterien ähneln. Übergreifende Gütekriterien scheinen also gerechtfertigt, wenn sie die Besonderheiten quantitativer und qualitativer Forschung berücksichtigen. Wir verstehen unseren Vorschlag daher auch als eine Einladung an Forschende unterschiedlicher methodologischer Grundorientierungen, über gemeinsame Gütekriterien zu diskutieren.

Als Hintergrund für unsere Argumentation beleuchten wir zunächst zentrale Debatten um Gütekriterien (Abschnitt 2) und benennen Prämissen der analytisch-empirischen Soziologie (Abschnitt 3). Ausgehend davon entwickeln wir zwei Basiskriterien von übergeordneter Relevanz, nämlich die intersubjektive Nachvollziehbarkeit und die Auseinandersetzung mit dem Stand der Forschung (Abschnitt 4). Diese Basiskriterien sind in allen Schritten des Forschungsprozesses zu beachten. Danach wenden wir uns den einzelnen Schritten dieses Prozesses zu und entwickeln neun Kernkriterien, die von der Wahl der Forschungsfrage über den Umgang mit Konzepten und Theorien, die Festlegung von Forschungsdesigns, die Datenerhebung und -analyse bis hin zur Publikation der Ergebnisse reichen (Abschnitte 5 bis 10). Unseren Kriterienkatalog bilanzieren wir in einer abschließenden Diskussion (Abschnitt 11).

2 Debatten um Gütekriterien

In diesem Beitrag beschäftigen wir uns mit Gütekriterien in der soziologischen Theorie und in der empirischen Sozialforschung, welche wir in drei Bereiche unterteilen. Als quantitativ bezeichnen wir Forschung, die soziale Phänomene in numerische Daten überführt und statistisch analysiert. Teils arbeiten solche Studien mit großen Fallzahlen (z. B. in Surveys), teils mit moderaten Stichprobenumfängen (z. B. in Experimenten). Viele quantitative Studien sind zwar kausalanalytisch interessiert und gehen hypothesenprüfend vor, manche verfolgen aber deskriptive oder strukturentdeckende Zielsetzungen. Während quantitative Sozialforschung die Untersuchung der Fälle a priori auf ein überschaubares Merkmalsspektrum beschränkt und diese Variablen standardisiert misst, erheben Ansätze der qualitativen Sozialforschung meist für eine kleine bis mittlere Fallzahl Daten in großer Detailfülle. Die Informationsreduktion findet erst im Zuge der Datenauswertung statt. Wir unterscheiden hier zwei Richtungen. Die qualitativ-interpretative Forschung erschließt ihre Gegenstände mit einer Grundhaltung theoretischer Offenheit, stellt Fälle in einem zirkulären Prozess meist erst nach und nach zusammen (theoretisches Sampling) und geht vornehmlich interpretativ vor, um zu einer empirisch begründeten Theorie zu gelangen. Oft geschieht dies über Textdaten (Interviews, Dokumente), doch kommen auch ethnografische Beobachtungen zum Einsatz. Die qualitativ-komparative Forschung arbeitet ebenfalls mit kleinen bis mittleren Fallzahlen, doch ist das Vorgehen durch kausale Erkenntnisinteressen geprägt: Fallvergleiche erfolgen oft hypothesengesteuert nach vorab festgelegten Untersuchungsdesigns und richten sich auf die Frage, welche kausalen Faktoren und Prozesse ein Ergebnis bedingen. Die Ausprägungen der Variablen werden häufig durch reichhaltiges Datenmaterial begründet. Typische Studien untersuchen Institutionen und andere makrosoziale Phänomene und bedienen sich oft einer Methodologie notwendiger und hinreichender Bedingungen, etwa in der Qualitative Comparative Analysis (QCA).

In der quantitativen Forschung gibt es gegenwärtig kaum Grundsatzdebatten über Gütekriterien. Qualitätsstandards hielten bereits in den Diskussionen um adäquate Bevölkerungsstichproben und Einstellungsmessungen in den 1930er Jahren Einzug und wurden maßgeblich in der psychologischen Testtheorie weiterentwickelt (Lord & Novick 1968). Insbesondere Gütekriterien der Messung (Reliabilität, Validität) werden seitdem als Lehrbuchwissen reproduziert (vgl. Diekmann 2011: 247–261; Schnell et al. 2011: 143–160). Auch die von Campbell und Stanley (1963) vorgeschlagene Unterscheidung der internen und externen Validität von Experimenten und anderen Forschungsdesigns ist geläufig. Zur Beurteilung der Ergebnisse statistischer Analysen werden oft die statistische Signifikanz und die praktische Relevanz angeführt (Krebs & Menold 2019: 502). Auffällig ist, dass die Validität ein äußerst prominentes Konzept ist, das in einigen Darstellungen in zahlreiche Unterkriterien ausdifferenziert wird, die fast alle Etappen des Forschungsprozesses und verschiedene Facetten der „methodischen Strenge“ einer Studie umfassen (vgl. Döring & Bortz 2016: 93–106).

In der qualitativ-interpretativen Sozialforschung lassen sich eine ältere und eine neuere Debatte unterscheiden. Seit den 1980er Jahren wird diskutiert, ob qualitative Studien mit den aus der quantitativen Forschung bekannten Maßstäben beurteilt werden können oder ob es der Prägung eigener Gütekriterien bedarf. Dabei gibt es den Versuch, die Kriterien der Reliabilität und Validität beizubehalten, aber an die Anforderungen qualitativer Forschung anzupassen (z. B. Kirk & Miller 1986). Eine zweite Position lehnt die Übernahme der quantitativen Terminologie ab, orientiert sich bei der Formulierung eigener Kriterien aber an quantitativen Äquivalenten (z. B. Lincoln & Guba 1985). Eine dritte Auffassung verzichtet auf die Suche nach Äquivalenten und versucht Gütekriterien aus dem Selbstverständnis qualitativer Forschung herzuleiten (z. B. Steinke 1999: 204; Tracy 2010: 838 f.). Doch auch in diesen Arbeiten finden sich Konzepte, die an quantitative Äquivalente anschlussfähig sind. So behandelt das von Steinke (1999) vorgeschlagene Kriterium der „Limitation“ die Übertragbarkeit empirischer Resultate auf andere Kontexte – einen Sachverhalt, den auch die externe Validität adressiert (Döring & Bortz 2016: 111–114). Der neuere Gütekriteriendiskurs ist von der quantitativen Forschung weitgehend abgelöst und richtet sich auf die Frage, ob im Feld qualitativer Methodologien übergreifende Qualitätskriterien formulierbar sind (z. B. Tracy 2010; Strübing et al. 2018) oder ob für einzelne Theorie-Methoden-Sets je eigene Maßstäbe gelten sollen (z. B. Creswell 1998: 193–218).

Auch in der qualitativ-komparativen Forschung zeigt sich das Spannungsverhältnis aus Anschlussfähigkeit und Eigenständigkeit. Stimuliert wurde die Debatte dort durch den Vorschlag von King et al. (1994: 3), deskriptive und kausale Inferenzen in qualitativen Studien nach derselben Logik zu beurteilen, die statistischen Schätzverfahren zugrunde liegt. Wenngleich das Buch kontrovers diskutiert wurde, findet die Ansicht, dass unterschiedliche Methodologien mit gemeinsamen Qualitätsstandards arbeiten können, breitere Zustimmung als im qualitativ-interpretativen Feld (vgl. Adcock & Collier 2001; Brady & Collier 2010; Gerring 2012a). Diese Stoßrichtung greifen wir in unserem Beitrag auf.

In Auseinandersetzung mit diesen Debatten und einschlägigen Taxonomien entwerfen wir einen Gütekriterienkatalog auf der Grundlage eines analytisch-empirischen Wissenschaftsverständnisses, das wir im nächsten Abschnitt umreißen. Wir formulieren zwei Basiskriterien, folgen aber jenseits davon der verbreiteten Auffassung, dass Gütekriterien einzelne Phasen des Forschungsprozesses betreffen (Döring & Bortz 2016: 82), und gliedern unsere Darstellung demgemäß. Anders als in bekannten Methodenlehrbüchern (z. B. Diekmann 2011; Schnell et al. 2011), in denen die Kriterien der Messung hervorgehoben und andere Kriterien eher knapp bedacht werden, entfalten wir einen umfassenden und ausgewogenen Kriterienkatalog. Wir begegnen damit der verbreiteten Fehlwahrnehmung, dass in der standardisierten Forschung nur für einen „sehr kleinen Ausschnitt des Forschungsprozesses“ Gütekriterien existieren (Strübing et al. 2018: 84). Generell möchten wir das Bewusstsein für Qualitätsstandards schärfen, die in der Forschungs- und Publikationspraxis nicht immer beachtet werden. Auch benennen wir Qualitätsanforderungen für soziologische Theorien, die in Gütediskursen oft ausgespart bleiben, denen aber in der analytisch-empirischen Soziologie ein großer Stellenwert zukommt.

3 Prämissen und Ziele der Soziologie aus analytisch-empirischer Perspektive

Die Beschäftigung mit Gütekriterien aus Sicht der analytisch-empirischen Soziologie erfordert zunächst eine Klärung des zu Grunde liegenden Wissenschaftsverständnisses und zentraler Forschungsziele. In unserer Auslegung sollte die Soziologie analytisch vorgehen, indem sie einen Forschungsgegenstand in zentrale Bestandteile und deren Beziehungen zerlegt und von jenen Facetten absieht, die für die Fragestellung vernachlässigbar sind (Hedström 2008: 13). Dadurch wird es einfacher, Regelmäßigkeiten zu erkennen, ursächliche Bedingungen zu identifizieren und Wirkungsmechanismen herauszuarbeiten. Die Soziologie fassen wir zudem als eine empirische Disziplin auf, die aus der Beobachtung bzw. Erfahrung gewonnene Daten nutzt, um ihre Aussagen zu überprüfen (Popper 1994 [1934]: 13–18).

Aus unserer Sicht sind zwei ontologische bzw. epistemologische Grundannahmen ausreichend, um analytisch-empirische Soziologie zu betreiben (vgl. Gadenne 2003; Albert 2020). Erstens: Es gibt eine objektive Welt, d. h. eine Welt, die unabhängig vom menschlichen Wahrnehmen und Denken und unabhängig von Sprache, Theorien und Werten existiert. Zweitens: Wir können die Welt und ihre Struktur erkennen, zumindest in Ausschnitten. Dieses Erkennen wird durch wissenschaftliche Theorien, Methoden und Forschungsergebnisse befördert, weil mit diesen Mitteln individuelle Wahrnehmungsverzerrungen minimiert werden können und die Realität in kumulativer Forschung approximativ erfassbar ist (Popper 1994 [1934]: Kap. X).[1]

Diesen Annahmen zufolge sind auch subjektive Phänomene, wie Wahrnehmungen und Einstellungen, wissenschaftlich untersuchbar, indem sie mit empirischen Forschungsmethoden in eine intersubjektiv nachvollziehbare Form überführt werden. Dasselbe gilt für soziale Phänomene der Meso- und Makroebene. Schon Durkheim (1984 [1895]: 115) erachtete es als „grundlegendste Regel“ der Soziologie, „die soziologischen Tatbestände wie Dinge zu betrachten.“ Erst die intersubjektive Nachprüfbarkeit gewährleistet eine hinreichende, wenn auch fehlerbehaftete und unsichere Korrespondenz wissenschaftlicher Aussagen mit der Realität und den Aufbau eines geteilten soziologischen Wissensbestandes (Albert 1982: 16).

Die wissenschaftliche Erfassung sozialer Phänomene erfordert die planvolle und methodisch kontrollierte Sammlung von Daten. Als Daten kommen alle dokumentierbaren Formen menschlicher Äußerungen in Frage. Eine strukturierte Darstellung sozialer Phänomene auf der Grundlage empirischer Daten nennen wir wissenschaftliche Beschreibung. Selbst wenn das Sammeln einer großen Materialfülle – wie beim Einsatz historischer oder ethnografischer Methoden – ein wichtiger Arbeitsschritt sein kann, liegt die analytische Leistung einer Beschreibung darin, den Gegenstand aussagekräftig zu systematisieren, etwa Trends, Verlaufsmuster, Merkmalsvariationen und -zusammenhänge, Typologien und ähnliches herauszuarbeiten (Gerring 2012b: 724–729; Swedberg 2021). Bei einer Beschreibung wird von den Daten häufig auf etwas Unbeobachtetes geschlossen (King et al. 1994: 34; Kreuzer 2019: 125). So muss ein nicht unmittelbar zugängliches Makrophänomen wie „Bildungsungleichheit“ durch Daten und Methoden erst greifbar gemacht werden. Dies ist ein voraussetzungsreicher Prozess, der nicht theorielos abläuft. Adäquaten Beschreibungen kommt ein hoher Stellenwert zu, denn sie sind in der Lage, ein Phänomen wissenschaftlich überhaupt erst relevant zu machen und Regularitäten aufzuzeigen, die im nächsten Schritt zu erklären sind (Goldthorpe 2007: 207 f.).

Während Beschreibungen beantworten, was der Fall ist, geben Erklärungen Antworten auf die Frage, warum etwas in der beschriebenen Weise der Fall ist. Erklärungen zielen auf die Identifikation von Ursache-Wirkungsbeziehungen und geben an, unter welchen Bedingungen Phänomene mit zunehmender Wahrscheinlichkeit auftreten und welche Wirkungsmechanismen dabei relevant sind. Ursache-Wirkungsbeziehungen sind auch deshalb von Bedeutung, weil sie Ansatzpunkte für Prognosen und praktische Interventionen bieten. Wenngleich in der Formulierung und Überprüfung von Erklärungen ein erkennbarer Forschungsschwerpunkt der analytisch-empirischen Soziologie liegt (Hedström 2008: 12; Raub et al. 2022), erachten wir Beschreibungen, Anwendungen und Prognosen als gleichberechtigte Aufgaben.

Die analytisch-empirische Soziologie hat zum Ziel, einen Bestand an sorgfältig ausformulierten Theorien zu entwickeln, die die empirisch beschriebenen Phänomene zu erklären vermögen. Die Erklärungskraft von Theorien muss sich in rigorosen Überprüfungen erst bewähren (vgl. Abschnitt 6). Aufgrund der prinzipiellen Unsicherheit der Erkennbarkeit der Welt reichen dafür einzelne Studien nicht aus. Vielmehr verstehen wir Wissenschaft als ein Unternehmen des kumulativen Wissenszuwachses und Erkenntnisfortschritts.

Aus diesem Wissenschaftsverständnis entwickeln wir nun einen Katalog von elf Gütekriterien. Zunächst gehen wir auf die Basiskriterien der intersubjektiven Nachvollziehbarkeit und der Auseinandersetzung mit dem Forschungsstand ein, die sich auf übergreifende Aspekte des Forschungsprozesses richten und die wir als konstitutiv für die analytisch-empirische Soziologie erachten. Danach behandeln wir die Forschungsfrage, das theoretische Aussagensystem, dessen Verzahnung mit empirischen Indikatoren, das Forschungsdesign, den Methodeneinsatz und die Ergebnispublikation. An diesen Kernkriterien wird erkennbar, ob Forschungsarbeiten besser oder schlechter ausgeführt wurden.

4 Basiskriterien

Unsere Prämissen beinhalten, dass wissenschaftliche Schlüsse über die Wirklichkeit nie sicher sein können und rigorose Methoden erfordern. Entsprechend zeichnet sich die wissenschaftliche Grundhaltung durch steten Zweifel aus – auch gegenüber den eigenen Ergebnissen. Nach Merton (1973: 277) unterscheidet sich die Wissenschaft von anderen Systemen der Wissensproduktion durch „organized skepticism“. Wissenschaftliche Forschung ist ein kumulativer Erkenntnisprozess, in dem Theorien in konzertierten empirischen Anstrengungen erhärtet oder in Frage gestellt werden. Jede Studie sollte sich am aktuellen Forschungsstand orientieren und mit den bestmöglichen Forschungsmethoden („lege artis“) arbeiten.[2] Dazu formulieren wir zwei übergeordnete Gütekriterien. Da sie für jede Wissenschaft und den gesamten Forschungsprozess gelten, bezeichnen wir sie als Basiskriterien.

Aus dem Prinzip des konsequenten Zweifels ergibt sich, dass gute Forschung in allen Schritten nachvollziehbar sein muss, denn nur dann kann sie begründet angezweifelt und kritisch überprüft werden (Popper 1994 [1934]: 18). Schwer nachvollziehbare Forschung entzieht sich dem zentralen Kontrollmechanismus der Wissenschaft. Deswegen ist die intersubjektive Nachvollziehbarkeit unser erstes Basiskriterium (GK1). Dieser Vorschlag steht im Einklang mit der Position von Steinke (1999: 209), die die intersubjektive Nachvollziehbarkeit zum „Hauptkriterium“ der qualitativen Sozialforschung erklärt und den Terminus gegenüber der „Objektivität“ als Gütekriterium vorzieht, um Verwechslungen mit der ontologischen Objektivität zu vermeiden (ebd.: 131–144). Nachvollziehbarkeit ermöglicht die Verständigung über Argumente und Vorgehensweisen unter Forschenden. Sie impliziert nicht, dass man den Positionen anderer Forschender zustimmt, sondern ermöglicht die kritische Auseinandersetzung über Entscheidungen, die in allen Phasen des Forschungsprozesses getroffen werden. Sie schafft zudem die Grundlage für die „Nachprüfbarkeit“ im Sinne der „Reproduzierbarkeit“ von Befunden (Popper 1994 [1934]: 19), die wir im Zusammenhang mit Replikation in Abschnitt 5 aufgreifen.

Konkretisieren lässt sich die intersubjektive Nachvollziehbarkeit durch drei Unterkriterien. Forschungsarbeiten sind gut nachvollziehbar, wenn sie (a) mit präzisen Begriffen und klarer Struktur argumentieren, (b) den Forschungsablauf transparent machen und (c) Forschungsdaten und -materialien offenlegen.[3]

Präzise Sprache und klare Argumentation (GK1a). Wissenschaftliche Texte müssen begrifflich präzise und argumentativ klar verfasst sein (Opp 2014: 141–145). Unpräzise, unnötig komplexe oder logisch inkonsistente Darstellungen sind schwer nachvollziehbar. So widmet sich ein großer Teil soziologischer Forschung der Auslegung mancher „Klassiker“, die zwar inspirierende Werke verfasst haben, aber ertragreichere kumulative Forschung generieren würden, wenn sie klarer argumentiert hätten (Sperber 2010). Beispielsweise zieht Bourdieus Werk eine seit Jahrzehnten andauernde Auslegungsdebatte darüber nach sich, was genau der Prozess kultureller Reproduktion impliziere, wie sein Modell des sozialen Raumes methodisch konstruiert worden sei und wie die Wirkmechanismen von Klasse und Lebensstil gedacht seien (vgl. jüngst Flemmen et al. 2019; Chan 2019; vgl. zu einer Bestandsaufnahme Jæger 2022).

Transparenz des Forschungsablaufs (GK1b). Der Gang der Forschung muss in allen relevanten Details der Operationalisierung, Untersuchungsplanung, Datenerhebung und -analyse transparent beschrieben werden (vgl. zu Umsetzungshinweisen Academy of Sociology 2020a). Bleiben wichtige Schritte undokumentiert, ist der Erkenntnisprozess nicht hinreichend nachvollziehbar. Weder in der quantitativen noch in der qualitativen Forschung reichen bloße Verweise auf die verwendeten Verfahren (z. B. Mehrebenen-Regression, Grounded Theory). Stattdessen ist die Vorgehensweise genau zu entfalten, ggf. in einem Online-Anhang.

Offenheit der Materialien, Daten und Codes (GK1c). Die Forschungsmaterialien müssen anderen Forschenden möglichst weitgehend zur Überprüfung zugänglich sein (vgl. zu Umsetzungshinweisen Academy of Sociology 2020b). Bestehen Zweifel an der korrekten Ausführung von Datenanalysen, so müssen die verwendeten Daten und Codes zur Nachvollziehbarkeit des Vorgehens verfügbar und überprüfbar sein. Bei sensitiven Materialien sind restringierte Zugänge angezeigt, z. B. über ein „Secure Data Center“.

Aktuell wird diskutiert, in welchem Maß auch qualitative Sozialforschung diesen Kriterien genügen kann, wobei vor allem die Offenheit (GK1c) umstritten ist (vgl. Jacobs et al. 2021; Murphy et al. 2021). In der Tat werfen qualitative Daten spezifische Probleme auf, etwa die Kontextsensibilität, den potenziellen Vertrauensbruch gegenüber Interviewten und erhöhte Anforderungen an den Datenschutz zur Wahrung der Anonymität. Vermehrt gibt es aber pragmatische Ansätze zum Umgang mit diesen Problemen (vgl. Breznau 2021; Murphy et al. 2021; Varese 2022). Nicht zuletzt durch die Schaffung einer Nationalen Forschungsdateninfrastruktur werden auch in Deutschland die Archive für qualitative Daten wachsen (vgl. Knoblauch 2021). Aus unserer Sicht sind alle drei Kriterien (GK1a-c) auch Anforderungen an qualitative Studien. Mehr Reanalysen qualitativer Daten mit unterschiedlichen Interpretationsmethoden und -teams könnten den kumulativen Erkenntnisfortschritt stimulieren.

Weil Wissenschaft aus analytisch-empirischer Sicht kumulativ arbeitet, sehen wir das zweite Basiskriterium in der Auseinandersetzung mit dem Forschungsstand (GK2). Bei der Formulierung der Fragestellung und der Einordnung einer Studie, bei der Entwicklung von Konzepten und Theorien genauso wie bei der Nutzung von Messinstrumenten, Forschungsdesigns, Analyseverfahren und Interpretationstechniken ist stets an den „state of the art“ anzuknüpfen, den die „scientific community“ hervorgebracht hat. Forschung, die etablierte Erkenntnisse und weiterentwickelte Methoden ignoriert, büßt an Qualität ein. Auch eine kritische und innovative Positionierung gegenüber dem etablierten Wissen muss durch die Diskussion des Forschungsstandes begründet werden. Da dieses Basiskriterium in allen Etappen des Forschungsprozesses relevant ist, können wir GK2 an dieser Stelle nicht näher konkretisieren, sondern tun dies in den Abschnitten 5 bis 10.

Unseres Erachtens gelingen intersubjektive Nachvollziehbarkeit und kumulativer Erkenntnisfortschritt besser, wenn wissenschaftliche Forschung ein gewisses Maß an Standardisierung aufweist. Die Verwendung klar definierter und einheitlich verwendeter Begriffe sowie standardisierter Methoden macht Forschung leichter nachvollziehbar, kritisierbar und überprüfbar. Qualitativ-interpretative Forschung fühlt sich dem Forschungsstand „oft nur vage verpflichtet“ (Strübing et al. 2018: 96) und arbeitet gegenwärtig weniger kumulativ als quantitative Forschung. Die Herausbildung „kodifizierter Verfahren“ (Steinke 1999: 215) einzelner Dateninterpretationsschulen und die anhaltenden Gütediskurse signalisieren aber auch hier einen Bedarf nach Qualitätsstandards. Die Verwendung nichtstandardisierter Methoden entbindet nicht davon, das eigene Vorgehen intersubjektiv nachvollziehbar darzulegen und auf den Stand der Forschung zu beziehen.

5 Formulierung der Forschungsfrage

Unser drittes Gütekriterium ist die Qualität der Forschungsfrage (GK3). Zunächst ist eine präzise Formulierung der Forschungsfrage (GK3a) ein unverzichtbares Element jeder Forschung. Eine gute Fragestellung zeichnet sich dadurch aus, dass sie das interessierende Phänomen klar benennt, im sozialen, räumlichen und zeitlichen Kontext verortet und einem analytischen Ziel unterwirft (van Tubergen 2020: 23 f.). Für quantitative Studien mit kausalanalytischer Ausrichtung wird empfohlen, bereits an dieser Stelle den Estimand festzulegen, d. h. das, was statistisch geschätzt werden soll (Lundberg et al. 2021: 536 ff.). Für die Forschenden ist die Selbstvergewisserung über ihre Fragestellung wichtig, um den Untersuchungsgang zu strukturieren. Für die Rezipierenden macht eine präzise Frage intersubjektiv nachvollziehbar (GK1), welches Anliegen eine Publikation verfolgt und ob sie zu plausiblen Schlussfolgerungen gelangt.

Auch wenn zunächst einem grob umrissenen Feld oder Gegenstand das Interesse gelten mag, ist es nötig, konkrete Fragen darauf zu richten. Da jeder Gegenstand eine Vielzahl verschiedener Fragen aufwerfen kann, muss er so zugeschnitten werden, dass die Forschungsbemühungen einen klaren Fokus haben (Swedberg 2021). Auch in der qualitativ-interpretativen Sozialforschung wird die Formulierung einer Frage als einer der ersten Forschungsschritte empfohlen (Przyborski & Wohlrab-Sahr 2008: 15–17; Breidenstein et al. 2013: 45–50). Führt die für viele qualitative Studien konstitutive Offenheit und Zirkularität des Forschungsprozesses zur Reformulierung der Frage, sollte diese Modifikation transparent gemacht werden.

Spätestens bei der Vorbereitung einer Publikation ist die Forschungsfrage zu präzisieren. Geschieht dies nicht, laufen Publikationen Gefahr, im Stadium allgemeiner Betrachtungen oder Ergebnissammlungen stecken zu bleiben. Zwar können auch sie anregend sein, doch bleibt häufig unklar, welchen Beitrag sie zum Forschungsstand leisten (GK2). Darzulegen ist überdies, dass das, was die Forschungsfrage motiviert, etwa ein zeitlicher Trend, empirisch überhaupt der Fall ist – Merton (1987: 2–6) spricht von „establishing the phenomenon“.

Aus Sicht der analytisch-empirischen Soziologie ist eine wissenschaftliche Frage nicht normativer Natur („Was ist wünschenswert?“), sondern hat einen beschreibenden („Was ist?“) oder/und erklärenden („Warum ist es so?“) Anspruch. Daneben können Fragen der angewandten Sozialforschung verfolgt werden, die sich mit Prognosen („Was wird sein?“) oder Interventionen („Welche Folgen hat eine Maßnahme?“) beschäftigen (van Tubergen 2020: 20 f.).

Die Güte einer Forschungsfrage lässt sich neben der Präzision an ihrer thematischen Relevanz beurteilen. Dieses Kriterium kommt auch in anderen Taxonomien vor (z. B. Calderón Gómez 2009; Döring & Bortz 2016: 90 f.), wird aber dort zum Teil auf die praktische Verwertbarkeit des Wissens verengt (Steinke 1999: 241–248). Relevanz besitzt soziologische Forschung dann, wenn sie Fragen bearbeitet, die von wissenschaftlichem Interesse (GK3b) oder von gesellschaftlichem Belang (GK3c) sind (King et al. 1994: 15).

Wissenschaftliche Relevanz (GK3b) lässt sich durch klare Bezüge zum Forschungsstand erzeugen (GK2), indem einschlägige Theorien und Befunde aufgegriffen und Erkenntnisdefizite adressiert werden (King et al. 1994: 16 f.). Erwartet wird in einer Publikation eine komprimierte Bestandsaufnahme darüber, ob, wie und mit welchen Resultaten die aufgeworfene Frage schon untersucht wurde. Wie Merton (1987) mit dem Konzept der „specified ignorance“ herausstellt, ist bereits die präzise Identifikation einer Forschungslücke eine anspruchsvolle Leistung. Was eine gelungene Bestandsaufnahme ist, unterscheidet sich je nach Vorwissen. Im Extremfall einer sehr stark beforschten Frage empfiehlt sich der Rekurs auf Metaanalysen, systematische Reviews und besonders rigorose Untersuchungen. Im Extremfall eines neuen, bislang kaum untersuchten Phänomens ist der Wissensstand zu verwandten Fragestellungen heranzuziehen und zu diskutieren, ob etablierte Theorien darauf anwendbar sind.

Bei der Einordnung der Forschungsfrage lassen sich zwei Anliegen unterscheiden, die beide wertvoll sind: Forschung kann auf Originalität oder Replikation zielen. Für den wissenschaftlichen Fortschritt ist Forschung wichtig, die sich durch Originalität auszeichnet, also deutlich über den Forschungsstand hinausgeht (Strübing et al. 2018: 96). Dies gilt für die Neuerschließung sozialer Phänomene wie auch die Überprüfung bestehender Theorien (Gerring 2012a: 27–32). Eine theoretische Arbeit ist originell, wenn sie empirische Zusammenhänge oder Prozesse in neuartiger Weise in ein kohärentes und erklärungskräftiges Aussagensystem einbettet. Eine empirische Studie ist originell, wenn sie besonders belastbare oder neuartige Methoden und Daten nutzt, die es ermöglichen, erklärungsbedürftige Phänomene zu entdecken, eine Theorie (weiter) zu entwickeln oder besonders aussagekräftig zu überprüfen.[4]

Die alleinige Orientierung an Originalität würde jedoch nicht die für die analytisch-empirische Soziologie wichtige Kumulation von Wissen herbeiführen. Neben innovativen Studien benötigt Wissenschaft auch inkrementelle Forschung. Da empirische Befunde oft in Abhängigkeit vom sozialen Kontext und der Methodenwahl variieren, ist die Replikation ein wichtiges Anliegen der Soziologie. Es gibt unterschiedliche Typen replikativer Studien (vgl. Christensen et al. 2019). Reproduktionsversuche beziehen sich auf Reanalysen derselben Daten und können Hinweise auf Probleme in den Originalstudien liefern. Replikationen im engeren Sinne beziehen sich auf Versuche der Bestätigung empirischer Befunde mit neuen Daten und zeigen, ob die Ergebnisse generalisierbar sind. Die Soziologie hat hier Nachholbedarf: Viele Forschungsarbeiten sind nicht offen (GK1c) und diejenigen, die es sind, werden nur selten überprüft. Die wissenschaftlichen Anreizstrukturen sollten so verändert werden, dass mehr replikative Studien resultieren. Fachzeitschriften sollten mehr qualitätsgesicherte Replikationen publizieren – egal ob die Originalergebnisse bestätigt werden oder nicht – und Forschende sollten neben den Originalarbeiten auch Replikationen zitieren (Auspurg & Brüderl 2022).

Die Güte einer Forschungsfrage kann nicht nur über ihre wissenschaftliche, sondern auch ihre gesellschaftliche Relevanz (GK3c) begründet werden. Da moderne Gesellschaften für ihre Steuerung wissenschaftliches Wissen voraussetzen und da die Wissenschaft stark öffentlich finanziert wird, lässt sich die Bearbeitung gesellschaftlich definierter „sozialer Probleme“ als Bringschuld der Wissenschaft gegenüber der Gesellschaft begreifen (van Tubergen 2020: 13). Eine derart gesteuerte Auswahl von Fragestellungen enthält außerwissenschaftliche Wertbezüge, die aber weder das Forschungsvorgehen noch das Ergebnis beeinflussen sollten (Weber 1904). Wir sind zugleich aber auch der Ansicht, dass die Soziologie in der Auswahl von Forschungsfragen Freiheiten gegenüber den Bedarfen von Gesellschaft und Politik genießen sollte. Grundlagenforschung benötigt einen langen Atem und sollte nicht von aktuellen gesellschaftlichen Diskursen getrieben sein.

6 Konzepte und Theorien

Im analytisch-empirischen Wissenschaftsverständnis definieren wir Theorien als Aussagensysteme, die aus Konzepten, Annahmen und Propositionen bestehen und beanspruchen, eine bestimmte Klasse von Phänomenen zu erklären (Merton 1945: 469 ff.; Bunge 1997). In diesem Theorieverständnis, das im kritischen Rationalismus wurzelt, gibt es etablierte Gütekriterien, die eine starke Verzahnung von Theorie und Empirie sicherstellen (Popper 1963; Opp 2014: 233–238). Diese Kriterien greifen wir auf und stellen die Klarheit der Konzepte und die Kohärenz des Aussagensystems (GK4) als basale Anforderungen an Theorien heraus. Danach gehen wir auf die Erklärungskraft von Theorien (GK5) ein.

Konzepte sind wichtige Bausteine von Theorien (Merton 1945: 465). Sie sollten klar definiert sein und in einem logisch kohärenten, widerspruchsfreien Aussagensystem miteinander verbunden sein (GK4). Wissenschaftstheoretisch besteht weitgehend Konsens, dass kein unmittelbarer Zugang zum Gegenstand ohne begrifflich-konzeptionellen Apparat möglich ist und dass Begriffe als Nominaldefinitionen nicht wahr oder falsch sein können. Noch vor der Entwicklung von Messinstrumenten bedürfen insbesondere abstrakte Konzepte der Spezifikation. Man denke an Konzepte wie „Armut“, „soziale Klasse“, „gruppenbezogene Menschenfeindlichkeit“ oder „Nutzen“. Da diese Konzepte unterschiedlich gebraucht werden, ist die Explikation des konkreten Verständnisses unabdingbar, denn nur eine begrifflich klare Argumentation ist intersubjektiv nachvollziehbar (GK1). Auch wenn eine gewisse operative Vagheit unvermeidbar ist, bleibt die Präzision der Konzepte ein wichtiges Ziel. Wir grenzen uns damit von Denkrichtungen wie etwa Teilen der französischen Philosophie ab, in denen anspruchsvolle Rhetorik ein Stilmittel ist, das mit gedanklicher Tiefe assoziiert und mit Prestige belohnt wird (vgl. Lamont 1987).

Die Begriffsarbeit sollte nicht derart überbetont werden, dass sie von der Entwicklung von Propositionen abhält. Denn auch wenn die Arbeit an und mit Begriffen für die Theorieentwicklung wichtig ist, erweist sich die Güte von Konzepten erst im Rahmen erklärender Theorien. Da Konzepte wie alle Begriffe Konventionen sind, leistet ihre Anwendung auf einen Gegenstand noch keine Erklärung. Die Bezeichnung eines Phänomens als „soziale Praxis“, „Moralökonomie“, „institutionelles Feld“ oder „Gefangenendilemma“ hat nur dann explanativen Wert, wenn sich dahinter erklärungskräftige Aussagensysteme verbergen, die für den vorliegenden Fall Gültigkeit beanspruchen können. Die Vorstellung, dass Theorien nur ein „Vokabular“ bereitstellen und als „begriffliches Instrumentarium für empirische Analysen dienen“ (Reckwitz 2004: 325), ist nach unserem Theorieverständnis unzureichend. Zwar sind Theorien immer auch begrifflich-konzeptionelle „Perspektiven“ auf die Welt (Fuhse 2022), aber ihr Wert wie auch ihr Korrekturbedarf bemisst sich an der Menge der Aussagen, die empirisch prüfbar sind und sich empirisch bewähren.

Solange mehrere Konzepte nicht mit kausal-erklärendem Anspruch, sondern zu ordnenden, deskriptiven Zwecken miteinander verbunden werden, sprechen wir nicht von einer Theorie, sondern von einem Schema oder einer Typologie. Da Erklärungen im Rahmen der analytisch-empirischen Soziologie besondere Beachtung genießen, ist die Erklärungskraft ein zentrales Gütekriterium für die Beurteilung von Theorien (GK5). Wir unterscheiden hierzu fünf Unterkriterien: den Informationsgehalt, die Angabe kausaler Mechanismen, die analytische Präzision, die Prüfbarkeit und die empirische Bewährung.

Informationsgehalt (GK5a). Ein Aussagensystem wird zu einer Theorie mit Erklärungsanspruch, wenn es mindestens eine informationshaltige Proposition enthält. Meist sind dies Hypothesen über kausale Zusammenhänge.[5] Am Beispiel einer deterministischen Hypothese gilt aussagenlogisch, dass ihr Informationsgehalt umso höher ist, je weniger restriktiv ihre Wenn-Komponente und je restriktiver ihre Dann-Komponente ist (Opp 2014: 155–163). Man lernt aus einer Theorie umso mehr über die Wirklichkeit, je weiter ihr Geltungsbereich ist (Wenn-Komponente) und je spezifischer ihre Implikationen sind (Dann-Komponente). Den Theoriebegriff der analytisch-empirischen Soziologie fassen wir weiter als im Schema von Hempel und Oppenheim (1948), dem zufolge ein Phänomen erklärt wird, indem man es aus einem allgemeinen Gesetz und entsprechenden Randbedingungen ableitet. Auch wenn die Vorstellung von Theorien als deduktiv-hypothetischen Systemen nach wie vor zentral ist, legen wir gesteigerten Wert auf die Identifikation kausaler Mechanismen (Kalter & Kroneberg 2014).

Angabe kausaler Mechanismen (GK5b). Mechanismische Erklärungen gehen über die Benennung von Ursachen und Wirkungen in Wenn-dann- bzw. Je-desto-Aussagen hinaus, insofern sie die Prozesse identifizieren, die den Ursache-Wirkungsbeziehungen zu Grunde liegen (Bunge 1997; Hedström & Ylikoski 2010). Allgemein gesprochen muss angegeben werden, welche Entitäten und Aktivitäten so zusammenwirken, dass sie bestimmte Regularitäten produzieren (Machamer et al. 2000: 3). Sofern Wahrnehmungen, Weltsichten, Gründe oder andere subjektive Größen als Ursachen spezifiziert werden, eröffnen mechanismische Erklärungen einen Zugang zum „erklärenden Verstehen“ sozialer Phänomene (Weber 1972 [1904]: 4). Darüber hinaus hilft die Angabe von Mechanismen empirische Ausnahmen zu erklären und neue Implikationen abzuleiten. Insofern besitzen mechanismische Erklärungen tendenziell einen höheren Informationsgehalt und tragen zur Steigerung der Erklärungskraft bei (Bunge 1997). Sie stellen jedoch meist höhere Anforderungen an Forschungsdesigns und Daten.

Analytische Präzision (GK5c). Ein wichtiger Bestandteil der Theoriearbeit ist das Herausarbeiten der Implikationen von Theorien. Dies gelingt nur beim Vorliegen von analytischer Präzision (Braun 2008: 385). Theorien sollten möglichst genau anzugeben erlauben, welche Beobachtungen unter welchen Bedingungen zu erwarten sind. Analytische Präzision ermöglicht spezifischere Folgerungen und somit einen höheren Informationsgehalt, etwa zur Abhängigkeit der Richtung oder Stärke eines Kausalzusammenhangs von der Ausprägung weiterer Variablen oder sozialer Kontexte („Interaktionseffekte“). Formalisierte Theorien bzw. formale Modelle ermöglichen es, Implikationen mathematisch abzuleiten oder per Computersimulation zu generieren (Manzo 2014). Formalisierung ist jedoch keine Garantie dafür, dass die dahinterstehenden theoretischen Konzepte genau definiert sind. Umgekehrt können verbal formulierte und gut explizierte Theorien hinreichend präzise sein, um empirische Implikationen abzuleiten.

Prüfbarkeit (GK5d). Nach den Prämissen der analytisch-empirischen Soziologie sollte eine Theorie über möglichst spezifische Implikationen empirisch überprüfbar sein (Lieberson & Horwich 2008). Dieser Anspruch scheint uns wichtig, obgleich gänzlich theoriefreie Beobachtungen nicht möglich sind und die Trennung zwischen Annahmen und informationshaltigen Propositionen manchmal Unschärfen aufweist (Fuhse 2022). Derartige Argumente sollten nicht dazu führen, Theorien der empirischen Kontrolle zu entziehen und auf die Herausarbeitung überprüfbarer Implikationen zu verzichten. In der Praxis hängt die Prüfbarkeit einer Theorie immer auch davon ab, wie gut sich ihre Konzepte operationalisieren lassen und wie belastbar die einsetzbaren Methoden sind.

Empirische Bewährung (GK5e). Da informationshaltige, analytisch präzise und prüfbare Theorien empirisch falsch sein können, ist das Ausmaß der empirischen Bewährung unser abschließendes Kriterium der Erklärungskraft. Eine Theorie ist umso besser bewährt, je stärker wiederholte Überprüfungen unter unterschiedlichen und aussagekräftigen Bedingungen möglichst spezifische Implikationen der Theorie unterstützt haben (Lieberson & Horwich 2008). Damit ein Prozess der empirisch kontrollierten Theorieentwicklung und -korrektur gelingt, ist eine gründliche Auseinandersetzung mit dem Forschungsstand (GK2) vonnöten.[6]

Bei der Beurteilung von Theorien ist zu bedenken, dass sie anfangs meist nicht vollständig ausformuliert sind, sondern dass sie sich weiterentwickeln, indem ihre Implikationen fortwährend geprüft, ihr Geltungsbereich neu abgesteckt und ihre Konzepte bei Bedarf überarbeitet werden (Bunge 1996: 114). Begriffsarbeit sollte vor allem auf die Entwicklung von Propositionen hin orientiert sein, indem etwa gefragt wird, ob ein neuer Begriff hilft, die Klasse von Phänomenen abzugrenzen, für die sich eine Hypothese bewährt, oder ob er geeignet ist, eine neuartige Ursache oder einen vermittelnden Prozess zu beschreiben. Häufig wird jedoch gerade die Veränderlichkeit des Sozialen zum Anlass für die Neuprägung von Begriffen genommen. Dies birgt die Gefahr theoretischer „Pseudo-Innovation“ (Gerring 2012a: 28). Neue Phänomene bedürfen nicht notwendigerweise neuer Konzepte (Esser 2004), solange damit nicht neue Einsichten in Form von zusätzlichen Propositionen einhergehen.

Theoriearbeit schließt die Möglichkeit ein, Konzepte und Hypothesen in explorativer Auseinandersetzung mit dem empirischen Material zu entwickeln. Mit qualitativ-interpretativen Studien könnte mehr hypothesenprüfende Anschlussforschung stimuliert und mehr kumulativer Erkenntnisfortschritt erreicht werden, wenn unsere Gütekriterien als Zielgrößen stärker Beachtung fänden. Auch könnte qualitative Forschung selbst häufiger hypothesenprüfend eingesetzt werden (Hopf 1996; Varese 2022). Die Publikationspraxis der quantitativen Sozialforschung ließe sich verbessern, wenn Theorien nicht nur zur Erklärung empirischer Phänomene herangezogen würden, sondern wenn auch stärker herausgearbeitet würde, was der Hypothesentest für den Status der Theorien bedeutet (Wikström & Kroneberg 2022: 7). Theorieentwicklung bedarf einer solchen Kontrolle durch empirische Forschung. Die „äußerst schädliche Trennung zwischen Theorie und Empirie“ (Joas & Knöbl 2004: 15) ist in der analytisch-empirischen Soziologie grundsätzlich nicht angelegt.[7]

Vieles, was in der Soziologie unter „Theorie“ firmiert, orientiert sich nicht am skizzierten Theorieverständnis (vgl. Turner 1991: 1–30; Joas & Knöbl 2004: 13–38; Abend 2008; Kroneberg 2019). Beispiele sind orientierende Feststellungen (wie Marx’ Basis-Überbau-Theorem), Typologien (wie Esping-Andersens Wohlfahrtsstaatstypen) oder heuristische Schemata (wie Colemans Makro-Mikro-Makro-Modell). Solche Überlegungen können nicht überprüft werden wie ausgearbeitete Kausalhypothesen. Sie können aber brauchbare Heuristiken sein, indem sie neue Fragen generieren oder helfen, einen Gegenstandsbereich zu ordnen; und sie können daraufhin beurteilt werden, ob sie sich als fruchtbar für die Formulierung präziser und prüfbarer Ursache-Wirkungsbeziehungen erweisen. Fehlt eine Orientierung an dieser Zielsetzung gänzlich, resultieren Formen soziologischer Theoriebildung, die sich eher für den Dialog mit der Sozialphilosophie als mit der empirischen Sozialforschung eignen und häufig nicht genau genug artikulieren, welche Aussagen empirisch scheitern können.

7 Das Verhältnis von Konzepten und Indikatoren

Da sich aus analytisch-empirischer Perspektive theoretische Propositionen auf der Grundlage kontrolliert erhobener Daten bewähren müssen, ist es nötig, die Ebenen der Theorie und der Empirie miteinander zu verbinden. Je überzeugender diese Verknüpfung gelingt, umso höher ist die Forschungsgüte. Da Konzepte die Bausteine theoretischer Propositionen sind, richtet sich die Aufmerksamkeit im ersten Schritt darauf, sie mit empirischen Indikatoren in Einklang zu bringen. Im zweiten Schritt gilt es dann, für die Beziehungen zwischen zwei oder mehr Konzepten eine adäquate Abbildung auf der empirischen Ebene zu finden. Beide Aspekte werden in der Gütekriterienliteratur mit der Validität adressiert. Die Validität bezieht sich grundlegend auf das Ausmaß, in dem Aussagen im Licht empirischer Evidenz als gültig bzw. wahr anzusehen sind (Shadish et al. 2002: 34). Zunächst befassen wir uns mit der Beziehung zwischen Konzepten und Indikatoren („Konstruktvalidität“) und wenden uns in Abschnitt 8 den Wirkungszusammenhängen der Konzepte untereinander zu („interne Validität“).

Sowohl in der quantitativen als auch der qualitativen Sozialforschung widmet sich ein großer Teil der Gütekriteriendebatte der Verknüpfung von Konzepten und Indikatoren, so dass wir als übergreifendes Kernkriterium die Konzept-Indikator-Korrespondenz (GK6) vorschlagen. Es richtet sich auf das Ausmaß, in dem Konzepte und Indikatoren valide (GK6a) und reliabel (GK6b) miteinander korrespondieren. In der messtheoretischen Tradition der deduktiv orientierten, quantitativen Sozialforschung sind für die empirische Erfassung eines Konzeptes gut korrespondierende Indikatoren zu finden. Dazu sind Begriffe zunächst in Form von Konzepten zu spezifizieren (Adcock & Collier 2001: 532 f.). Eine Systematisierung ist dann gelungen, wenn Begriffe intersubjektiv nachvollziehbar (GK1) in ihren Bedeutungen expliziert und dimensional geordnet werden. Definitorische Grenzen, konstituierende Elemente, bestehende Unklarheiten und Widersprüche sollten mit Bezug auf den Forschungsstand geklärt werden (GK2). Sind Konzepte so weit spezifiziert, dass sie operationalisierbar sind, werden sie als Konstrukte bezeichnet. Im Schritt der Operationalisierung werden Indikatoren und Messanweisungen für die Konstrukte benannt. Für komplexe Konstrukte wird empfohlen, multiple Indikatoren zu verwenden, um einzelne Dimensionen zu messen (Bollen 1989; Bühner 2004: 36). In Auseinandersetzung mit bestehender Forschung (GK2) ist zu klären, ob etablierte Messinstrumente bereitstehen, deren Verwendung den kumulativen Wissensfortschritt fördert.[8]

Ob die Konzept-Indikator-Korrespondenz gelungen ist, wird mit einer Reihe von Validitätskonzepten zu fassen versucht, vor allem der Inhalts-, Kriteriums- und Konstruktvalidität (vgl. Schnell et al. 2011: 148–160). Wir schließen uns der verbreiteten Auffassung an, dass sich die zuerst von Cronbach und Meehl (1955) vorgeschlagene Konstruktvalidität am besten bewährt hat (Messick 1995; Adcock & Collier 2001: 536 f.; Shadish et al. 2002: 64–82).[9] Demnach ist die Validität der Messung eines Konstruktes (bzw. einer seiner Dimensionen) hoch, wenn die Indikatoren auf der Ebene der Daten stark korrelieren, aber mit den Indikatoren theoretisch abgegrenzter Konstrukte (bzw. anderer Dimensionen) schwach korreliert sind. Konstruktvalidität impliziert in diesem Sinne den Nachweis „konvergenter“ und „diskriminanter“ Eigenschaften von Indikatoren (Campbell & Fiske 1959). Wir grenzen uns damit von Auffassungen ab, die die Konstruktvalidierung auf einen rein kausalanalytischen Rahmen beschränken (z. B. Adcock & Collier 2001: 542).

Wir schlagen die Konstruktvalidität (GK6a) als zentrales Unterkriterium der Konzept-Indikator-Korrespondenz vor und sind der Ansicht, dass dieses Kriterium auch für theoretisch offen angelegte Studien geeignet ist, die ihre Konzepte aus den Daten entwickeln. Dies betrifft die qualitativ-interpretative Forschung, aber auch Arbeiten, die sich explorativer statistischer Verfahren wie der Cluster- und multiplen Korrespondenzanalyse oder des Text Mining bedienen (Brandt & Timmermans 2021). In vielen qualitativ-interpretativen Studien beschränken sich die theoretischen Vorüberlegungen darauf, mit Hilfe von „sensibilisierenden Konzepten“ eine Grundperspektive auf den Gegenstand zu richten (vgl. Blumer 1954; Bowen 2006). In einem iterativen und abduktiven Vorgehen werden die aus den Daten interpretativ gewonnenen Konzepte immer wieder an das Material rückgebunden, modifiziert und geschärft (Strübing 2014: 37–64). Die Herausforderung besteht darin, von der Detailfülle der Einzelfälle zu abstrahieren und klar umgrenzte Konzepte zu formulieren, die möglichst für das gesamte Sample Geltung beanspruchen und in Anschlussstudien weiter untersucht werden können.[10] Wenn die Konzepte in ihren Kernelementen präzisiert, von anderen Konzepten abgegrenzt und anhand multipler Indikatoren in den Daten fallübergreifend breit verankert sind, lässt sich von einer hohen Konstruktvalidität sprechen.

Die Übertragbarkeit des Validitätskonzepts auf die qualitative Sozialforschung ist umstritten. Während einige Forschende Möglichkeiten der (modifizierten) Übertragung sehen (z. B. Kirk & Miller 1986; Flick 2019: 474 f.; Calderón Gómez 2009; Gerring 2012a), argumentieren andere für alternative Gütekriterien. So sieht Steinke (1999: 199–204) die Konstruktvalidität kritisch, da die Validitätsprüfung korrelative Analysen erfordere. Stattdessen schlägt sie die „empirische Verankerung der Theoriebildung und -prüfung“ als eigenständiges Kriterium der qualitativen Forschung vor. Strübing et al. (2018: 88–93) widmen diesem Vorgang gleich zwei ihrer fünf Gütekriterien. Aus einer abduktiven Grundhaltung heraus sehen sie die „empirische Sättigung“ und die „theoretische Durchdringung“ als komplementäre Kriterien an. Aus unserer Sicht gibt es starke Übereinstimmungen dieser Alternativen mit der Grundidee der Konstruktvalidität: Konzepte sollen voneinander klar abgegrenzt und in den Daten deutlich verankert sein.[11]

Neben der Validität ist die Reliabilität ein Gütekriterium der klassischen Testtheorie. Auch die Reliabilität (GK6b) erscheint uns für verschiedene Methodologien anwendbar, sie ist aber unterschiedlich auszulegen. Im Kern steht die Frage, ob eine Messung zu ähnlichen Ergebnissen kommt, wenn sie (a) durch unterschiedliche Forschende erfolgt (z. B. Intercoder-Reliabilität), (b) über die Zeit wiederholt wird (z. B. Test-Retest-Methode) oder (c) auf vergleichbare Fälle bzw. Stichproben übertragen wird (z. B. Messinvarianz). Erbringt ein Messinstrument demgemäß konsistente, stabile und äquivalente Ergebnisse, wird die Messung als zuverlässig bzw. reliabel erachtet. Da sich Reliabilität erst im wiederholten Messkontext erweisen kann und einige Prüfverfahren wie die Test-Retest-Methode sehr voraussetzungsreich sind (vgl. Diekmann 2011: 250–256), erachten wir die Reliabilität als ein im Vergleich zur Konstruktvalidität weniger gewichtiges Gütekriterium.[12]

Mit Verweis auf die geringe Standardisierung der Erhebungssituation wird die Anwendbarkeit in der qualitativ-interpretativen Forschung kritisch gesehen (z. B. Steinke 1999: 144 ff.). Das Reliabilitätskonzept sei weder mit dem iterativen Vorgehen dieser Forschung vereinbar noch trage es der Ko-Konstruktion von Wissen im Interview Rechnung. Um die Abhängigkeit der Interviewinhalte von Einflüssen der Forschenden darzustellen, wurden die „dependability“ (Lincoln & Guba 1985: 299, 316–318) und die „reflektierte Subjektivität“ (Steinke 1999: 231–239) vorgeschlagen.

Aus unserer Sicht sind subjektive Einflüsse der Interviewenden in offenen wie standardisierten Befragungen möglichst gering zu halten, sehr wohl aber zu reflektieren und transparent zu machen (GK1). Es steht außer Frage, dass Reliabilität nicht bedeuten kann, den Wortlaut eines offenen Interviews in einem Re-Interview erneut einzufangen. Wie Madill et al. (2000) an einem Beispiel verdeutlichen, geht es vielmehr um die Konsistenz interpretativer Resultate. Qualitative Analysen sind dann reliabel, wenn Fallinterpretationen durch mehrere Forschende synchron zu identischen Kategorien und Typisierungen führen oder wenn andere Forschende mit neuem Datenmaterial die Zuordnung der Fälle diachron bestätigen. Wichtige Verfahren zur Sicherung zuverlässiger Fallanalysen sind deshalb die Ermittlung der Intercoder-Reliabilität, etwa in der qualitativen Inhaltsanalyse (Kuckartz 2012: 49), und die Gruppeninterpretation, etwa in der Objektiven Hermeneutik (Oevermann et al. 1979; Reichertz 2013). Unterschiedliche Lesarten lassen sich oft integrativ verbinden. Wird jedoch kein Codier- oder Interpretationskonsens erzielt, sollten verbleibende Unsicherheiten dokumentiert werden.

Neben der Perspektivenintegration wird die Triangulation mehrerer Datensorten und Methoden empfohlen (vgl. Flick 2011; Baur et al. 2017: 4 f.; Kreuzer 2019: 125 f.). Dies ist eine im Forschungsdesign verankerte Strategie zur breiten Erschließung des Gegenstandes und zur Erzielung einer reliablen Interpretation, jedoch kein Gütekriterium. Somit ist für uns die Reliabilität ein allgemeines Unterkriterium zur Erreichung einer hohen Konzept-Indikator-Korrespondenz. Sie ist in der quantitativen Forschung als Messreliabilität, in der qualitativ-interpretativen Forschung als Interpretationsreliabilität zu verstehen.

8 Forschungsdesign und Generalisierungsansprüche

Für empirische Studien ist das Forschungsdesign der Fahrplan, der die Bedingungen für triftige Schlussfolgerungen zur gewählten Fragestellung vorgibt. Die Eignung eines Designs machen wir am Kriterium der Designangemessenheit (GK 7) fest. Wir beziehen dieses Erfordernis auf deskriptive wie erklärende, auf quantitative wie qualitative Designs. Wir greifen hierzu das in der qualitativen Forschung prominente Gütekriterium der Gegenstandsangemessenheit auf (Steinke 1999: 38–40, 215–221; Strübing et al. 2018: 86–88), modifizieren es aber in zweierlei Hinsicht. Da an einen Gegenstand unterschiedliche Fragen gerichtet werden können, müssen Designs und Methoden der konkreten Fragestellung angemessen sein, nicht dem Gegenstand. Daneben erscheint uns eine differenziertere Betrachtung des Forschungsprozesses angebracht, bei der die Qualität des Forschungsdesigns (GK7), der Datenerhebung (GK9a) und der Datenanalyse (GK9b) gesondert beurteilbar wird.

Mit dem Kriterium der Designangemessenheit wird ein breiteres Spektrum an Forschungsdesigns beurteilbar als in quantitativen Gütekriterienkatalogen üblich. Dort wurde ursprünglich das Kriterium der internen Validität formuliert, um die Zulässigkeit kausaler Schlüsse und die Kontrolle von Störfaktoren in Laborexperimenten einzuschätzen (Campbell 1957). Während die Konstruktvalidität auf die Beziehung zwischen einem Konzept und seinen Indikatoren abhebt, zielt die interne Validität auf kausale Beziehungen zwischen zwei oder mehr Konzepten und somit auf theoretische Propositionen. In der neueren Literatur wird dieses experimentelle Verständnis auf die Identifizierbarkeit von Kausaleinflüssen mit nichtexperimentellen Daten ausgedehnt (vgl. Shadish et al. 2002: 53; Angrist & Pischke 2009: 151; Gangl 2010). In noch weiterer Auslegung kann sich die interne Validität auch auf Forschungsdesigns erstrecken, die ausschließlich deskriptive Ziele verfolgen. Das Konzept deckt sich dann mit unserem Kriterium der Designangemessenheit.

Ein Forschungsdesign beinhaltet mehrere miteinander verbundene Elemente. Dazu gehört die Frage, ob die Variation der Ausprägungen der theoretischen Konzepte in den Daten adäquat abgebildet wird; ob sich die Variation auf die Untersuchungseinheiten im Querschnitt oder Längsschnitt bezieht; für welche Ebenen des Sozialen (z. B. Mikro-, Meso-, Makroebene) Daten erhoben werden; wie – und wie viele – Fälle ausgewählt werden; und wie bei kausalen Fragestellungen Drittvariableneinflüsse kontrolliert werden. Eng damit verknüpft sind Methoden der Datenerhebung, die wir in Abschnitt 9 behandeln.

Aus unserer Sicht ist die Güte eines Forschungsdesigns vor allem daran festzumachen, ob die für die Fragestellung und die Theoriebildung bzw. -prüfung relevante Variation der Ausprägungen zentraler Konzepte in den Daten abgebildet wird (GK7a). Die Bedeutsamkeit von Variation wurde in der Soziologie schon früh erkannt. So erklärte Durkheim (1984 [1895]: 205–217) die Methode des Vergleichs zum Kern von Forschungsdesigns. Ist das bloße Auftreten eines Phänomens (z. B. einer Revolution; einer religiösen Konversion) von Interesse, sind als Vergleichsfälle das Nichtauftreten oder funktionale Äquivalente des Phänomens denkbar. Ist eine konkrete kategoriale oder numerische Ausprägung (z. B. die Parteipräferenz; die Kirchgangshäufigkeit) von Interesse, gerät das Spektrum weiterer Ausprägungen in den Blick.

Die im Forschungsdesign verankerte Erfassung von Variation ist zentral für die Einlösung deskriptiver Ansprüche (vgl. King et al. 1994; Kreuzer 2019). In der Forschungspraxis gelingt dies manchmal nur unvollständig. So zeigt Kreuzer (2019: 129–134) am Beispiel der Goldhagen-Kontroverse über die Mitwirkung „gewöhnlicher“ Deutscher am Holocaust, dass Goldhagen ein Analyseschema verwendet, das die im Datenmaterial vorfindbare Variation stark einschränkt und überzogene Schlüsse zur Tragweite des historisch verankerten Antisemitismus nahelegt. Bei longitudinalen Fragen ist die Abbildung von Variation in der Zeitdimension wichtig. In vielen Gegenwartsdiagnosen werden jedoch weitreichende Behauptungen zum gesellschaftlichen Wandel gemacht, ohne fundierte zeitvergleichende Belege dafür zu liefern (vgl. Friedrichs et al. 1998). Ein überzeugendes ländervergleichendes Design der interpretativen Forschung legt Lamont (1992: Anhang 1–4) vor: Sie wählt Kontexte und Personen kriteriengeleitet aus und findet heraus, dass symbolische Grenzziehungen bei Angehörigen der oberen Mittelklasse in den USA meist sozioökonomischer Natur, speziell in Paris dagegen eher kultureller Art sind.

Die erklärenden Ansprüche einer Theorie stecken vor allem in ihrem Informationsgehalt, der Angabe kausaler Mechanismen und der analytischen Präzision (GK5a-c). Nicht jede Studie muss solche Ansprüche verfolgen, doch wenn das der Fall ist, kann das Forschungsdesign dazu beitragen, die postulierten Einflüsse empirisch aufzufinden, Alternativerklärungen auszuschließen und Störfaktoren auszuschalten. Gelingt es, kausale Propositionen zu fundieren, sprechen wir von der Identifizierbarkeit kausaler Effekte und Mechanismen (GK7b). Dieses Unterkriterium der Designangemessenheit gilt nur für kausalanalytisch orientierte Studien.

Als Maßstab der Diskussion gilt das experimentelle Design. Um Drittvariableneinflüsse auszuschalten, wird dort das Treatment den Versuchspersonen in randomisierter Weise zugewiesen. Der kausale Effekt im kontrafaktischen Sinne ergibt sich als Differenz zwischen Experimental- und Kontrollgruppe (Shadish et al. 2002: Kap. 1). In nichtexperimentellen „Beobachtungsdesigns“, etwa der Surveyforschung, müssen hingegen „natürlich gewachsene“ Fälle untersucht werden. Kausale Schlüsse sind primär dadurch gefährdet, dass Fälle sich selbstläufig und in nicht zufälliger Weise in bestimmte Treatments selektieren und dass die mutmaßliche Wirkung dieser Treatments deshalb mit anderen Einflüssen konfundiert sein kann. In einer Identifikationsanalyse wird aufgezeigt, welche Annahmen zur Erfassung eines Kausaleffektes erforderlich sind und inwieweit sie als erfüllt gelten können (Keele 2015: 102 f.). Dies macht geeignete Strategien der Drittvariablenkontrolle und der Elimination von Heterogenität nötig (vgl. Cook & Campbell 1986; Gangl 2010; Elwert 2013). Diese Anforderung gilt gleichermaßen für quantitative und qualitative Studien, die Kausalschlüsse anstreben.

In nichtexperimentellen quantitativen Studien hängt die Identifizierbarkeit kausaler Effekte häufig an der adäquaten Auswahl der Kontrollvariablen für die statistische Analyse. Es ist hilfreich, mittels grafischer theoretischer Modelle (z. B. Directed Acyclic Graphs, DAG) die Kontrollvariablen herzuleiten, die für die unverzerrte Schätzung relevant sind (Pearl 2009: 65 ff.; Kohler et al. 2023). Sollen Theorien überprüft oder gegeneinander getestet werden, empfiehlt sich im Sinne der analytischen Präzision (GK5c), die Implikationen zu benennen, an denen sie zu unterschiedlichen Vorhersagen kommen (Braun 2008; Opp 2014: Kap. 8).

In der qualitativ-komparativen Forschung werden kausalanalytische Ansprüche primär über die designbasierte Fallauswahl gesteuert. Variation wird erzeugt, indem gezielt nach Fällen mit bestimmten Werten auf der abhängigen Variablen, den unabhängigen Variablen oder beidem gesucht wird, etwa mit der Differenz- oder Konkordanzmethode (Mill 1873 [1843]; Rohlfing 2012: Kap. 3). Die Differenzmethode folgt der Idee eines natürlichen Experiments, in dem das Treatment und das Outcome zwischen den Fällen variieren, während alle anderen Variablen konstant gehalten werden (Gerring & McDermott 2007). Da ein Experiment nur nachgebildet wird, ist durch Verfahren der Prozessanalyse („process tracing“) zu prüfen, ob das Treatment eine eigenständige Kausalwirkung entfaltet (Rohlfing 2012: Kap. 7). So verknüpft Skocpol (1979) bei der Erklärung sozialer Revolutionen Mills Differenzmethode, seine Methode der Kovariation und fallinterne Prozessanalysen zu einer überzeugenden Erklärung (vgl. Mahoney 1999). Generell stellen Prozessanalysen eine Möglichkeit dar, die Wirksamkeit sozialer Mechanismen dingfest zu machen (vgl. Nullmeier 2021).

Diese und verwandte Methoden, wie die Qualitative Comparative Analysis (QCA; vgl. Ragin 1987, 2000; Schneider & Wagemann 2010), werden in der deutschsprachigen Soziologie bisher selten angewendet (Buche & Siewert 2015). Sie könnten der qualitativen Sozialforschung insgesamt helfen, Fallauswahlen und erklärende Perspektiven zu systematisieren. Denn auch in der qualitativ-interpretativen Forschung werden in erheblichem Ausmaß Ursache-Wirkungspropositionen formuliert, wenngleich eine harte Kausalterminologie meist gemieden wird (Abend et al. 2013). Aktuell dominiert dort die Idee des theoretischen Sampling, bei dem im Laufe des Forschungsprojektes anhand des erwarteten theoretischen Mehrwerts über die nächsten auszuwählenden Fälle entschieden wird, bis eine theoretische Sättigung erreicht ist (Glaser & Strauss 1967). Der iterative Auswahlprozess bleibt aber in vielen Studien intransparent, so dass die Plausibilität der Ergebnisse mitunter schwierig zu beurteilen ist (Grunenberg 2007).

Forschungsdesigns werden nicht nur nach ihrer internen, sondern auch der externen Validität beurteilt (Campbell 1957; Shadish et al. 2002: 83–93). Ursprünglich fragte das Kriterium danach, ob laborexperimentell erzielte Befunde auf andere Settings übertragen werden können. Dieses Verständnis wurde in zweifacher Weise auf die nichtexperimentelle Forschung erweitert. Von Interesse ist zum einen, ob von einem geschätzten Kennwert (z. B. Mittelwert) in einer Stichprobe untersuchter Fälle auf den Parameter in der zu Grunde liegenden Population geschlossen werden kann. Zum anderen lässt sich fragen, ob die im Untersuchungskontext erzielten Befunde auf andere Kontexte (z. B. Organisationen oder räumliche Einheiten) übertragbar („transportierbar“) sind (Findley et al. 2021: 369 f.).

Generalisierungsansprüche müssen nicht zwingend erhoben werden. Singuläre Ereignisse, die von herausgehobener Bedeutung sind, können analysiert werden, ohne die Resultate verallgemeinern zu wollen. Ob eine Generalisierung beansprucht wird oder nicht, sollte jedoch explizit diskutiert werden, um Missverständnisse bei der Rezeption der Studie zu vermeiden. Die Offenlegung, Begründung und Plausibilität von Generalisierungsansprüchen ist daher ein weiteres Gütekriterium (GK8). Wir verstehen es als eine weite Auslegung des Konzepts der externen Validität.

Um in frequentistischen statistischen Analysen von einer Stichprobe auf die zu Grunde liegende Population zu schließen, stellt die Zufallsauswahl von Fällen seit langem das anerkannteste Vorgehen dar, sofern eine hinreichend große Fallzahl untersuchbar ist. Um mit Umfragedaten auf eine Population zu generalisieren, reicht es angesichts sinkender Response Rates jedoch nicht mehr aus, die Zielpersonen zufällig auszuwählen; die Befragung muss auch ohne inhaltlich bedeutenden Selektionsbias realisiert werden (vgl. Groves et al. 2009; Schnell 2019). Lediglich anhand weniger quotierter soziodemografischer Variablen, die in Stichprobe und Population identisch verteilt sind, zu behaupten, es handele sich um eine „repräsentative“ Stichprobe, ist wissenschaftlich unseriös.

In der qualitativen Forschung wird eine kleine Anzahl von Fällen idealerweise bewusst – nicht willkürlich – ausgewählt (vgl. Seawright & Gerring 2008). In der Forschungspraxis bleibt jedoch häufig unausgesprochen, für was die untersuchten Fälle oder Kontexte stehen, ob die Ergebnisse generalisiert werden sollen und wenn ja, auf welche Population. Ein solcher Anspruch muss sorgfältig begründet werden und die Forschung hat dafür bisher keine breit akzeptierten Strategien hervorgebracht. Das Forschungsdesign sollte zunächst Randbedingungen („scope conditions“) benennen, die erfüllt sein müssen, damit ein Fall zur Population gehört (Walker & Cohen 1985). Beispielsweise wurde das Phänomen des demokratischen Friedens, demzufolge zwei Demokratien keine bewaffneten Konflikte miteinander führen, meist auf die Zeit seit dem 19. Jahrhundert bis zur Gegenwart bezogen. Es gibt aber Hinweise, dass diese Proposition nur für die Periode zwischen 1918 und 1989 gilt, weil die von den USA gestützte hierarchische Ordnung eine zentrale Randbedingung zu sein scheint (McDonald 2015). Im zweiten Schritt ist zu diskutieren, wofür Generalisierungen beansprucht werden: für die Untersuchungseinheiten, Treatments, Outcomes, Kontexte, Zeit und/oder Mechanismen (vgl. Findley et al. 2021). So wird in Teilen der qualitativ-interpretativen Forschung unter Generalisierung vor allem die Freilegung grundlegender Mechanismen, Muster oder Typiken verstanden (Przyborski & Wohlrab-Sahr 2008: Kap. 6; Small 2009). Zwar ist die Ermittlung solcher Regularitäten ein wertvolles Ergebnis, doch bleiben die Bedingungen ihrer Übertragbarkeit auf andere Kontexte oft unterspezifiziert. Die Plausibilität von Generalisierungsansprüchen hängt stark von theoretisch begründeten und empirisch fundierten Fallauswahlstrategien ab und kann letztlich nur durch Replikation von Studien in anderen Kontexten überprüft werden (Lucas 2003; Varese 2022).

9 Datenerhebung, Datenanalyse und Unsicherheit empirischer Ergebnisse

Eng verknüpft mit dem Forschungsdesign sind die Datenerhebung und, sobald die Daten vorliegen, ihre Auswertung. Unser nächstes Bündel von Gütekriterien betrifft daher die Angemessenheit der Methodenwahl (GK9) für die Datenerhebung (GK9a) und Datenanalyse (GK9b). Worauf in einer Studie methodisch im Detail zu achten ist, kann angesichts der Vielzahl an Erhebungs- und Analysemethoden und ihrer Verfahrensregeln nicht verallgemeinernd festgelegt werden. Die Güte des Methodeneinsatzes ist jedoch immer danach zu beurteilen, ob in Auseinandersetzung mit dem Stand der Methodenforschung geeignete Techniken gewählt (GK2) und intersubjektiv nachvollziehbar angewendet werden (GK1).

Wenden wir uns zunächst der Datenerhebung zu, so ist bei der Projektplanung zu klären, ob in einschlägigen Archiven geeignete Daten existieren, um die Forschungsfrage mit einer Sekundäranalyse gehaltvoll zu bearbeiten. Erweist es sich als notwendig, Primärdaten zu erheben, so gilt es eine umfangreiche Forschungsliteratur zur Datenerhebung zu beachten. Im Fall standardisierter Interviews betrifft dies Erkenntnisse zu Befragungsmodi, Skalierungsverfahren und vorhandenen Skalen, Prinzipien der Fragebogenkonstruktion sowie zum Umgang mit Nonresponse und Fehlerquellen im Interview (vgl. Schnell 2019).

Wurde die Designangemessenheit sichergestellt (GK7), eine für die Generalisierungsansprüche geeignete Fallauswahl getroffen (GK8) und die Datenerhebung erfolgreich umgesetzt (GK9a), sind die zentralen Voraussetzungen für eine hohe Datenqualität erfüllt. Obwohl die Datenqualität häufig bei der Beurteilung empirischer Studien angeführt wird, konzipieren wir sie nicht als eigenständiges Gütekriterium, weil sie aus der Realisierung der drei genannten Gütekriterien abgeleitet werden kann. Die Datenqualität ist wiederum eine notwendige Bedingung dafür, dass die Ergebnisse der Datenanalyse aussagekräftig sind.

Für hochwertige Ergebnisse müssen zudem die Datenanalysemethoden angemessen und regelgeleitet angewendet werden (GK9b). Die Angemessenheit einer Methode richtet sich nach dem Erkenntnisinteresse und den vorliegenden Daten. Folgt man in kausal orientierten statistischen Analysen dem Dreischritt aus Festlegung, Identifikation und Schätzung des Estimands (Lundberg et al. 2021), bezieht sich das Gütekriterium auf die Wahl eines passenden Schätzverfahrens. Es muss geeignet sein, die Identifikationsstrategie (GK7b) zu implementieren, um eine unverzerrte Schätzung des in der Forschungsfrage präzisierten Estimands zu erhalten.

Wurden alle Kriterien zur Sicherung einer hohen Datenqualität erfüllt (GK7, GK8, GK9a) und die Datenanalysen adäquat ausgeführt (GK9b), sollten die Ergebnisse das interessierende Phänomen gut abbilden. Dennoch sind die Schlussfolgerungen gemäß den Prämissen der analytisch-empirischen Soziologie immer mit Unsicherheit behaftet. Wir halten es daher für geboten, selbstkritische Aussagen zur Belastbarkeit der erzielten Ergebnisse zu machen. Darauf richtet sich das Gütekriterium der Darstellung der Unsicherheit der Ergebnisse (GK10). Eine Studie ist dann von hoher Güte, wenn sie gründlich über die Unsicherheit der Interpretationen und Schlüsse reflektiert, Zweifel an der Belastbarkeit der Ergebnisse so weit wie möglich datengestützt oder argumentativ ausräumt und verbleibende Quellen der Unsicherheit offen kommuniziert (King et al. 1994: 8 f.).

Im Falle statistischer Analysen kann Unsicherheit auf zwei Quellen beruhen, nämlich einerseits der Stichprobe und Datenbasis, andererseits der Modellierung (Young & Holsteen 2017: 4–6). Sofern Forschung auf einer Auswahl (d. h. keiner Vollerhebung) von Fällen beruht, sollte dargestellt werden, inwieweit die erzielten Ergebnisse von dieser Stichprobe abhängen könnten. Wir sprechen dann von der Darstellung der stichprobenbasierten Unsicherheit (GK10a). In der Statistik ist die hierfür prominenteste Maßzahl der Standardfehler des Schätzers bzw. die statistische Signifikanz.[13] Bei der Interpretation der statistischen Signifikanz sollte immer auch die Effektstärke einbezogen werden, da Effekte bei großen Fallzahlen zwar statistisch signifikant, aber substanziell wenig relevant sein können (Wasserstein & Lazar 2016; Imbens 2021). Die resultierenden Konfidenzintervalle sind nur dann gute Schätzer der Unsicherheit eines Parameters, wenn die Modellannahmen des angewandten Schätzverfahrens gültig sind. Auch kommen alternative Verfahren in Betracht, z. B. die nicht-parametrische Ableitung der Standardfehler (Wager & Athey 2018).

Neben der Angabe der stichprobenbasierten Unsicherheit ist eine Darstellung der Robustheit der Ergebnisse (GK10b) gegenüber alternativen Modellierungen empfehlenswert (Young & Holsteen 2017). So sind in statistischen Analysen oftmals Drittvariablen zu kontrollieren, um unverzerrte Schätzer zu erhalten. Zwar sollte die Wahl von Kontrollvariablen theoriegeleitet erfolgen, doch nicht immer ist die Auswahl eindeutig begründbar. In diesem Fall sind Robustheitsanalysen mit verschiedenen Kontrollvariablen-Sets durchzuführen, die bewusst definiert (z. B. Gerhards et al. 2021) oder automatisiert generiert werden (z. B. Muñoz & Young 2018). Auch andere Modellierungsentscheidungen – etwa Codiervarianten, der Umgang mit fehlenden Werten, die Abgrenzung der Analysestichprobe und das Datenanalyseverfahren – sind begründungsbedürftig und können bei Unsicherheit Robustheitsanalysen unterworfen werden (Auspurg & Brüderl 2021).

Aus unserer Sicht lassen sich diese Gütekriterien zur Dokumentation der Unsicherheit auf die qualitative Sozialforschung übertragen. Bei Studien mit kleinen Fallzahlen sollte die für die Fragestellung relevante Variation des Samples schon im Forschungsdesign vorgesehen werden (vgl. Abschnitt 8). Ein zentrales Problem der qualitativ-komparativen Forschung besteht darin, dass sich die Identifikation notwendiger und hinreichender Bedingungen eines Ergebnisses durch Ein- bzw. Ausschluss einzelner Fälle entscheidend verändern kann (vgl. Thiem et al. 2016). Der Umgang mit solchen kritischen Fällen ist unbedingt zu erörtern. In der qualitativ-interpretativen Forschung wird empfohlen, im Zuge des theoretischen Sampling gezielt nach kontrastiven oder abweichenden Fällen zu suchen, um die vorläufige Theoriebildung auf die Probe zu stellen (Flick 2019: 482). Darzustellen ist, wie dieser Sampling-Prozess ablief. In der historischen und ethnografischen Forschung sollte dokumentiert werden, in welchem Umfang das existente Quellenmaterial zur Fundierung der Ergebnisse genutzt wurde und welche Erkenntnislücken nicht geschlossen werden konnten. Die in vielen Ethnografien angeführte Aufenthaltsdauer der Forschenden im Feld lässt sich als Anhaltspunkt für die Erschließung des Gegenstandes verstehen, ersetzt aber nicht die genaue Dokumentation. Eine gut reflektierte Dokumentation des Sampling- und Datenerhebungsprozesses führt zu einer überzeugenderen Darstellung der stichprobenbasierten Unsicherheit (GK10a).

Die Robustheit der Ergebnisse (GK10b) wird in der qualitativ-komparativen Forschung in Anlehnung an quantitative Standards diskutiert. Problematisiert werden etwa Einflüsse unberücksichtigter Variablen und der Verzicht auf Messfehlerannahmen (Lieberson 1991). Für die QCA gibt es neuerdings Vorschläge, Unsicherheiten bei Kalibrierungs- und anderen Spezifikationsfragen in Form von „sensitivity ranges” zu kommunizieren (Oana & Schneider 2021). In der qualitativ-interpretativen Sozialforschung bezieht sich Robustheit auf die Frage, welche Unsicherheiten sich bei der Ausarbeitung der Konzepte, Typologien oder Theorien auf der Grundlage der Daten ergeben. Dieses Gütekriterium geht weiter als das der Interpretationsreliabilität (GK6b), das sich auf die Verankerung einzelner theoretischer Konzepte in den Daten bezieht. Die Robustheit zielt auf die Eindeutigkeit von Konzepten und Typologien und deren Vernetzung zu einer Theorie. Da auch hier subjektive Interpretationen und Probleme des „going native“ zu hinterfragen sind, empfehlen sich erneut Verfahren der Gruppeninterpretation: Die Diskussion verschiedener Interpretationsmöglichkeiten im Kreis der Forschenden kann Unsicherheit sichtbar machen und reduzieren (Reichertz 2013). Wird kein Konsens erzielt, sollte die verbleibende Unsicherheit berichtet werden. So sollten abweichende Muster dargestellt werden, wenn sich Fälle nicht klar in eine Typologie einordnen lassen. Transparent zu machen ist auch, welche Selektivitäten vorliegen, wenn ein Teil der verfügbaren Fälle in Ergebnisdarstellungen unberücksichtigt bleibt.[14]

Erneut ist daran zu erinnern, dass die Ergebnisse einer Studie zur besseren Beurteilung ihrer Robustheit Reproduktionsversuchen mit alternativen Modellierungen bzw. Interpretationsverfahren unterworfen werden können (vgl. Abschnitt 5).

10 Publikation von Forschungsergebnissen

Das abschließende Gütekriterium bezieht sich auf die Qualität der Darstellung (GK11), mit der der Forschungsprozess und die erzielten Ergebnisse in einer wissenschaftlichen Publikation berichtet werden. Dabei sollten nach Möglichkeit alle Empfehlungen umgesetzt werden, die wir zu den Gütekriterien 1 bis 10 formuliert haben. Eine präzise und relevante Forschungsfrage (GK3) soll entlang eines roten Fadens mit klarer Argumentation (GK1a und 4) stringent abgearbeitet und am Ende informativ, ausgewogen und unter Angabe von Unsicherheit (GK10) beantwortet werden. Befunde, die den Hypothesen widersprechen, sind genauso berichtenswert wie erwartete Befunde.[15] Sowohl die Konzeption der Studie als auch die Interpretation der Ergebnisse sind mit früherer Forschung zu verknüpfen (GK2). Theorie und Empirie sollen systematisch verzahnt sein (GK5 und 6). Das Forschungsdesign, die Methoden der Datenerhebung und -analyse und die empirischen Ergebnisse sind detailliert und nachvollziehbar zu beschreiben (GK7 bis 9). Um die erforderliche Transparenz herzustellen (GK1b), empfiehlt sich oft ein Online-Anhang. In einer „Data Note“ sollte erläutert werden, wo die Materialien, Codes und Daten für Replikationen verfügbar sind (GK1c). Die Publikation soll in ein Fazit münden, das Anschlussforschung stimuliert und dem kumulativen Erkenntnisfortschritt dient (GK2). Eine ausführliche Liste mit Empfehlungen für die konkrete Umsetzung in quantitativen Arbeiten bietet die Academy of Sociology (2020a).[16]

11 Schlussfolgerungen

In diesem Beitrag haben wir aus einer analytisch-empirischen Perspektive zwei Basiskriterien und neun Kernkriterien mit mehreren Spezifikationen als Orientierungs- und Beurteilungsmaßstäbe für die soziologische Forschung entwickelt. Der Kriterienkatalog ist in Tabelle 1 zusammenfassend dargestellt. Dadurch dass der gesamte Forschungsprozess in den Blick gerät und die Gütekriterien auf unterschiedlichste Arbeiten anwendbar sind, lässt sich damit ein größeres Forschungsspektrum beurteilen, als es die meisten Kriterienkataloge erlauben: empirische und theoretische Beiträge, beschreibende und erklärende Fragestellungen sowie quantitative, qualitativ-komparative und -interpretative Studien. Wir treten damit der von Strübing et al. (2018: 97) wahrgenommenen „messtechnischen Verkürzungen der Gütekriterien standardisierter Forschung“ entgegen und zeigen, dass sich aus der analytisch-empirischen Soziologie ein umfassendes Set an Kriterien entwickeln lässt. Es ist hervorzuheben, dass nicht jede Forschungsfrage die Beachtung aller Gütekriterien erfordert. Beispielsweise sollte eine rein deskriptive Studie nicht danach beurteilt werden, ob sie kausale Schlussfolgerungen ermöglicht oder zum Test erklärender Theorien beiträgt. Umso wichtiger ist es aber, die Zielsetzungen einer Studie vor dem Hintergrund des Forschungsstandes klar zu benennen, damit das Ausmaß der Zielerreichung beurteilt werden kann. Jede Arbeit sollte auch mögliche Anschlussforschung mitdenken. So sollte eine Theoriearbeit reflektieren, wie die Theorie empirisch geprüft werden kann. Es sei angefügt, dass Wissenschaft selten unter Idealbedingungen stattfindet, dass die Daten meist suboptimal sind und dass oft auch pragmatische Entscheidungen zu treffen sind. Man kann deshalb nicht erwarten, dass die Gütekriterien immer vollumfänglich erfüllbar sind. Auch die Rückschau auf unsere eigenen Publikationen zeugt davon.

Wir denken, dass die Prämissen der analytisch-empirischen Soziologie, aus denen die Gütekriterien entwickelt wurden, nicht übermäßig restriktiv sind, so dass ein großer Teil soziologischer Forschung damit beurteilbar ist. Es gibt aber zweifellos auch Positionen, die diese Prämissen und Gütekriterien nicht teilen, etwa weil sie eine andere Wirklichkeitsauffassung vertreten oder weil sie ihre Programmatik aus gesellschaftspolitischen Zielen ableiten. Solche Alternativpositionen sind aufgefordert, ihrerseits Gütekriterien zu entwickeln, damit diese auf ihre Kohärenz und ihre Überschneidung mit anderen Katalogen diskutiert werden können. Wir haben unsererseits verschiedene Qualitätsdiskurse gesichtet, insbesondere diejenigen in der qualitativ-interpretativen Sozialforschung. Dabei wurde deutlich, dass etablierte Gütekriterien, etwa die der Konstruktvalidität und Reliabilität, sehr wohl auf qualitative Studien angewendet werden können und dass sich vermeintliche Alternativkriterien oftmals als neue Bezeichnungen äquivalenter Ansprüche entpuppen. Bemerkenswert ist dies gerade deshalb, weil manche Forschende wie etwa Steinke (1999: 82) argumentieren, dass Gütekriterien aus der Tradition des kritischen Rationalismus nicht übernommen werden könnten, weil die qualitative Sozialforschung in anderen Methodologien wie dem Konstruktivismus wurzele. Unsere Darstellung zeigt aber, dass viele der von Steinke konstruktivistisch begründeten Kriterien ein Pendant in der analytisch-empirischen Soziologie haben, auch wenn sie je nach Methodik unterschiedlich umzusetzen sein mögen. Auch die von Strübing et al. (2018: 84) „aus den Grundhaltungen und Maximen qualitativer Forschung“ entwickelten Vorschläge widersprechen nicht grundlegend unserer Taxonomie an Gütekriterien, die wir allerdings als umfassender, feingliedriger und präziser erachten. Im zitierten Aufsatz wird zum Beispiel der Dialog zwischen Theorie und Empirie relativ vage als „Verhältnis wechselseitiger Irritation“ charakterisiert (Strübing et al. 2018: 93). Damit wird einem begriffsorientierten Theorieverständnis Vorschub geleistet, das sich mit „theoretischen Perspektivierungen“ und „pointierten Konzeptentwicklungen“ begnügt (ebd.). Demgegenüber liegt das Spezifikum analytisch-empirischer Soziologie in der konsequenten Ausrichtung des Forschungsprozesses auf einen kumulativen Wissensfortschritt durch intersubjektiv nachvollziehbare Theorieentwicklung und methodisch rigorose Forschung, in deren Zentrum die Entwicklung informationshaltiger Propositionen und die Identifikation von Kausalzusammenhängen stehen.

Tab. 1:

Gütekriterien der analytisch-empirischen Soziologie

Gütekriterium

Leitfrage und Unterkriterien

1. Intersubjektive Nachvollziehbarkeit

Ist die Forschungsarbeit für andere Forschende transparent und nachvollziehbar und für Replikationen zugänglich?

1a) Präzise Sprache und klare Argumentation

1b) Transparenz des Forschungsablaufs

1c) Offenheit der Materialien, Daten und Codes

2. Auseinandersetzung mit dem Forschungsstand

Wie gut wird die Arbeit in Auseinandersetzung mit dem Forschungsstand der Soziologie und anderer Disziplinen begründet?

3. Qualität der Forschungsfrage

Wie präzise ist die Forschungsfrage formuliert und wie relevant ist ihre Beantwortung für Wissenschaft und Gesellschaft?

3a) Präzise Formulierung

3b) Wissenschaftliche Relevanz: Originalität; Replikation

3c) Gesellschaftliche Relevanz

4. Klarheit der Konzepte und Kohärenz des Aussagensystems

Wie klar werden die Konzepte und wie kohärent die Struktur des theoretischen Aussagensystems spezifiziert?

4a) Klare Definition von Konzepten

4b) Logisch kohärente und widerspruchsfreie Struktur des Aussagensystems

5. Erklärungskraft der Theorie

Wie erklärungskräftig ist die spezifizierte Theorie?

5a) Informationsgehalt

5b) Angabe kausaler Mechanismen

5c) Analytische Präzision: Ableitbarkeit von Implikationen

5d) Prüfbarkeit

5e) Empirische Bewährung

6. Konzept-Indikator-Korrespondenz

Wie gut werden Konzepte und Indikatoren miteinander verbunden?

6a) Konstruktvalidität

6b) Reliabilität: Mess- bzw. Interpretationsreliabilität

7. Designangemessenheit (interne Validität)

Wird ein Forschungsdesign entwickelt, mit dem die Forschungsfrage und die Theorie angemessen untersucht werden können?

7a) Abbildung relevanter Variation in den Daten

7b) Identifizierbarkeit kausaler Effekte und Mechanismen

8. Plausibilität von Generalisierungsansprüchen

(externe Validität)

Werden Generalisierungsansprüche offengelegt und begründet, und wie plausibel sind sie?

9. Methodenangemessenheit

Werden die Daten mit geeigneten und dem Forschungsstand entsprechenden Methoden erhoben und analysiert?

9a) Angemessenheit der Datenerhebungsmethoden

9b) Angemessenheit der Datenanalysemethoden

10. Darstellung der Unsicherheit der Ergebnisse

Wie gründlich werden Unsicherheiten der empirischen Ergebnisse kommuniziert?

10a) Darstellung der stichprobenbasierten Unsicherheit

10b) Darstellung der Robustheit der Ergebnisse

11. Darstellungsqualität der Publikation

Werden der Forschungsprozess und die Ergebnisse detailliert und leicht nachvollziehbar dargestellt und in den Forschungsstand eingeordnet?

Der Vorteil unseres Gütekriterienkataloges besteht darin, dass Forschungsleistungen, die sich unterschiedlichster Methoden bedienen, nach grundlegend einheitlichen Maßstäben beurteilt werden können. Die Einigung auf übergreifende Qualitätsmaßstäbe erleichtert die gegenseitige Wahrnehmung von Forschungsleistungen in zunehmend ausdifferenzierten Forschungsfeldern und im besten Fall die Zusammenarbeit von Forschenden unterschiedlicher Provenienz. Selbstverständlich sind alle Forschenden inhaltlich, methodisch bzw. theoretisch in bestimmter Weise spezialisiert. Dieses Spezialwissen ist bei der Beurteilung wissenschaftlicher Leistungen auch dann gefragt, wenn ein Konsens über integrative Gütekriterien besteht. Solche Expertise ist erforderlich, wenn beurteilt werden muss, ob die Identifikation einer Forschungslücke gelungen ist, ob der relevante Forschungsstand berücksichtigt wurde oder ob komplexe Datenanalysen adäquat durchgeführt wurden. Die Beurteilung der grundlegenden Forschungsqualität sollte indes innerhalb großer Teile des Fachs auf einheitliche Weise möglich sein. Wir hoffen mit dem vorgelegten Kriterienkatalog einen Beitrag dafür zu leisten.

Dieser Katalog wurde auf der Basis unserer langjährigen Erfahrungen mit der Durchführung eigener Forschungsprojekte und mit Qualitätsbeurteilungen wissenschaftlicher Manuskripte und Forschungsanträge im Peer Review-Verfahren entwickelt. Er wurde bisher aber noch nicht systematisch auf seine Praktikabilität geprüft. Ein nächster Schritt könnte darin bestehen, einzelne Gütekriterien oder den gesamten Katalog auf eine Stichprobe von Publikationen unterschiedlicher Provenienz anzuwenden.

About the authors

Gunnar Otte

Gunnar Otte, geb. 1971 in Celle. Studium der Sozialwissenschaften mit Schwerpunkt Soziologie an den Universitäten Hannover, Mannheim und Bloomington, Indiana (USA). Promotion in Mannheim, Habilitation an der FU Berlin. Von 1998–2003 wissenschaftlicher Mitarbeiter an der Universität Mannheim; von 2003–2008 wissenschaftlicher Mitarbeiter an der Universität Leipzig; von 2008–2011 wissenschaftlicher Assistent an der Universität Zürich; von 2011–2014 Professor für Methoden der empirischen Sozialforschung an der Philipps-Universität Marburg; seit 2014 Professor für Sozialstrukturanalyse an der Johannes Gutenberg-Universität Mainz.

Forschungsschwerpunkte: Soziale Ungleichheit, Kultursoziologie, Kunstsoziologie, Methoden der empirischen Sozialforschung, erklärende Soziologie.

Wichtigste Publikationen: Sozialstrukturanalysen mit Lebensstilen. Eine Studie zur theoretischen und methodischen Neuorientierung der Lebensstilforschung, Wiesbaden, 2004. Programmatik und Bestandsaufnahme einer empirisch-analytischen Kunstsoziologie. Sociologia Internationalis 50: 115–143 (2012). Was ist Kultur und wie sollen wir sie untersuchen? Entwurf einer sozialwissenschaftlichen Sozialstruktur- und Kulturanalyse. In: Julia Böcker et al. (Hrsg.): Zum Verhältnis von Empirie und kultursoziologischer Theoriebildung. Stand und Perspektiven. Weinheim: 74–104 (2018). Zuletzt in dieser Zeitschrift: Ein Blick in die Black Box des Review-Verfahrens. ZfS 48: 1–5 (2019).

Tim Sawert

Tim Sawert, geb. 1986 in Kaiserslautern. Studium der Soziologie an den Universitäten Mannheim, Utrecht (Niederlande) und der Freien Universität Berlin. Promotion an der Universität Potsdam. Von 2013–2017 wissenschaftlicher Mitarbeiter an der Universität Potsdam; von 2017–2021 wissenschaftlicher Mitarbeiter an der Freien Universität Berlin; seit 2021 wissenschaftlicher Mitarbeiter an der Johannes Gutenberg-Universität Mainz.

Forschungsschwerpunkte: Soziale Ungleichheit, Kultursoziologie, Migration und Integration, Methoden der empirischen Sozialforschung.

Wichtigste Publikationen: Latente Mechanismen sozialer Hierarchisierung. Die Wahl alter Sprachen als Reproduktionsmechanismus des Bildungsbürgertums, Wiesbaden (2018). Understanding the Mechanisms of Ethnic Discrimination: A Field Experiment on Discrimination against Turks, Syrians and Americans in the Berlin Shared Housing Market. Journal of Ethnic and Migration Studies 46: 3937–3954 (2020). Control Variable Selection in Applied Quantitative Sociology: A Critical Review. European Sociological Review [im Veröffentlichungsprozess] (2023, mit Ulrich Kohler & Fabian Class). Zuletzt in dieser Zeitschrift: The Cultural Dimension of the Globalization Divide. Do Lifestyle Signals affect Cosmopolitans’ Willingness to Interact? ZfS 51: 263–277 (2022, mit Rasmus Ollroge).

Josef Brüderl

Josef Brüderl, geb. 1960 in Fridolfing/Obb. Studium der Soziologie und Volkswirtschaftslehre in München. Promotion an der LMU München 1990. Von 1987–1997 wissenschaftlicher Mitarbeiter in München, Chicago und Bern. Habilitation an der Universität Bern 1997. Von 1998–2011 Professor für Statistik und sozialwissenschaftliche Methodenlehre an der Universität Mannheim. Seit 2011 Professor für Soziologie an der LMU München.

Forschungsschwerpunkte: Paneldatenmethoden, Familienforschung, Meta-Science.

Wichtigste Publikationen: Is there a Male Marital Wage Premium? American Sociological Review 83: 744–770 (2018, mit Volker Ludwig). Has the Credibility of the Social Sciences Been Credibly Destroyed? Socius 7:1–14 (2021, mit Katrin Auspurg). Zuletzt in dieser Zeitschrift: Der Effekt der Erwerbstätigkeit von Frauen auf die Fertilität, ZfS 37: 117–136 (2008, mit Jette Schröder).

Stefanie Kley

Stefanie Kley, geb. 1971 in Mannheim. Studium der Sozialökonomie und Soziologie in Hamburg. Promotion und Habilitation in Bremen. Von 2003–2009 wissenschaftliche Mitarbeiterin an der Universität Bremen; von 2009–2011 wissenschaftliche Mitarbeiterin an der Universität Hamburg; von 2011–2015 Professurvertretung an der Universität Hamburg; 2015/16 wissenschaftliche Mitarbeiterin an der Universität Oldenburg; seit 2016 Professorin für Soziologie, insb. Ökologisierung und quantitative Methoden der Sozialforschung an der Universität Hamburg.

Forschungsschwerpunkte: Räumliche Mobilität und Migration, Effekte der Wohnumgebung, soziale Differenzierung im Lebensverlauf und zwischen sozialen Klassen.

Wichtigste Publikationen: Explaining the Stages of Migration within a Life-course Framework. European Sociological Review 27: 469–486 (2011). Facilitators and Constraints at each Stage of the Migration Process. Population Studies 71 (S1): 35–49 (2017). Intergenerational Transmission of Housing Choice: The Relevance of Green Spaces for Moving into a Family House across Social Class. Population, Space and Place: e2299 (2020, mit Anna Stenpaß). How a Lack of Green in the Residential Environment lowers the Life Satisfaction of City Dwellers and increases their Willingness to relocate. Sustainability 13: 3984 (2021, mit Tetiana Dovbishchuk). Zuletzt in dieser Zeitschrift: Gefährdet Pendelmobilität die Stabilität von Paarbeziehungen? Einflüsse von Erwerbskonstellationen und Haushaltsarrangements in Ost- und Westdeutschland auf die Trennungswahrscheinlichkeit von Paaren. ZfS 41: 356–374 (2012).

Clemens Kroneberg

Clemens Kroneberg, geb. 1980 in Darmstadt. Studium der Sozialwissenschaften an den Universitäten Heidelberg und Mannheim. Promotion in Mannheim. Von 2004–2010 wissenschaftlicher Mitarbeiter und von 2011–2013 Juniorprofessor für Soziologische Theorie an der Universität Mannheim; seit 2013 Professor für Soziologie an der Universität zu Köln.

Forschungsschwerpunkte: Soziale Grenzziehungen und Diversität, Kriminalität und Delinquenz, soziale Netzwerke, Handlungstheorie.

Wichtigste Publikationen: Analytic Criminology: Mechanisms and Methods in the Explanation of Crime and its Causes. Annual Review of Criminology 5: 179–220 (2022, mit Per-Olof H. Wikström). More than a Sorting Machine: Ethnic Boundary Making in a Stratified School System. American Journal of Sociology 125: 431–484 (2019, mit Hanno Kruse). Struggling over the Boundaries of Belonging. A Formal Model of Nation Building, Ethnic Closure, and Populism. American Journal of Sociology 118: 176–230 (2012, mit Andreas Wimmer). Rational Choice Theory and Empirical Research. Methodological and Theoretical Contributions in Europe. Annual Review of Sociology 38: 73–92 (2012, mit Frank Kalter). Zuletzt in dieser Zeitschrift: Ethnic Discrimination in the German Housing Market. ZfS 47: 134–146 (2018, mit Andreas Horr und Christian Hunkler).

Ingo Rohlfing

Ingo Rohlfing promovierte 2007 an der Jacobs University in Bremen in Political Science und hat seit Oktober 2022 den Lehrstuhl für Methoden der empirischen Sozialforschung an der Universität Passau inne. In seiner Forschung befasst er sich mit der Transparenz und Glaubwürdigkeit von Forschungsergebnissen in den Sozialwissenschaften und der Entwicklung qualitativer und quantitativer Methoden sowie von Mixed-Methods-Designs. Mehr Informationen: https://orcid.org/0000-0001-8715-4771

Literatur

Abend, G., 2008: The Meaning of „Theory“. Sociological Theory 26: 173–199.10.1111/j.1467-9558.2008.00324.xSearch in Google Scholar

Abend, G., C. Petre & M. Sauder, 2013: Styles of Causal Thought: An Empirical Investigation. American Journal of Sociology 119: 602–654.10.1086/675892Search in Google Scholar

Academy of Sociology, 2020a: Checklist for Quantitative Social Science Articles. (https://osf.io/mw59u/; Abruf am 2.12.2022)Search in Google Scholar

Academy of Sociology, 2020b: Guidelines on the Provision and Handling of Research Data in Sociology. (https://osf.io/xbr4v; Abruf am 2.12.2022)10.31235/osf.io/xbr4vSearch in Google Scholar

Adcock, R. & D. Collier, 2001: Measurement Validity: A Shared Standard for Qualitative and Quantitative Research. American Political Science Review 95: 529–546.10.1017/S0003055401003100Search in Google Scholar

Albert, G., 2020: Kumulative Erkenntnis in einer realistischen Soziologie. Zeitschrift für Theoretische Soziologie 9: 4–31.Search in Google Scholar

Albert, H., 1982: Die Wissenschaft und die Fehlbarkeit der Vernunft. Tübingen: Mohr.Search in Google Scholar

Angrist, J.D. & J.-S. Pischke, 2009: Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton: Princeton University Press.10.1515/9781400829828Search in Google Scholar

Auspurg, K. & J. Brüderl, 2021: Has the Credibility of the Social Sciences been Credibly Destroyed? Reanalyzing the „Many Analysts, One Data Set“ Project. Socius: Sociological Research for a Dynamic World 7: 1–14.10.1177/23780231211024421Search in Google Scholar

Auspurg, K. & J. Brüderl, 2022: How to Increase Reproducibility and Credibility of Sociological Research. S. 512–527 in: K. Gërxhani, N.D. de Graaf & W. Raub (Hrsg.), Handbook of Sociological Science: Contributions to Rigorous Sociology. Cheltenham: Edward Elgar.10.4337/9781789909432.00037Search in Google Scholar

Auspurg, K., T. Hinz & A. Schneck, 2014: Ausmaß und Risikofaktoren des Publication Bias in der deutschen Soziologie. Kölner Zeitschrift für Soziologie und Sozialpsychologie 66: 549–573.10.1007/s11577-014-0284-3Search in Google Scholar

Baur, N., U. Kelle & U. Kuckartz, 2017: Mixed Methods – Stand der Debatte und aktuelle Problemlagen. Kölner Zeitschrift für Soziologie und Sozialpsychologie 69, Sonderheft 57: 1–37.10.1007/s11577-017-0450-5Search in Google Scholar

Bennett, A. & J.T. Checkel (Hrsg.), 2014: Process Tracing. From Metaphor to Analytic Tool. Cambridge: Cambridge University Press.10.1017/CBO9781139858472Search in Google Scholar

Blumer, H., 1954: What is Wrong with Social Theory? American Sociological Review 19: 3–10.10.4324/9781315129945-8Search in Google Scholar

Bollen, K.A., 1989: Structural Equations with Latent Variables. New York: Wiley.10.1002/9781118619179Search in Google Scholar

Bowen, G.A., 2006: Grounded Theory and Sensitizing Concepts. International Journal of Qualitative Methods 5: 12–23.10.1177/160940690600500304Search in Google Scholar

Brady, H.E. & D. Collier (Hrsg.), 2010: Rethinking Social Inquiry. Diverse Tools, Shared Standards. Second Edition. Lanham: Rowman & Littlefield.Search in Google Scholar

Brandt, P. & S. Timmermans, 2021: Abductive Logic of Inquiry for Quantitative Research in the Digital Age. Sociological Science 8: 191–210.10.15195/v8.a10Search in Google Scholar

Braun, N., 2008: Theorie in der Soziologie. Soziale Welt 59: 373–395.10.5771/0038-6073-2008-4-373Search in Google Scholar

Breidenstein, G., S. Hirschauer, H. Kalthoff & B. Nieswand, 2013: Ethnografie. Die Praxis der Feldforschung. Konstanz: UVK.10.36198/9783838539799Search in Google Scholar

Breznau, N., 2021: Does Sociology Need Open Science? Societies 11 (1): 9. (https://doi.org/10.3390/soc11010009)10.3390/soc11010009Search in Google Scholar

Buche, J. & M.B. Siewert, 2015: Qualitative Comparative Analysis (QCA) in der Soziologie. Perspektiven, Potentiale und Anwendungsbereiche. Zeitschrift für Soziologie 44: 386–406.10.1515/zfsoz-2015-0602Search in Google Scholar

Bühner, M., 2004: Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium.Search in Google Scholar

Bunge, M., 1996: Finding Philosophy in Social Science. New Haven: Yale University Press.Search in Google Scholar

Bunge, M., 1997: Mechanism and Explanation. Philosophy of the Social Sciences 27: 410–465.10.1177/004839319702700402Search in Google Scholar

Calderón Gómez, C., 2009: Assessing the Quality of Qualitative Health Research: Criteria, Process and Writing. Forum Qualitative Sozialforschung 10: Art. 17.Search in Google Scholar

Campbell, D.T., 1957: Factors Relevant to the Validity of Experiments in Social Settings. Psychological Bulletin 54: 297–312.10.4324/9781315129945-23Search in Google Scholar

Campbell, D.T. & D.W. Fiske, 1959: Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix. Psychological Bulletin 56: 81–105.10.1037/h0046016Search in Google Scholar

Campbell, D.T. & J.C. Stanley, 1963: Experimental and Quasi-Experimental Designs for Research on Teaching. S. 171–246 in: N.L. Gage (Hrsg.), Handbook of Research on Teaching. Chicago: McNally.Search in Google Scholar

Chan, T.W., 2019: Understanding Social Status: A Reply to Flemmen, Jarness and Rosenlund. British Journal of Sociology 70: 867–881.10.1111/1468-4446.12628Search in Google Scholar

Christensen, G., J. Freese & E. Miguel, 2019: Transparent and Reproducible Social Science Research. How to do Open Science. Oakland: University of California Press.10.1525/9780520969230Search in Google Scholar

Cook, T.D. & D.T. Campbell, 1986: The Causal Assumptions of Quasi-Experimental Practice. Synthese 68: 141–180.10.1007/BF00413970Search in Google Scholar

Creswell, J.W., 1998: Qualitative Inquiry and Research Design. Choosing among Five Traditions. Thousand Oaks: Sage.Search in Google Scholar

Cronbach, L.J. & P.E. Meehl, 1955: Construct Validity in Psychological Tests. Psychological Bulletin 52: 281–302.10.1037/h0040957Search in Google Scholar

DFG [Deutsche Forschungsgemeinschaft], 2019: Leitlinien zur Sicherung guter wissenschaftlicher Praxis. Kodex. Bonn: DFG. (https://doi.org/10.5281/zenodo.3923602)Search in Google Scholar

Diekmann, A., 2011: Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. 5. Auflage der vollständig überarbeiteten und erweiterten Neuausgabe 2007. Reinbek: Rowohlt.Search in Google Scholar

Döring, N. & J. Bortz, 2016: Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften. 5. vollständig überarbeitete, aktualisierte und erweiterte Auflage. Berlin: Springer.10.1007/978-3-642-41089-5Search in Google Scholar

Durkheim, E., 1984 [1895]: Die Regeln der soziologischen Methode. Frankfurt am Main: Suhrkamp.Search in Google Scholar

Eisewicht, P. & T. Grenz, 2018: Die (Un)Möglichkeit allgemeiner Gütekriterien in der Qualitativen Forschung – Replik auf den Diskussionsanstoß zu „Gütekriterien qualitativer Forschung“ von Jörg Strübing, Stefan Hirschauer, Ruth Ayaß, Uwe Krähnke und Thomas Scheffer. Zeitschrift für Soziologie 47: 364–373.10.1515/zfsoz-2018-0123Search in Google Scholar

Elwert, F., 2013: Graphical Causal Models. S. 245–273 in: S.L. Morgan (Hrsg.), Handbook of Causal Analysis for Social Research. Dordrecht: Springer.10.1007/978-94-007-6094-3_13Search in Google Scholar

Esser, H., 2004: Does the „New“ Immigration Require a „New“ Theory of Intergenerational Integration? International Migration Review 38: 1126–1159.10.1111/j.1747-7379.2004.tb00231.xSearch in Google Scholar

Findley, M.G., K. Kikuta & M. Denly, 2021: External Validity. Annual Review of Political Science 24: 365–393.10.1146/annurev-polisci-041719-102556Search in Google Scholar

Flemmen, M.P., V. Jarness & L. Rosenlund, 2019: Class and Status. On the Misconstrual of the Conceptual Distinction and a Neo-Bourdieusian Alternative. British Journal of Sociology 70: 816–866.10.1111/1468-4446.12508Search in Google Scholar

Flick, U., 2011: Triangulation. Eine Einführung. 3., aktualisierte Auflage. Wiesbaden: Springer VS.Search in Google Scholar

Flick, U., 2019: Gütekriterien qualitativer Sozialforschung. S. 473–488 in: N. Baur & J. Blasius (Hrsg.), Handbuch Methoden der empirischen Sozialforschung. 2., vollständig überarbeitete und erweiterte Auflage. Wiesbaden: Springer VS.10.1007/978-3-658-21308-4_33Search in Google Scholar

Fossey, E., C. Harvey, F. McDermott & L. Davidson, 2002: Understanding and Evaluating Qualitative Research. Australian and New Zealand Journal of Psychiatry 36: 717–732.10.1046/j.1440-1614.2002.01100.xSearch in Google Scholar

Friedrichs, J., M.R. Lepsius & K.U. Mayer, 1998: Diagnose und Prognose in der Soziologie. Kölner Zeitschrift für Soziologie und Sozialpsychologie, Sonderheft 38: 9–31.10.1007/978-3-322-83327-3_1Search in Google Scholar

Fuhse, J.A., 2022: How Can Theories Represent Social Phenomena? Sociological Theory 40: 99–123.10.1177/07352751221087719Search in Google Scholar

Gadenne, V., 2003: Wirklichkeit, Bewusstsein und Erkenntnis. Zur Aktualität von Moritz Schlicks Realismus. Rostock: Koch.Search in Google Scholar

Gangl, M., 2010: Causal Inference in Sociological Research. Annual Review of Sociology 36: 21–47.10.1146/annurev.soc.012809.102702Search in Google Scholar

Gerhards, J., U. Kohler & T. Sawert, 2021: Educational Expansion, Social Class, and Choosing Latin as a Strategy of Distinction. Zeitschrift für Soziologie 50: 306–321.10.1515/zfsoz-2021-0021Search in Google Scholar

Gerring, J., 2012a: Social Science Methodology. A Unified Framework. Second Edition. Cambridge: Cambridge University Press.10.1017/CBO9781139022224Search in Google Scholar

Gerring, J., 2012b: Mere Description. British Journal of Political Science 42: 721–746.10.1017/S0007123412000130Search in Google Scholar

Gerring, J. & R. McDermott, 2007: An Experimental Template for Case Study Research. American Journal of Political Science 51: 688–701.10.1111/j.1540-5907.2007.00275.xSearch in Google Scholar

Glaser, B.G. & A.L. Strauss, 1967: The Discovery of Grounded Theory: Strategies for Qualitative Research. New Brunswick: Aldine.10.1097/00006199-196807000-00014Search in Google Scholar

Goertz, G. & J. Mahoney, 2012: A Tale of Two Cultures. Qualitative and Quantitative Research in the Social Sciences. Princeton: Princeton University Press.10.23943/princeton/9780691149707.001.0001Search in Google Scholar

Goldthorpe, J.H., 2007: On Sociology. Volume 1: Critique and Program. Second Edition. Stanford: Stanford University Press.10.1515/9781503624795Search in Google Scholar

Groves, R.M., F.J. Fowler, Jr., M.P. Couper, J.M. Lepkowski, E. Singer & R. Tourangeau, 2009: Survey Methodology. Second Edition. Hoboken: Wiley.Search in Google Scholar

Grunenberg, H., 2007: Empirische Befunde zur Qualität qualitativer Sozialforschung. Resultate einer Analyse von Zeitschriftenartikeln. S. 210–226 in: U. Kuckartz, H. Grunenberg & T. Dresing (Hrsg.), Qualitative Datenanalyse: computergestützt. Methodische Hintergründe und Beispiele aus der Forschungspraxis. 2., überarbeitete und erweiterte Auflage. Wiesbaden: Springer VS.10.1007/978-3-531-90665-2_13Search in Google Scholar

Heath, A. & J. Martin, 1997: Why are there so few Formal Measuring Instruments in Social and Political Research? S. 71–86 in: L. Lyberg, P. Biemer, M. Collins, E. de Leeuw, C. Dippo, N. Schwarz & D. Trewin (Hrsg.), Survey Measurement and Process Quality. New York: Wiley.10.1002/9781118490013.ch3Search in Google Scholar

Hedström, P., 2008: Anatomie des Sozialen. Grundlagen der Analytischen Soziologie. Wiesbaden: Springer VS.Search in Google Scholar

Hedström, P. & P. Ylikoski, 2010: Causal Mechanisms in the Social Sciences. Annual Review of Sociology 36: 49–67.10.1146/annurev.soc.012809.102632Search in Google Scholar

Hempel, C.G. & P. Oppenheim, 1948: Studies in the Logic of Explanation. Philosophy of Science 15: 135–175.10.1086/286983Search in Google Scholar

Hirschauer, S., 2021: Ungehaltene Dialoge. Zur Fortentwicklung soziologischer Intradisziplinarität. Soziologie 50: 46–65.Search in Google Scholar

Hirschauer, S., J. Strübing, R. Ayaß, U. Krähnke & T. Scheffer, 2019: Von der Notwendigkeit ansatzübergreifender Gütekriterien. Eine Replik auf Paul Eisewicht und Tilo Grenz. Zeitschrift für Soziologie 48: 92–95.10.1515/zfsoz-2019-0006Search in Google Scholar

Hopf, C., 1996: Hypothesenprüfung und qualitative Sozialforschung. S. 9–21 in: R. Strobl & A. Böttger (Hrsg.), Wahre Geschichten? Zu Theorie und Praxis qualitativer Interviews. Baden-Baden: Nomos.10.1007/978-3-658-11482-4_7Search in Google Scholar

Imbens, G.W., 2021: Statistical Significance, p-Values, and the Reporting of Uncertainty. Journal of Economic Perspectives 35: 157–174.10.1257/jep.35.3.157Search in Google Scholar

Jacobs, A.M., T. Büthe et al., 2021: The Qualitative Transparency Deliberations: Insights and Implications. Perspectives on Politics 19: 171–208.10.1017/S1537592720001164Search in Google Scholar

Jæger, M.M., 2022: Cultural Capital and Educational Inequality: An Assessment of the State of the Art. S. 121–134 in: K. Gërxhani, N.D. de Graaf & W. Raub (Hrsg.), Handbook of Sociological Science: Contributions to Rigorous Sociology. Cheltenham: Edward Elgar.10.4337/9781789909432.00015Search in Google Scholar

Jansen, T., 2019: Gütekriterien in der qualitativen Sozialforschung als Form der Reflexion und Kommunikation. Eine Replik auf die Beiträge von Strübing et al. und Eisewicht & Grenz. Zeitschrift für Soziologie 48: 321–325.10.1515/zfsoz-2019-0022Search in Google Scholar

Joas, H. & W. Knöbl, 2004: Sozialtheorie. Zwanzig einführende Vorlesungen. Frankfurt am Main: Suhrkamp.Search in Google Scholar

Kalter, F. & C. Kroneberg, 2014: Between Mechanism Talk and Mechanism Cult: New Emphases in Explanatory Sociology and Empirical Research. Kölner Zeitschrift für Soziologie und Sozialpsychologie 66 (Sonderheft 54): 91–115.10.1007/s11577-014-0272-7Search in Google Scholar

Keele, L., 2015: The Discipline of Identification. PS: Political Science & Politics 48: 102–106.10.1017/S1049096514001826Search in Google Scholar

Kelle, U. & S. Kluge, 2010: Vom Einzelfall zum Typus. Fallvergleich und Fallkontrastierung in der qualitativen Sozialforschung. 2., überarbeitete Auflage. Wiesbaden: Springer VS.10.1007/978-3-531-92366-6Search in Google Scholar

King, G., R.O. Keohane & S. Verba, 1994: Designing Social Inquiry. Scientific Inference in Qualitative Research. Princeton: Princeton University Press.10.1515/9781400821211Search in Google Scholar

Kirk, J. & M.L. Miller, 1986: Reliability and Validity in Qualitative Research. Beverly Hills: Sage.10.4135/9781412985659Search in Google Scholar

Knoblauch, H., 2021: Symposion Forschungsdateninfrastruktur. Soziologie 50: 430–472.Search in Google Scholar

Kohler, U., F. Class & T. Sawert, 2023: Control Variable Selection in Applied Quantitative Sociology: A Critical Review. European Sociological Review (in press).10.1093/esr/jcac078Search in Google Scholar

Krebs, D. & N. Menold, 2019: Gütekriterien quantitativer Sozialforschung. S. 489–504 in: N. Baur & J. Blasius (Hrsg.), Handbuch Methoden der empirischen Sozialforschung. 2., vollständig überarbeitete und erweiterte Auflage. Wiesbaden: Springer VS.10.1007/978-3-658-21308-4_34Search in Google Scholar

Kreuzer, M., 2019: The Structure of Description. Evaluating Descriptive Inferences and Conceptualizations. Perspectives on Politics 17: 122–139.10.1017/S1537592718001068Search in Google Scholar

Kroneberg, C., 2008: Methodologie statt Ontologie. Das Mikro-Makro-Modell als einheitlicher Bezugsrahmen der akteurstheoretischen Soziologie. S. 222–247 in: J. Greve, A. Schnabel & R. Schützeichel (Hrsg.), Das Mikro-Makro-Modell der soziologischen Erklärung. Zur Ontologie, Methodologie und Metatheorie eines Forschungsprogramms. Wiesbaden: Springer VS.10.1007/978-3-531-91774-0_9Search in Google Scholar

Kroneberg, C., 2011: Die Erklärung sozialen Handelns. Grundlagen und Anwendung einer integrativen Theorie. Wiesbaden: Springer VS.10.1007/978-3-531-93144-9Search in Google Scholar

Kroneberg, C., 2019: Theory Development in Comparative Social Research. Kölner Zeitschrift für Soziologie und Sozialpsychologie 71 (Sonderheft 59): 29–51.10.1007/s11577-019-00604-ySearch in Google Scholar

Kuckartz, U., 2012: Qualitative Inhaltsanalyse. Methoden, Praxis, Computerunterstützung. Weinheim: Beltz Juventa.Search in Google Scholar

Lamont, M., 1987: How to Become a Dominant French Philosopher: The Case of Jacques Derrida. American Journal of Sociology 93: 584–622.10.1086/228790Search in Google Scholar

Lamont, M., 1992: Money, Morals, and Manners. The Culture of the French and American Upper-Middle Class. Chicago: University of Chicago Press.10.7208/chicago/9780226922591.001.0001Search in Google Scholar

Lieberson, S., 1991. Small N’s and Big Conclusions: An Examination of the Reasoning in Comparative Studies Based on a Small Number of Cases. Social Forces 70:307–320.10.4135/9780857024367.d15Search in Google Scholar

Lieberson, S. & J. Horwich, 2008: Implication Analysis. A Pragmatic Proposal for Linking Theory and Data in the Social Sciences. Sociological Methodology 38: 1–50.10.1111/j.1467-9531.2008.00199.xSearch in Google Scholar

Lincoln, Y.S. & E.G. Guba, 1985: Naturalistic Inquiry. Newbury Park: Sage.10.1002/9781405165518.wbeosn006Search in Google Scholar

Lord, F.M. & M.R. Novick, 1968: Statistical Theories of Mental Test Scores. Reading: Addison-Wesley.Search in Google Scholar

Lucas, J.W., 2003: Theory-Testing, Generalization, and the Problem of External Validity. Sociological Theory 21: 236–253.10.1111/1467-9558.00187Search in Google Scholar

Lundberg, I., R. Johnson & B.M. Stewart, 2021: What is your Estimand? Defining the Target Quantity Connects Statistical Evidence to Theory. American Sociological Review 86: 532–565.10.1177/00031224211004187Search in Google Scholar

Machamer, P., L. Darden & C.F. Craver, 2000: Thinking about Mechanisms. Philosophy of Science 67: 1–25.10.1086/392759Search in Google Scholar

Madill, A., A. Jordan & C. Shirley, 2000: Objectivity and Reliability in Qualitative Analysis: Realist, Contextualist and Radical Constructionist Epistemologies. British Journal of Psychology 91: 1–20.10.1348/000712600161646Search in Google Scholar

Mahoney, J., 1999: Nominal, Ordinal, and Narrative Appraisal in Macrocausal Analysis. American Journal of Sociology 104: 1154–1196.10.1086/210139Search in Google Scholar

Manzo, G., 2014: Data, Generative Models, and Mechanisms: More on the Principles of Analytical Sociology. S. 4–52 in G. Manzo (Hrsg.), Analytical Sociology: Actions and Networks. New York: Wiley.10.1002/9781118762707.ch01Search in Google Scholar

McDonald, P., 2015: Great Powers, Hierarchy, and Endogenous Regimes: Rethinking the Domestic Causes of Peace. International Organization 69: 557–588.10.1017/S0020818315000120Search in Google Scholar

Merton, R.K., 1945: Sociological Theory. American Journal of Sociology 50: 462–473.10.1086/219686Search in Google Scholar

Merton, R.K., 1973: The Sociology of Science: Theoretical and Empirical Investigations. Chicago: University of Chicago Press.10.1063/1.3128814Search in Google Scholar

Merton, R.K., 1987: Three Fragments from a Sociologist’s Notebooks: Establishing the Phenomenon, Specified Ignorance, and Strategic Research Materials. Annual Review of Sociology 13: 1–28.10.1146/annurev.so.13.080187.000245Search in Google Scholar

Messick, S., 1995: Validity in Psychological Assessment. Validation of Inferences from Persons’ Responses and Performances as Scientific Inquiry into Score Meaning. American Psychologist 50: 741–749.10.1037/0003-066X.50.9.741Search in Google Scholar

Mill, J.S., 1873 [engl. 1843]: System der deductiven und inductiven Logik. Leipzig: Fues.Search in Google Scholar

Muñoz, J. & C. Young, 2018: We ran 9 Billion Regressions: Eliminating False Positives through Computational Model Robustness. Sociological Methodology 48: 1–33.10.1177/0081175018777988Search in Google Scholar

Murphy, A.K., C. Jerolmack & D. Smith, 2021: Ethnography, Data Transparency, and the Information Age. Annual Review of Sociology 47: 41–61.10.1146/annurev-soc-090320-124805Search in Google Scholar

Nullmeier, F., 2021: Kausale Mechanismen und Process Tracing. Perspektiven der qualitativen Politikforschung. Frankfurt am Main: Campus.Search in Google Scholar

Oana, I.-E. & C.Q. Schneider, 2021. A Robustness Test Protocol for Applied QCA: Theory and R Software Application. Sociological Methods & Research (online first).10.1177/00491241211036158Search in Google Scholar

Oevermann, U., T. Allert, E. Kronau & J. Krambeck, 1979: Die Methodologie einer „objektiven Hermeneutik“ und ihre allgemeine forschungslogische Bedeutung in den Sozialwissenschaften. S. 352–434 in: H.-G. Soeffner (Hrsg.), Interpretative Verfahren in den Sozial- und Textwissenschaften. Stuttgart: Metzler.10.1007/978-3-476-03120-4_19Search in Google Scholar

Opp, K.-D., 2014: Methodologie der Sozialwissenschaften. Einführung in Probleme ihrer Theorienbildung und praktischen Anwendung. 7., wesentlich überarbeitete Auflage. Wiesbaden: Springer VS.10.1007/978-3-658-01911-2Search in Google Scholar

Pearl, J., 2009: Causality. Models, Reasoning, and Inference. Second Edition. Cambridge: Cambridge University Press.10.1017/CBO9780511803161Search in Google Scholar

Popper, K.R., 1963: Conjectures and Refutations. The Growth of Scientific Knowledge. London: Routledge.10.1063/1.3050617Search in Google Scholar

Popper, K.R., 1994 [1934]: Logik der Forschung. 10., verbesserte und vermehrte Auflage. Tübingen: Mohr.Search in Google Scholar

Przyborski, A. & M. Wohlrab-Sahr, 2008: Qualitative Sozialforschung. Ein Arbeitsbuch. München: Oldenbourg.Search in Google Scholar

Ragin, C.C., 1987: The Comparative Method. Moving Beyond Qualitative and Quantitative Strategies. Berkeley: University of California Press.Search in Google Scholar

Ragin, C.C., 2000: Fuzzy-Set Social Science. Chicago: University of Chicago Press.Search in Google Scholar

Raub, W., N.D. de Graaf & K. Gërxhani, 2022: Rigorous Sociology. S. 2–19 in: K. Gërxhani, N.D. de Graaf & W. Raub (Hrsg.), Handbook of Sociological Science: Contributions to Rigorous Sociology. Cheltenham: Edward Elgar.10.4337/9781789909432.00007Search in Google Scholar

Reckwitz, A., 2004: Die Entwicklung des Vokabulars der Handlungstheorien: Von den zweck- und normorientierten Modellen zu den Kultur- und Praxistheorien. S. 303–328 in: M. Gabriel (Hrsg.), Paradigmen der akteurszentrierten Soziologie. Wiesbaden: Springer VS.Search in Google Scholar

Reichertz, J., 2013: Gemeinsam interpretieren. Die Gruppeninterpretation als kommunikativer Prozess. Wiesbaden: Springer VS.10.1007/978-3-658-02534-2Search in Google Scholar

Rohlfing, I., 2012: Case Studies and Causal Inference: An Integrative Framework. Basingstoke: Palgrave Macmillan.10.1057/9781137271327Search in Google Scholar

Rosa, H., D. Strecker & A. Kottmann, 2018: Soziologische Theorien. 3., aktualisierte Auflage. Konstanz: UVK.10.36198/9783838549927Search in Google Scholar

Schneider, C.Q. & C. Wagemann, 2010: Standards of Good Practice in Qualitative Comparative Analysis (QCA) and Fuzzy Sets. Comparative Sociology 9: 397–418.10.1163/156913210X12493538729793Search in Google Scholar

Schnell, R., 2019: Survey-Interviews. Methoden standardisierter Befragungen. 2. Auflage. Wiesbaden: Springer VS.10.1007/978-3-531-19901-6Search in Google Scholar

Schnell, R., P.B. Hill & E. Esser, 2011: Methoden der empirischen Sozialforschung. 9., aktualisierte Auflage. München: Oldenbourg.Search in Google Scholar

Seawright, J. & J. Gerring, 2008: Case Selection Techniques in Case Study Research: A Menu of Qualitative and Quantitative Options. Political Research Quarterly 61: 294–308.10.1177/1065912907313077Search in Google Scholar

Shadish, W.R., T.D. Cook & D.T. Campbell, 2002: Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin.Search in Google Scholar

Skocpol, T., 1979: States and Social Revolutions: A Comparative Analysis of France, Russia, and China. Cambridge: Cambridge University Press.10.1017/CBO9780511815805Search in Google Scholar

Small, M.L., 2009: „How many Cases Do I Need?“ On Science and the Logic of Case Selection in Field-based Research. Ethnography 10: 5–38.10.1177/1466138108099586Search in Google Scholar

Sperber, D., 2010: The Guru Effect. Review of Philosophy and Psychology 1: 583–592.10.1007/s13164-010-0025-0Search in Google Scholar

Steinke, I., 1999. Kriterien qualitativer Forschung. Ansätze zur Bewertung qualitativ-empirischer Sozialforschung. Weinheim: Juventa.Search in Google Scholar

Strübing, J., 2014: Grounded Theory. Zur sozialtheoretischen und epistemologischen Fundierung eines pragmatistischen Forschungsstils. 3., überarbeitete und erweiterte Auflage. Wiesbaden: Springer VS.10.1007/978-3-531-19897-2Search in Google Scholar

Strübing, J., S. Hirschauer, R. Ayaß, U. Krähnke & T. Scheffer, 2018: Gütekriterien qualitativer Sozialforschung. Ein Diskussionsanstoß. Zeitschrift für Soziologie 47: 83–100.10.1515/zfsoz-2018-1006Search in Google Scholar

Swedberg, R., 2020: Exploratory Research. S. 17–41 in: C. Elman, J. Gerring & J. Mahoney (Hrsg.), The Production of Knowledge. Enhancing Progress in Social Science. Cambridge: Cambridge University Press.10.1017/9781108762519.002Search in Google Scholar

Swedberg, R., 2021: How Do You Establish the Research Object in Sociology? S. 9–23 in: H. Leiulfsrud & P. Sohlberg (Hrsg.), Constructing Social Research Objects. Leiden: Brill.10.1163/9789004450028_003Search in Google Scholar

Thiem, A., R. Spöhel & A. Duşa, 2016: Enhancing Sensitivity Diagnostics for Qualitative Comparative Analysis: A Combinatorial Approach. Political Analysis 24: 104–120.10.1093/pan/mpv028Search in Google Scholar

Thomann, E. & M. Maggetti, 2018: Designing Research with Qualitative Comparative Analysis (QCA): Approaches, Challenges, and Tools. Sociological Methods & Research 49: 356–386.10.1177/0049124117729700Search in Google Scholar

Tracy, S.J., 2010: Qualitative Quality: Eight „Big-Tent“ Criteria for Excellent Qualitative Research. Qualitative Inquiry 16: 837–851.10.1177/1077800410383121Search in Google Scholar

Turner, J.H., 1991: The Structure of Sociological Theory. Fifth Edition. Belmont: Wadsworth.Search in Google Scholar

Van Tubergen, F., 2020: Introduction to Sociology. London: Routledge.10.4324/9781351134958Search in Google Scholar

Varese, F., 2022: Rigorous Ethnography. S. 215–231 in: K. Gërxhani, N.D. de Graaf & W. Raub (Hrsg.), Handbook of Sociological Science: Contributions to Rigorous Sociology. Cheltenham: Edward Elgar.10.4337/9781789909432.00020Search in Google Scholar

Vaughan, D., 2009: Analytic Ethnography. S. 688–711 in: P. Hedström & P. Bearman (Hrsg.), The Oxford Handbook of Analytical Sociology. Oxford: Oxford University Press.Search in Google Scholar

Wager, S. & S. Athey, 2018: Estimation and Inference of Heterogeneous Treatment Effects using Random Forests. Journal of the American Statistical Association 113: 1228–1242.10.1080/01621459.2017.1319839Search in Google Scholar

Walker, H.A. & B.P. Cohen, 1985: Scope Statements. Imperatives for Evaluating Theory. American Sociological Review 50: 288–301.10.2307/2095540Search in Google Scholar

Wasserstein, R.L. & N.A. Lazar, 2016: The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician 70: 129–133.10.1080/00031305.2016.1154108Search in Google Scholar

Weber, M., 1904: Die „Objektivität“ sozialwissenschaftlicher und sozialpolitischer Erkenntnis. Archiv für Sozialwissenschaft und Sozialpolitik 19: 22–87.Search in Google Scholar

Weber, M., 1972 [1904]: Wirtschaft und Gesellschaft. Grundriss der verstehenden Soziologie. 5., revidierte Auflage. Tübingen: Mohr.Search in Google Scholar

Wicherts, J.M., C.L.S. Veldkamp, H.E.M. Augusteijn, M. Bakker, R.C.M. van Aert & M.A.L.M. van Assen, 2016: Degrees of Freedom in Planning, Running, Analyzing, and Reporting Psychological Studies: A Checklist to Avoid p-Hacking. Frontiers in Psychology 7: Article 1832.10.3389/fpsyg.2016.01832Search in Google Scholar

Wikström, P.-O.H. & C. Kroneberg, 2022: Analytic Criminology: Mechanisms and Methods in the Explanation of Crime and its Causes. Annual Review of Criminology 5: 179–203.10.1146/annurev-criminol-030920-091320Search in Google Scholar

Winter, G., 2000: A Comparative Discussion of the Notion of „Validity“ in Qualitative and Quantitative Research. The Qualitative Report 4: 1–14.10.46743/2160-3715/2000.2078Search in Google Scholar

Ylikoski, P., 2013: Causal and Constitutive Explanation Compared. Erkenntnis 78 (Supplement 2): 277–297.10.1007/s10670-013-9513-9Search in Google Scholar

Young, C. & K. Holsteen, 2017: Model Uncertainty and Robustness. A Computational Framework for Multimodel Analysis. Sociological Methods & Research 46: 3–40.10.1177/0049124115610347Search in Google Scholar

Published Online: 2023-02-18
Published in Print: 2023-03-31

© 2023 bei den Autorinnen und Autoren, publiziert von De Gruyter.

Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.

Downloaded on 25.3.2023 from https://www.degruyter.com/document/doi/10.1515/zfsoz-2023-2006/html
Scroll Up Arrow