Die Heilige Dreifaltigkeit der Forschung

Was macht eine gute Studie aus? In diesem Beitrag gehen wir der Frage nach und erklären dir, woran du gute Wissenschaft erkennen kannst! 

Warum das wichtig ist: In der Forschung sind genaue Messwerte wichtig für die Qualität einer Studie. Will ich beispielsweise mit einem Test die Intelligenz von Personen ermitteln, müssen die Ergebnisse aus dem Test gültig, unabhängig und verlässlich sein; in anderen Worten valide, objektiv und reliabel. Doch was bedeuten diese Bezeichnungen und wie können sie die Qualität einer Studie bestimmen? In diesem Beitrag aus der Kategorie Projekt Wissenschaft beleuchten wir die drei wichtigsten Gütekriterien empirischer Forschung und erklären sie anhand eines praktischen Beispiels, dem Intelligenztest.

Validität: Messe ich, was ich vorgebe zu messen?

Die Gültigkeit oder Richtigkeit einer Messung, auch Validität genannt, gibt an, ob ein Messinstrument tatsächlich das misst, was es messen soll. Das Kriterium ist dann erfüllt, wenn meine Forschungsfrage durch das Messinstrument angemessen beantwortet werden kann. Ein Messinstrument ist ein Mittel, das Beobachtungen in Daten überführt. Das kann beispielsweise ein Maßstab, ein Fragebogen oder der oben erwähnte Intelligenztest sein.

Ist das Kriterium nicht erfüllt, sind meine Ergebnisse nicht aussagekräftig. Es gibt eine Vielzahl an Möglichkeiten, die Validität meiner Messung zu prüfen. Eine der wichtigsten ist sicherzustellen, dass mein Messinstrument logisch und sinnvoll aufgebaut ist. In der Forschung wird dies als Inhaltsvalidität bezeichnet.
Alternativ können auch Expert:innen befragt werden, wie sie die Qualität eines Messinstruments beurteilen (Expert:innenvalidität).

Ein Beispiel dafür ist ein Test, der die Intelligenz der befragten Person messen soll. Die zentrale Frage in Bezug auf die Validität ist in diesem Beispiel, ob der Test tatsächlich Intelligenz oder doch etwas anderes misst. So kann es etwa vorkommen, dass ein 4-stündiger Test nicht (nur) die Intelligenz der befragten Person, sondern deren Konzentrationsfähigkeit misst. In diesem Fall kann ich keine direkten Rückschlüsse von den Ergebnissen meines Tests auf die Intelligenz der Studienteilnehmer:innen ziehen.

eine Zielscheibe mit drei Pfeilen

Treffen meine Methoden ins Schwarze? Das ist eine Frage der Validität

Objektivität: Kommen meine Kolleg:innen zu den
gleichen Ergebnissen?

Das zweite wichtige Gütekriterium ist die Objektivität. Unter ihr versteht man den Umstand, dass die Ergebnisse einer Studie unabhängig von den Personen, die die Messungen durchführen oder die Daten auswerten, gleichbleibend sind.
Eine Messung ist objektiv, wenn sie von verschiedenen Personen unabhängig voneinander durchgeführt wird und zu den gleichen Ergebnissen führt.
Unterschieden wird hierbei zwischen drei Arten von Objektivität:
Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjektivität.
In unserem Beispiel des Intelligenztests ist die Objektivität dann erfüllt, wenn er von verschiedenen Personen durchgeführt, ausgewertet und interpretiert werden kann.

Die Durchführungsobjektivität ist gegeben, wenn es keinen Unterschied macht, ob ich den Test vorlege oder ein:e Kolleg:in von mir. Das kann zum Beispiel gewährleistet werden, indem die Durchführung des Tests nach einem Ablaufprotokoll erfolgt. Sind diese Abläufe nicht standardisiert, können Ergebnisse, je nachdem wer den Test leitet, voneinander abweichen. Ein möglicher Grund dafür ist, das manche Testleiter:innen Zeitlimits strikter einhalten als andere.

Die Auswertungsobjektivität ist gewährleistet, wenn ich Regeln zur Auswertung der Ergebnisse festgelegt habe. So etwa muss im Vorhinein geklärt sein, ob es für teilweise richtige Antworten auch Teilpunkt gibt. Ist das nicht der Fall, können zwei Forscher:innen bei der Auswertung ein und desselben Tests zu unterschiedlich hohen Scores kommen.

Die Interpretationsobjektivität ist das wohl am schwierigsten zu gewährleistende Kriterium. Es beschreibt, dass unterschiedliche Personen bei der Betrachtung desselben Testergebnisses zu den gleichen Schlüssen kommen sollten. Überspitzt formuliert müssten also zum Beispiel ein:e Politikwissenschafler:in und ein:e Physiker:in bei der Betrachtung des Intelligenzquotienten einer Person zur gleichen Interpretation kommen, ob diese hoch-, durchschnittlich- oder unterbegabt ist.

Bei Intelligenztests ist das womöglich noch eher der Fall, da sie schon lange existieren (der erste moderne Intelligenztest wurde bereits 1905 von den beiden französischen Psychologen Alfred Binet und Théodore Simon entwickelt) und dementsprechend standardisiert wurden. Außerdem sind sie einer breiten Öffentlichkeit bekannt.

Bei anderen Konzepten, wie etwa Zufriedenheitswerten von Politiker:innen, ist die Interpretation stärker durch subjektive Einstellungen beeinflusst. Noch dazu kann die Interpretation von Ergebnissen von ihrer Darstellung abhängen, wie du auch in diesem alexandria erklärt nachlesen kannst.

die gleichen Ergebnisse

Objektiv ist meine Studie dann, wenn Kolleg:innen zu den gleichen Ergebnissen kommen

Reliabilität: Eine Frage der Replikation

Als drittes Gütekriterium gilt es, die Reliabilität meiner Forschung zu gewährleisten. Sie beschreibt die Zuverlässigkeit einer Studie. Eine Studie ist reliabel, wenn sie zu reproduzierbaren Ergebnissen führt, unabhängig davon, wer die Studie durchführt oder unter welchen Bedingungen sie durchgeführt wurde.

Die Reproduzierbarkeit von Ergebnissen ist ein Schlüsselelement und gleichzeitig ein Schwachpunkt in der Forschungslandschaft, speziell in den Sozialwissenschaften. Ein prominentes Beispiel hierfür sind die Many Labs Studien, die sich zur Aufgabe machten, bekannte Studien aus der Psychologie zu wiederholen, um zu kontrollieren, ob andere Forscher:innen zu denselben Ergebnissen kommen wie in den Originalstudien.

Die Many Labs Studien wurden nach standardisierter Vorgehensweise in Laboren, über die ganze Welt verteilt, durchgeführt. Ihre Ergebnisse sorgten für großen Aufruhr in der Wissenschaftscommunity, da einige bekannte Phänomene, wie etwa einige priming-Effekte (die Beeinflussung der Informationsverarbeitung aufgrund gezielter Reize) nicht bestätigt werden konnten und somit infrage gestellt werden mussten.

In unserem Beispiel des Intelligenztests müssen wir uns also die Frage stellen, ob dieser so designt ist, dass er vergleichbare Ergebnisse zu verschiedenen Zeitpunkten an verschiedenen Orten liefert. Dahinter steht die Annahme, dass Intelligenz überall auf der Welt gleich verteilt ist. Obwohl einige umstrittene Studien Unterschiede im IQ zwischen Bevölkerungsgruppen fanden, konnten sie nicht beweisen, dass die Herkunft der ausschlaggebende Faktor zur Intelligenzbildung ist. Eine viel größere Rolle spielen andere Faktoren wie Bildung und soziale Stigmatisierung.

Wenn ich meinen Intelligenztest so gestalte, dass der durchschnittliche Intelligenzquotient von Durchführungsort zu Durchführungsort unterschiedlich ist, liegt das vermutlich daran, dass mein Verständnis von Intelligenz von dem anderer Kulturen abweicht und nicht daran, dass unterschiedliche Kulturen unterschiedlich intelligent sind. Das hätte zur Folge, dass die Ergebnisse des Tests nicht in allen Gesellschaften aussagekräftig sind.

Nicht auf Perfektion, sondern auf
Gewissenhaftigkeit kommt es an

In der angewandten Forschung können Gütekriterien wie Validität, Objektivität und Reliabilität eine große Herausforderung darstellen. Es ist nahezu unmöglich, alle Kriterien gleich gut zu erfüllen, da sie teilweise in Konkurrenz zueinander stehen.

Hohe Objektivität kann mit einem Verlust von Validität einhergehen, wenn ich etwa sämtliche Umstände, unter denen ein Intelligenztest durchgeführt wird, minutiös in einem Labor kontrolliere. Es stellt sich dann die Frage, ob meine Ergebnisse auch in der „echten Welt“, mit all ihren Ablenkungen, halten würden. In diesem Fall spricht man von einem Verlust externer Validität.

Ein weiteres Problem besteht darin, dass die Anforderungen an Gütekriterien je nach Art der Forschung unterschiedlich sein können. So können qualitative Studien, die ihren Fokus auf Einzelfälle legen, andere Anforderungen an die Gütekriterien haben als quantitative Studien, deren Ziel es ist, möglichst viele Ergebnisse zu sammeln.

Insgesamt ist die Heilige Dreifaltigkeit aus Validität, Objektivität und Reliabilität unverzichtbar für gute Forschung. Wenn diese Kriterien ausreichend erfüllt sind, können wir von aussagekräftigen Ergebnissen sprechen. Allerdings sind bei der Anwendung dieser Kriterien einige Herausforderungen zu meistern.

Wichtig ist, sich als Forscher:in bewusst zu sein, dass man es nicht perfekt machen und alle Gütekriterien in vollem Ausmaß erfüllen kann. Mit höchster Gewissenhaftigkeit diesen Kriterien nachzugehen, sich bewusst zu sein, wo diese nicht zur Gänze erfüllt werden und das auch zu kommunizieren – das macht gute Forschung im Endeffekt aus.

Ritchie, S. J., & Tucker-Drob, E. M. (2018). How much does education improve
     intelligence? A meta-analysis. Psychological science, 29(8), 1358-1369.
Ogbu, J. U. (1979). Minority education and caste: The American system in cross-cultural
     perspective. Crisis, 86(1), 17-21.

Neue Beiträge