Open Data: Die Zukunft der Forschung

Dieser Beitrag ist eine Reihe des Themenschwerpunkts Was wir (ver)erben, in dem wir uns aus verschiedenen wissenschaftlichen Perspektiven mit dem menschlichen Erbe auseinandersetzen.
Mehr Informationen über unser Projekt Wissenschaft findet ihr hier.

Forschungsprojekte haben in der Regel das Ziel, in einer Publikation zu enden. Der Prozess der Publikation kann somit als eine Art Ritual betrachtet werden, das den Abschluss eines Projekts markiert. Im besten Fall stellt eine Publikation ein Denkmal dar, das sowohl Wissen verewigt als auch die Anerkennung für die Arbeit der Forschenden schafft. Ähnlich verhält es sich mit Denkmälern berühmter Personen, die an das Wirken der Verewigten erinnern sollen.

Beide Arten von Denkmälern haben gemein, dass sie der Nachwelt etwas hinterlassen. Bei den menschlichen Denkmälern sind das neben einer materiellen Statue Andenken an die Person und deren Erkenntnisse über das Leben. Letztere werden auch in wissenschaftlichen Publikationen weitergegeben und unter den Verbliebenen, oft Forschende derselben oder einer ähnlichen Disziplin, heiß diskutiert. Doch Publikationen sind nur eine Möglichkeit, Wissen zu wahren und weiterzutragen. Mindestens ebenso wichtig sind die gewonnenen Forschungsdaten.

Open Data als gerechtes Erbe

Daten galten in den empirischen Wissenschaften als Währung, lange bevor sie von der Wirtschaft, in Form der sozialen Medien, als solche entdeckt wurden. Wie wichtig sie sind, können wir gut im Alltag beobachten. Sei es durch einen Blick in den Wetterbericht oder auf die letzte Sonntagsfrage, die darin präsentierten Zahlen basieren auf Daten, die manchmal mehr, manchmal weniger wissenschaftlich erhoben und aufbereitet werden.

Für Forschende, die ihre Daten nicht ins Grab mitnehmen oder hinter einer Paywall verstecken, sondern sie anderen Forschenden zur Verfügung stellen wollen, gibt es einige Möglichkeiten, diesem Ziel guter Wissenschaft nachzukommen. Durch den sogenannten Open-Data-Ansatz bekommen Forschende nicht nur Zugang zu Daten anderer, sie können auch ihre eigenen Daten der Öffentlichkeit zugänglich machen. Dieser Ansatz bringt viele Benefits mit sich, wie etwa leichtere Kooperation bei Forschungsprojekten oder eine bessere Sichtbarkeit der eigenen Forschung. Es gibt einige solcher Datenbanken, von denen wir euch im Folgenden ein paar ausgewählte vorstellen wollen.

Das Human Genome Project

Eines der ersten und zugleich aufsehenerregendsten Open Data Projekte war das Human Genome Project (deutsch Humangenomprojekt; HGP). Gegründet vom Nationalen Gesundheitsinstitut der Vereinigten Staaten hatte es zum Ziel, erstmals das menschliche Genom zu sequenzieren, sprich unsere DNA zu entschlüsseln. Umgesetzt wurde es von 1990 bis 2003 unter der Beteiligung von zwanzig verschiedenen Instituten weltweit. Die Ergebnisse des HGP trugen wesentlich dazu bei, die Biomedizin zu revolutionieren und legten den Grundstein für weiterführende genetische Forschungen.

Das Projekt ermöglichte aber nicht nur Fortschritte in der DNA-Sequenzierung, es förderte auch den offenen Umgang mit Daten in der Wissenschaft. Besonders beachtlich sind die Errungenschaften in Anbetracht der Tatsache, dass das Internet und somit interkontinentale Kommunikation noch bei Weitem weniger ausgeprägt waren als heute. Der technologische Fortschritt in den folgenden Jahren brachte eine Vielzahl weiterer Lösungen für Open Data hervor.

Das Open Science Framework

Eine solche Lösung ist das Open Science Framework (OSF) der Non-Profit Organisation Center for Open Science (COS). Die Motivation hinter deren Gründung war, durch transparenten Umgang mit Daten und Forschungsmethoden Studien leichter replizieren zu können. Das bedeutet, Forscher:innen können überprüfen, ob sie mit den Datensätzen anderer zu den gleichen Schlüssen kommen.

Der offene Umgang mit Daten macht es zum einen viel schwerer, seine eigenen Ergebnisse zu manipulieren (wie etwa durch P-Hacking oder HARKing), zum anderen können Forschende die Daten von mehreren Studien zu einem gemeinsamen Datensatz vereinen und Metastudien durchführen. Diese Metastudien geben einen Überblick über den Forschungsstand eines gewissen Gebiets der Wissenschaft und haben den großen Vorteil, mehr Daten auszuwerten, als es einem einzelnen Forschungsteam zu generieren möglich wäre. Das OSF wird von Forschenden aus unterschiedlichen wissenschaftlichen Disziplinen genutzt und eine Registrierung der eigenen Studie in diesem ist in einigen prestigeträchtigen Journals mittlerweile Voraussetzung für eine Publikation.

P-Hacking

P-Hacking bezeichnet eine Praxis in der Statistik, bei der Forscher:innen Daten so manipulieren, dass ursprünglich nicht signifikante Ergebnisse signifikant erscheinen. Diese Vorgehensweise führt meist zu falsch-positiven wissenschaftlichen Ergebnissen (etwas nicht Existierendes wird „belegt“) und wird durch das Streben nach Veröffentlichungen in hochrangigen Journals und dem Druck, in großen Mengen zu publizieren, gefördert. Da es in der Wissenschaft geringe Anreize gibt, Studien zu replizieren, können solche irreführenden Ergebnisse lange unentdeckt bleiben und die zukünftige Forschung negativ beeinflussen.

HARKing

HARKing (Hypothesizing After the Results are Known; deutsch Hypothesen aufstellen, nachdem die Ergebnisse bekannt sind) ist wie das P-Hacking eine Praxis in der Statistik, um die Ergebnisse der eigenen Forschung besser dastehen zu lassen, als es durch gute wissenschaftliche Praxis vertretbar wäre. Hierbei werden Daten gesammelt, bevor eine Hypothese gebildet wird. Normalerweise sollte dieser Prozess in umgekehrter Reihenfolge stattfinden, um zu verhindern, dass die Hypothesen an die Daten angepasst werden können. Denn so wird es einfach, signifikante Ergebnisse zu finden - immerhin kann ich gezielt nach ihnen suchen. Eine weitere Form des HARKings besteht darin, Daten solange weiter zu sammeln, bis sie mit den Annahmen aus der Hypothese übereinstimmen.

Freie Daten für alle?

Es gibt eine Vielzahl weiterer frei zugänglicher Datenbanken, wie etwa die des CERN oder das Dataverse, entwickelt vom Institut für quantitative Sozialwissenschaften der Universität Harvard. Einige Anbieter von Datenbanken verfolgen jedoch kommerzielle Interessen. Ein bekanntes Beispiel hierfür ist die Plattform Statista. Auf dieser bekommt man Zugang zu allen erdenklichen Statistiken rund um den Globus, wie etwa die Entwicklung der CO2-Emissionen Maltas oder die Anzahl an Fitnessstudio-Abonnent:innen in Europa. Bevor ihr euch nun begeistert auf die Suche nach willkürlichen Statistiken macht, müssen wir leider etwas auf die Euphoriebremse treten, denn die meisten Statistiken verbergen sich hinter einer Paywall.

Wissenschaftler sitzt vor Laptop, verzweifelt, Gesicht in den Händen vergraben

Datensätze können sehr kostspielig sein und sind daher nicht allen Wissenschaftler:innen zugänglich. Das Betrifft besonders jene, die wenig finanzielle Ressourcen für ihre Forschung zur Verfügung haben

Statista lässt sich für den unlimitierten Zugang zu ihren Daten nämlich fürstlich entlohnen, beispielsweise kostet der 82-seitige Statistik Report zu Malta (der die oben erwähnte CO2-Bilanz enthält) 495 Euro. Forschungseinrichtungen müssen daher tief in die Taschen greifen, damit ihre Wissenschaftler:innen die Daten verwenden können. Das kann zu einem Ungleichgewicht von Informationen unter Wissenschafter:innen führen, da Institute unterschiedliche finanzielle Möglichkeiten haben. Derselbe Kritikpunkt lässt sich auch bei wissenschaftlichen Journals beobachten.

Die Bedeutsamkeit von Open Data als Erbe der Wissenschaft

Der freie Zugang zu Forschungsdaten ist ein Eckpfeiler der modernen Wissenschaft, der sowohl ihre Transparenz stärkt als auch die wissenschaftliche Diskussion fördert. Projekte wie das Human Genome Project und Plattformen wie das Open Science Framework haben gezeigt, wie wertvoll Open Data für die Weiterentwicklung von Wissen und Technologie ist. Allerdings bleibt der Zugang zu vielen Datenbanken durch finanzielle Hürden eingeschränkt, was zu Ungleichheit und Exklusivität von Forschung führen kann. Um echte Chancengleichheit in der Forschung zu gewährleisten, müssen noch viele Anstrengungen unternommen werden, um Daten barrierefrei zugänglich zu machen. Bei alexandria werden wir euch zumindest die aus Daten gewonnenen Erkenntnisse immer frei zugänglich machen.

Weiterführende Links

Human Genome Project
Center for Open Science
Datenbank CERN
Dataverse

Datenbanken: Das Erbe der Forschung

Open Data als gerechtes Erbe

Das Human Genome Project

Das Open Science Framework

Freie Daten für alle?

Die Bedeutsamkeit von Open Data als Erbe der Wissenschaft

Empfohlene Beiträge

Das Intensivinterview: Wissenschaft oder bloß Kaffeeklatsch?

Wie statistische Ausreißer Leben retten können

Schallforschung: Wie unser Gehör funktioniert

Autorinnenlisten: Das Beste kommt zum Schluss?

Neue Beiträge

Unter dem Ewigen Eis – wem gehören die letzten Ressourcen?

5 Fakten zu In-vitro-Fleisch

Lithium: Zwischen weißem Gold und grüner Transformation

Cookie-Einstellungen

Datenbanken: Das Erbe der Forschung

Open Data als gerechtes Erbe

Das Human Genome Project

Das Open Science Framework

Freie Daten für alle?

Die Bedeutsamkeit von Open Data als Erbe der Wissenschaft

Empfohlene Beiträge

Das Intensivinterview: Wissenschaft oder bloß Kaffeeklatsch?

Wie statistische Ausreißer Leben retten können

Schallforschung: Wie unser Gehör funktioniert

Autorinnenlisten: Das Beste kommt zum Schluss?

Neue Beiträge

Unter dem Ewigen Eis – wem gehören die letzten Ressourcen?

5 Fakten zu In-vitro-Fleisch

Lithium: Zwischen weißem Gold und grüner Transformation