ausreisser

Forschende werden mit Ausreißern beinahe tagtäglich konfrontiert. Doch wie werden diese genau definiert, wie entstehen sie und welche Bedeutung haben sie? Hier findest du einen kleinen Leitfaden, wie du mit statistischen Ausreißern umgehen kannst.

Dieser Text ist Teil unseres Projekt Wissenschaft. Mehr Informationen dazu erhältst du hier.

Und täglich grüßt das Murmeltier: In beinahe jeder statistischen Auswertung tauchen urplötzlich Werte auf, die von den übrigen Daten so weit entfernt sind wie Eisbären von Pinguinen. Sie stechen aus der Menge heraus und ergeben häufig keinen Sinn.

Gerade wenn man am Anfang seiner Wissenschaftskarriere steht, können solche Ergebnisse überfordernd sein. Doch wenn man dann als Studierende:r bei dem Betreuer oder der Betreuerin um Rat fragt, werden die Zahlen häufig nur mit einem Schulterzucken quittiert. „Das könn‘ ma weglassen“, kommt es wie aus der Pistole geschossen. Diese Vorgehensweise kann viel Zeit ersparen und Ergebnissen mehr Gewicht zu verleihen. Doch die Leichtfertigkeit kann sich auch fatal auswirken.

Ausreißer

             So können statistische Ausreißer in einem X-Y-Diagramm aussehen.

Was ist ein Ausreißer?

Ausreißer sind nicht leicht zu definieren. Stöbert man durch Fachliteratur, wird häufig die Definition von den Statistikern Vic Barnett und Toby Lewis (1994) als zweckmäßig bezeichnet. Ausreißer sind laut ihnen Werte, die mit dem Rest der Daten nicht vereinbar sind. Ein Beispiel: Eine PhD-Studierende hat eine Tabelle von 150 Werten, die das Gewicht von Laborratten zwei Monate nach einer Magenverkleinerung angibt. Während 148 Zahlen zwischen 280 und 320 Gramm liegen, sollen zwei Ratten rund 390 Gramm gewogen haben. Bei diesen beiden Zahlen handelt es sich laut Barnett und Lewis um Ausreißer, da sie vom Rest der Werte stark abweichen. Aufgrund ihrer Natur haben sie für die Untersuchung keine Relevanz und können dementsprechend vernachlässigt werden. Dies ist allerdings nicht immer der Fall.

Es gibt jedoch auch andere Methoden, um Ausreißer zu identifizieren. Am bekanntesten ist die sogenannte 1,5*IQR-Regel, die durch Median und unteres als auch oberes Quartil definiert wird. Auf dieser Website wird die Regel anschaulich erklärt. In einem sogenannten Boxplot-Diagramm, das für statistische Auswertungen verwendet wird, können Ausreißer durch die 1,5*IQR-Regel veranschaulicht werden. Die Anwendung der Methode ist für jede:n Forscher:in empfehlenswert: Auf den ersten Blick erscheinen Werte nämlich häufig als Ausreißer, obwohl sie keine sind.

boxplot, ausreißer, statsitik

Ein Boxplot-Diagramm. Die zwei Punkte links und der Punkt rechts sind aufgrund der 1,5*IQR-Regel als Ausreißer definiert.

Wie entstehen Ausreißer?

Wie es zu diesen Ausreißern kommt, ist im ersten Moment bei beiden Definitionen nebensächlich. Hier gibt es viele Möglichkeiten, wie das Laborratten-Beispiel zeigt: So könnte die Waage fehlerhaft gewesen sein oder ein unaufmerksamer Labormitarbeiter vertauschte die Zahl 2 und 3. Eventuell könnten auch die Ratten vertauscht worden sein und es handelte sich um Tiere aus der Kontrollgruppe, die keiner Magenverkleinerung unterzogen wurden. Bei letzterem Fall handelt es sich laut Barnett und Lewis um sogenannte Irrläufer, die eigentlich in einer anderen Datenreihe ihren Platz finden sollten.

Wenn der Grund eines Ausreißers in einem Fehler liegt, so sollte der Wert entfernt und nicht berücksichtigt oder im besten Fall durch einen korrekten ersetzt werden. Doch häufig ist der Ursprung eines Ausreißers im Nachhinein nicht mehr nachvollziehbar.

Auswirkungen von Ausreißern auf Forschungs-ergebnisse

Nun kann man sich als Forscher:in entscheiden, ob man die Ausreißer aus den Daten streicht oder sie für weitere Berechnungen verwendet und als Extremwerte festsetzt. Dabei handelt es sich um den höchsten oder niedrigsten Wert einer Datenmenge. Wenn man die Ausreißer hinzuzählt, kann das jedoch starke Auswirkungen auf das Ergebnis haben, wie das Wirtschaftslexikon Gabler erklärt: So kann sowohl der Durchschnitt (das arithmetische Mittel) als auch die Varianz (ein Maß für die Streuung der Werte) durch Ausreißer verzerrt werden. Wenn es zu starken Abweichungen kommt, kann das Ergebnis einer Studie durch die Aufnahme von Ausreißern ungenauer wirken, als es tatsächlich ist.

Im Beispiel der Ratten geht die PhD-Studierende ins Labor zurück und überprüft deren Gewicht erneut. Noch immer wiegen beide rund 390 Gramm, weshalb sie annehmen kann, dass die Zahlen richtig sind. Da die beiden Ausreißer weder den Durchschnitt noch die Varianz stark verändern, hat es wahrscheinlich keine negativen Konsequenzen, diese als Extremwerte in das Ergebnis aufzunehmen.

Gleichzeitig weichen die beiden Gewichtsangaben von der Norm so stark ab, dass sie für die Durchschnittsratte – und eventuell den Durchschnittsmenschen – höchstwahrscheinlich keine Aussagekraft besitzen. Deshalb wäre es auch vertretbar, die Werte aus den numerischen Ergebnissen der Studie zu streichen und die Ausreißer nur im Text zu erwähnen.

In diesem Fall ist es die subjektive Entscheidung des Forschenden, ob die Zahlen als Extremwerte definiert werden sollen oder nicht. Bei anderen Beispielen ist die Entscheidung zur Aufnahme von Ausreißern eindeutiger: Wenn man alle Städte von Österreich aufgrund ihrer Einwohner:innenanzahl betrachten, so ist Wien ein Ausreißer, der sowohl den Durchschnitt als auch die Varianz stark beeinflusst. Das Ergebnis wäre jedoch stark verzerrt, wenn man die Hauptstadt aus der Statistik entfernen würde.

Vor allem in Laborsettings kann es allerdings zu Ausreißern kommen, die durch fehlerhafte Messungen entstehen, die technisch niemals zu hundert Prozent vermieden werden können. Beispielsweise kann es bei mehreren tausend Messungen mit einem Laser durchaus dazu kommen, dass 100 Werte sehr starke Ausreißer darstellen. Diese würden das Endergebnis verzerren. Da es sich um technische Fehler handelt, sollten diese Werte auf jeden Fall aus der Datenreihe entfernt werden, wenn man sich über ihren Ursprung bewusst ist.

Ausreißer können Leben retten

Ein Ausreißer kann allerdings selbst dann Aussagekraft besitzen, wenn er statistisch irrelevant ist. Allein deshalb sollten diese Werte nicht sofort mit einem „Das könn‘ ma weglassen“ beiseitegeschoben werden.

Als mahnendes Beispiel aus der Realität kann man die Lebensdauer der häufigen Erkrankung ALS (Amyotrophe Lateralsklerose) betrachten. Bei ihr handelt es sich um eine degenerative Erkrankung des Nervensystems: „Es werden dabei vor allem die motorischen Nervenzellen, die sogenannten Motoneuronen, geschädigt, was zu einem fortschreitenden Muskelschwund in Armen und Beinen, Sprech- und Schluckstörungen sowie Atemproblemen führen kann“, erklärt das Universitätsspital Zürich. Die Lebensdauer der Betroffenen wird stark verkürzt, durchschnittlich sterben die Patient:innen drei bis fünf Jahre nach dem Krankheitsausbruch. Doch wir alle kennen einen statistischen Ausreißer:

Stephen Hawking überlebte 54 Jahre mit der Diagnose ALS. Wenn man diese Zahl auf einem Datenblatt sieht, so könnte man von einem Schreibfehler ausgehen: Überlebte der Betroffene nicht bloß 5,4 Jahre? Doch Stephen Hawking ist nicht nur durch seine eigenen wissenschaftlichen Errungenschaften bedeutend für die Welt: Als Ausreißer kann man von seinem Beispiel eventuell ablesen, welche medizinische Behandlung oder Ernährungsweise die Lebensdauer bei ALS-Patienten steigern könnten. Wenn sein Wert einfach ignoriert wird, ist es unmöglich, aus seinem Fall zu lernen. Außerdem kann man Betroffenen Hoffnung spenden.

Im Endeffekt scheint eindeutig: Ob man einen Ausreißer im Datensatz belasst oder nicht, ist manchmal eine subjektive Entscheidung. Das ist ein weiterer Grund, weshalb man Forschungsergebnisse kritisch hinterfragen darf: Alle Wissenschaftler:innen unterliegen einem Bias – und das nicht nur bei statistischen Auswertungen.

Barnett, V., Lewis, T. (1994): Outliers in statistical data. International Journal of
     Forecasting, 12/1, 175-176.

Neue Beiträge