Bullenstats: Der Umgang mit Statistiken

Bevor man Statistiken verwendet und analysiert, muss man erst einmal wissen, was man dabei beachten muss.

Die Wichtigkeit der korrekten Erklärung

Dabei gilt zuallererst eine Regel:

Eine nicht korrekt erklärte Statistik ist wertlos.

Solange man bestimmte Studienresultate nicht interpretieren kann, sollte man das Ergebnis am besten erst gar nicht publizieren. Das verhält sich gleich wie bei Argumenten, von denen man ebenfalls nur die wirklich schlagkräftigen in die Runde werfen sollte. Wirres "Zahlendropping" mag zwar ab und an ganz witzig sein (also doch nicht ganz belanglos), aber einen inhaltlichen Wert hat es nicht wirklich.

Dazu gilt noch, dass auch nicht jede erklärte Statistik einen Wert hat. Ein Beispiel:
Ein Statistikinstitut startet eine Studie, um herauszufinden, welche "Arten" (beispielsweise Immigranten, Hausfrauen...) von Eltern ihr Kind wie gut in der Zeit vor der Volksschule erziehen. Befragt werden Eltern, deren Kinder besuchen momentan den Kindergarten besuchen. Eine Frage lautet: Wie oft hatte Ihr Kind schon einen Fünfer? Darauf antwortet jeder Umfragenteilnehmer mit "noch nie".

Solange keine logische (richtige) Erklärung vorliegt, kann man vorerst noch gar nichts über die Qualität der Kindererziehung sagen.

Die Erklärung lautet: Da keines der zugehörigen Kinder bisher auch nur einen Tag in der Schule verbracht hat, hatte selbstverständlich auch keines davon einen Fünfer (und auch keinen Einser, Zweier...).
Das wäre der etwas absurde Prototyp einer auch nach Erklärung wertlosen Statistik. Für die Beurteilung der Qualität der Erziehung vor der Volksschule müsste man andere Parameter heranziehen.

Die Statistik enthält nicht alle relevanten Informationen

Ein Aspekt, der in eine Erklärung und Interpretation unbedingt miteinbezogen werden muss, ist, dass Statistiken nicht alles aufsaugen können. Es gibt einfach Dinge, die man nur äußerst schwer quantifizieren kann. Die Qualität eines Textes ist ein allgemeines Beispiel. Im Fußball ist es kompliziert, den Beitrag eines Spielers abseits des Balles in Zahlen zu fassen. Ich kenne keine Statistik, die sich wirklich auf das Freilaufen, Absichern etc. fokussiert.

Die Wichtigkeit des Vergleichs

Zahlen sind prinzipiell etwas Abstraktes. Wenn jemand noch nie etwas von "Temperatur" oder "Grad Celsius/Kelvin/Fahrenheit" gehört hat, wird die Person aus der Wettervorhersage "morgen 40°C" kaum schlau. Damit diese Informationen konkretisiert werden, braucht man Vergleichswerte, beispielsweise den Mittelwert (evtl. inklusive Standardabweichung) oder die aktuelle Temperatur.

Gleiches gilt für Fußballstatistiken: Um eine echte Schlussfolgerung aus Daten vervollständigen zu können, muss man sich erst Referenzwerte beschaffen. Das können Werte von Mitspielern, von Liga-Konkurrenten, von Teilen aus der eigenen Entwicklung (bspw. Spiele) oder gar weltweite Daten sein.

Vorsicht mit kleinen Stichproben

Anmerkung: Eine Stichprobe ist die Menge an Zahlen, die analysiert wird.

Statistiken, besonders im Fußball, bilden die Realität also bei weitem nicht immer komplett richtig ab. Das liegt nicht nur daran, dass manche Aspekte (noch) nicht quantifiziert werden können, sondern auch am Faktor Zufall: Manchmal gelingen einem Spieler Aktionen, von denen man einen guten Ausgang kaum für möglich hält. Das kann unter anderem auf waghalsige Dribblings oder auf Schüsse aus ungünstigen Positionen zutreffen.

Doch die Beispiele müssen gar nicht so extremer Natur sein. Der Fußball ist schließlich so komplex, dass schon auf einen gewöhnlichen Zweikampf unzählige Faktoren Einfluss haben. Und zwar sind es Faktoren, über die der zweikämpfende Spieler selbst nicht bestimmen können, wie die Qualität des Gegenspielers, Unebenheiten des Rasens, taktisches Verhalten der Mitspieler und der gegnerischen Mannschaft etc.

Im Speziellen ist dies bei der Torbilanz eines Einzelspielers von Bedeutung. Für eine Saison sind bekanntlich 20 Tore schon ein sehr guter Wert. Doch einen Spieler anhand von nur 20 Sequenzen zu bewerten, erscheint zumindest mir fragwürdig; besonders deshalb, weil ein Akteur schon mit einem überragenden Spiel, in dem 3 Tore erzielt, seine Torzahl gewaltig aufpolieren kann und besser aussehen lassen, als sie sein dürfte.

Was kann man tun, um Fehlschlüssen durch zu geringe Stichproben zu entgehen? Die zweifelsohne beste Möglichkeit wäre, die Umstände einer Aktion in deren Wertung miteinzubringen. Bei den Toren wurde mit der Entwicklung von Expected Goals - Formeln schon ein Schritt in diese Richtung gemacht. (Dabei wird jedem Schuss eine bestimmte Verwertungswahrscheinlichkeit, die sich aus Entfernung zum Tor sowie Art des Schusses und der Vorbereitung errechnet, zugeordnet).

So wertvoll diese schon erarbeiteten Kenngrößen sind, ein gewisser Grad an Ungenauigkeit muss dennoch akzeptiert werden. Wenn man anhand jeder einzelnen Aktion eine qualifizierte Aussage über die Beteiligten machen wollte, müsste man erst eine Theorie erfinden, die diese Art von Aktionen komplett erklärt.

Da das bei einem komplexen Spiel wie dem Fußball fast utopisch wirkt, muss man sich eine schöne Eigenschaft des Zufalls zu Nutze machen: Mit wachsendem Stichprobenumfang nimmt der Zufallsanteil an den Werten ab. Beim Münzwurf kann es schon einmal passieren, dass man 5 Mal hintereinander "Kopf" auslost, und das, obwohl die Wahrscheinlichkeit für Kopf/Zahl jeweils 50% ist. Und selbst bei einer außergewöhnlichen Zwischenserie wie der angesprochenen wird sich das Verhältnis zwischen Kopf und Zahl nach einigen weiteren Versuchen an 50:50 annähern.

Bei Fußballstatistiken würde die komplette Ausmittelung des Zufalls darin resultieren, dass die Zahlen nach einiger Zeit rein durch die Eigenschaften eines Spielers/Teams bestimmt sind. Man muss also ein bisschen Geduld aufwenden, bis die Daten aussagekräftig werden. Im Umkehrschluss bedeutet das, dass nicht jedes einzelne Spiel oder Tor überbewertet werden darf. Vorsicht also mit kleinen Stichproben! (Das gilt im Übrigen nicht nur für Statistiken, sondern auch für subjektive Beobachtungen.)

Absolute/Relative Häufigkeiten

Kurz zur Erklärung: Absolute Häufigkeiten sind jene Zahlen, wie man sie zählen/messen kann. Oft werden sie auch als Rohwerte bezeichnet. Bei Relativen Häufigkeiten werden zwei oder mehr absolute Zahlen in Beziehung (=Relation) gesetzt. Beispiele hierfür wären Einwohnerzahlen bzw. Einwohnerzahl pro Quadratmeter.

Dieses Beispiel aus der Demographie kann auch als Beispiel dienen, was man bei absoluten/relativen Zahlen beachten muss:
Wir wollen wissen, wie dicht ein Staat von Menschen bevölkert ist. Das erste, was einem dazu einfällt, ist wohl die (absolute) Einwohnerzahl. Je mehr Einwohner, desto dichter ist das Land besiedelt, wäre die Schlussfolgerung.
Allerdings steht nicht in allen Staaten der Erde die gleiche Fläche zur Verfügung. Somit gibt die reine Einwohnerzahl noch keine Auskunft darüber, wie viel "Platz" wirklich einem einzelnen Menschen in einem Land hat.
Deshalb ist es noch besser, die Bevölkerungszahl des Landes noch durch die Landesfläche zu dividieren. Auf diese Weise erhält man eine vernünftige Kennzahl, die die Bevölkerungsdichte in einem bestimmten Bereich der Erde widerspiegelt.

Ähnliches wird einem auch bei Fußballstatistiken widerfahren. Jedoch kommt es immer darauf an, was genau man eruieren will. Bei Zweikampfbilanzen ist zum Beispiel nicht nur die Erfolgsquote (relative Häufigkeit) von Relevanz. Es kann sich auch positiv auswirken, dass ein Spieler/Team öfter in Zweikämpfe kommt. Deshalb ist auch auf die absolute Häufigkeit an gewonnen/bestrittenen Zweikämpfen ein Blick zu werfen.
Allerdings sollte man auch bei diesen immer gewissermaßen relative Zahlen verwenden, nämlich "pro 90 Minuten"-Werte. Sie eliminieren den Faktor Einsatzzeit, die nicht wirklich ein Qualitätskriterium ist, aus den Rohwerten und lassen außerdem den Vergleich der Gesamtbilanz auf einzelne Spiele zu.

Beschreibende/Wertende Kenngrößen

Den letzten Aspekt kann man am einfachsten mit dem folgenden Satz zusammenfassen: So wie auch in Romanen nicht immer zwischen "guten" und "bösen" Charakteren unterschieden werden kann, so lassen das auch statistische Kenngrößen nicht immer zu.

Denn: Nicht alle Größen lassen sich auf einer "Gut-Schlecht-Skala" eintragen. Doch deshalb sind sie nicht automatisch unbrauchbar. Vielmehr liefern sie Informationen über die Art, wie sich etwas verhält. Das heißt, sie beschreiben bspw. sie Ausrichtung einer Mannschaft, und daher heißen sie beschreibende Statistiken. Im Gegensatz dazu stehen wertende Statistiken, anhand deren man konkrete Aussagen über Leistungsstärken aufstellen kann.

Beschreibende Kenngrößen

Ein fußballspezifisches Beispiel für eine beschreibende Kenngröße ist die Größe "Pässe/Torschuss" (das "/" ist als Divisionszeichen zu verstehen). Sie gibt an, wie oft sich die Spieler einer Mannschaft den Ball durchschnittlich zuspielen, bis der Torabschluss erfolgt. Sie differenziert also zwischen Mannschaften, die möglichst schnell und mit möglichst wenig Pässen vor das Tor kommen, und jenen, die geduldiger auf ihre Chance warten. Erfolgreich sein können grundsätzlich beide Strategien.

Jedoch kann man diese Statistik - wie fast jede andere auch - wertend interpretieren (Mannschaft mit vielen P/TS => braucht lange, um zum Torschuss zu kommen => negativ). Ob tatsächlich eine Schwäche vorliegt, die es zu beheben gilt, muss im Zusammenhang entschieden werden: Wenn bei einigen anderen, verwandten Kenngrößen eher schlechte Werte vorliegen, darf man davon ausgehen, dass die Mannschaft tatsächlich in diesem Bereich eine Schwachstelle hat. Ein hoher Wert bei P/TS (=>Fokus auf stabile und geduldige Ballzirkulation) müsste in vielen Pässen insgesamt resultieren. Ist dies nicht der Fall, liegt der Schluss nahe, dass die Mannschaft generell schlecht im Erarbeiten von Schüssen ist. Das wiederum würde sich in einer kleinen zahl an Torschüssen insgesamt äußern.

Ein weiteres wichtiges Kriterium zur Kontrolle der beschreibenden Statistiken ist, ob sich der Wert zumindest in einem gewissen Rahmen bewegt. Wenn der Wert nicht nur "eher niedrig", sondern "sehr niedrig" ist, muss einen Analysten das stutzig machen. Ist der extreme Wert wirklich nur der extremen Spielweise zu verdanken? Oder steckt doch ein Qualitätsunterschied zum Rest dahinter?

Wie sonst auch immer gilt also: Die Statistik muss erklärt werden.

Wertende Kenngrößen

Bei wertenden Kenngrößen kann man im Grunde genommen von einem Spezialfall der beschreibenden Größen sprechen: Sie beschreiben nämlich die Stärke einer Mannschaft (oder eines anderen Gegenstandes). Wenn man sich also einen Qualitätsalgorithmus bauen will, sollte man also fast ausschließlich wertende Statistiken einbeziehen. Im Fußball wären das beispielsweise Tore (sofern der Bewertungszeitraum groß genug ist), Torschüsse oder auch die Passerfolgsquote.

Obwohl wertende Daten prinzipiell klare Aussagen ("besser", "schlechter") zulassen, sollte man aber auch sie nicht vorschnell und ohne Erklärung herausposaunen. Vor allem Einzelereignisse (einzelne Spiele) darf man niemals überbewerten. Dazu kommt, dass auch grundsätzlich wertende Statistiken kaum einmal uneingeschränkte Informationen über die Qualität abgeben.

Wie wertend eine Kenngröße ist, ermittelt man am besten mit dem Korrelationskoeffizienten. Je größer die Korrelation der Kenngröße mit der Punktezahl/der Tordifferenz ist, desto wertender ist diese Größe.
Zudem macht es auch Sinn zu überprüfen, wie sehr Resultate aus der ersten Saison und die der darauffolgenden einander ähneln. Dadurch bekommt man zusätzlich einen Eindruck, wie ernst man die Ergebnisse aus einer Saison nehmen darf (=wie viel Zufall dahinter steckt).

Fazit

Die wichtigste Information aus diesem Beitrag dürfte sein: Ziehe nie vorschnelle Schlüsse aus einer Statistik, du musst sie auch sauber erklären können! Beispielsweise könnte es sich um eine beschreibende Kenngröße handeln, oder es handelt sich um eine nicht saubere Kennzahl! Oder werden eventuell wichtige Informationen gar nicht miteinbezogen? Oder hat man schlicht zu kleine Umfänge beobachtet?

Wenn diese Dinge Beachtung finden würden, könnte das die Zahl an psychischen Erkrankungen deutlich lindern. Allzu oft setzen sich Menschen unter Druck, weil die nackten Zahlen ein schlechtes Bild von ihnen zeichnen. Und das, obwohl die Zahlen eventuell beschreibend statt wertend sein. Nur deswegen, weil ein (oder sogar alle) Kollege (-n) schneller arbeitet als man selbst, heißt das noch lange nicht, dass man den anderen um so viel nachsteht. Die Arbeitsgeschwindigkeit beschreibt doch lediglich die Art, wie (schnell) jemand arbeitet, und manche Leute sind einfach schneller. Andere dafür arbeiten sorgfältiger oder einfach besser, was sich allerdings nur schwer in Zahlen fassen lässt.

Abgesehen davon, dass allen bewusst sein muss, dass manche etwas besser können als andere, muss man sich also auch von Statistiken nicht verrückt machen lassen.

Bullenstats

12.05.14

Der Umgang mit Statistiken