Sichtweisen #60: Nicht über die Schulen, über die Tests müssen wir reden!

Mitte September 2019 wurde vom IQB der Bildungstrend 2018 veröffentlicht. Georg Lind, der emeritierte Professor für Psychologie der Universität Konstanz und Gastprofessor an mehreren Universitäten im Ausland, warnt in einer spontanen Reaktion vor zu großer Testgläubigkeit:

„Verharren im Mittelmaß!“

Sollte diese Nachricht Sie erschrecken, dann leiden Sie unter Testgläubigkeit.

All diese Tests basieren nicht auf pädagogischen, didaktischen oder psychologischen Erkenntnissen, sondern allein auf simplen, oft falschen Vorstellungen über den Aufbau des menschlichen Wissens, die sich in statistischen Modellen verstecken. Dort sind sie gut gegen Kritik geschützt, weil offenbar nur ganz wenige sich trauen, sich diese Modelle und die Testaufgaben überhaupt anzuschauen, geschweige denn, sie zu verstehen und kritisch zu würdigen.

Die USA machen momentan keinen guten Eindruck auf uns. Aber die Menschen dort sind teilweise viel weiter als wir. Dort gibt es LehrerInnen und Eltern, die sich mit diesen Tests auseinandersetzen und für ihre Kinder das Recht erstritten haben, die Teilnahme an diesen Tests zu verweigern. Hier leider noch nicht.

Da eines meiner Spezialgebiete im Studium die Konstruktion von Tests war und ich deshalb im Sonderforschungsbereich Bildungsforschung an der Universität Konstanz (1973-1984) eingestellt wurde, um u.a. diesen Bereich zu betreuen, bin ich nicht gegen Tests. Sie wären notwendig, wenn die Bildungspolitik ihre Ziele, eine Schule ihr Lehrangebot, eine Lehrkraft die Wahl ihrer Lehrbücher und Lehrmethoden und Schüler ihren Lernstand überprüfen wollen.

Aber Tests könnten das nur, wenn sie genau das messen würden, was sie messen sollen. Das nennt man Validität. Leider bemühen sich Testmacher selten um die präzise und fachlich fundierte Angabe ihrer Messabsicht. Das ist ihnen offenbar zu aufwändig. Sie bleiben gern wolkig und fremdsprachig („literacy“). Dann werden die Testwerte noch willkürlich in Bereiche unterteilt und phantasievoll benannt („Optimalstandard“, Regelstandard“, Mindeststandard“). Damit entfällt die Basis für die Überprüfung der Validität.

Was der statistisch begründeten Test-Praxis an begrifflicher und fachlicher Präzision fehlt, versucht sie, durch die Messpräzision zu ersetzen: Zum einen werden die Messwerte bis mehrere Stellen hinterm Komma berichtet. Das sieht nach Präzision aus, ist aber keine. Zum anderen werden sehr viele Schüler getestet. Dadurch werden selbst die winzigsten Unterschiede „signifikant“. Das hat nichts, wie man meinen könnte, mit „bedeutsam“ zu tun, sondern mit dem Umfang des Etats, der den Testern zur Verfügung steht, um möglichst große Stichproben zu testen, damit die Ergebnisse „signifikant“ werden. Je mehr Messdaten, desto präziser der Test, desto kleiner die Unterschiede, die man als „signifikant“ ausgeben kann. Zudem werden die Schüler mit möglichst vielen Aufgaben traktiert, um die „Reliabilität“ oder Messgenauigkeit der Tests zu erhöhen. Das alles braucht keinen Verstand, sondern nur Geld.

Dagegen wäre im Prinzip nichts einzuwenden, wenn der Messgegenstand valide wäre. Aber was bringt es, wenn man etwas Unbekanntes sehr, sehr genau misst? Zudem ist die Steigerung der Genauigkeit durch Wiederholung der Messung höchst fragwürdig. In der Technik ist das oft angebracht: Je öfter gemessen wird, desto genauer wird die Schätzung des „wahren“ Wertes. Aber selbst in der Technik kann die Messung oft nicht beliebig oft wiederholt werden, ohne den Gegenstand selbst zu verändern (wie bei der Entnahme von Stoffproben) und ohne dass sich der Gegenstand in der Zwischenzeit verändert (wie die Position eines Sterns).

Bei der Messung von Lernleistungen ist die Sache noch problematischer: Eine exakte Wiederholung einer Messung würde von den Testpersonen als Witz oder Zumutung verstanden. Also wandelt man die Wiederholungsaufgaben ab. Aber messen sie alle dasselbe? Da nicht klar ist, was sie messen sollen, lässt sich das fachlich kaum beurteilen. Braucht man auch nicht, sagt der von jeder Fachkompetenz freie Statistiker: Man brauche nur die Antworten der Testteilnehmer in den Computer zu geben und von diesem „Korrelationen“ ausrechnen zu lassen. Wenn diese einen bestimmten (willkürlich festgelegten) Wert überschreiten, werden sie als „reliabel“, also messgenau angesehen. Man kann sich das so vorstellen: Wenn die Messwerte der Schuhgröße und der Körperlänge hoch miteinander korrelieren, kann man beide Messungen als reliabel ansehen! Viele sagen sogar, dann seien die Messungen auch valide. Schuhgröße = Körpergroße! Ich hoffe, Sie erkennen, was für ein Schmarren das ist.

Viele Dinge korrelieren hoch miteinander, ohne dass sie identisch sind. So korrelieren die Werte in Mathe-Tests sehr hoch mit Werten in Lesefähigkeits-Tests (Baumert et al. 2003). Messen sie also dasselbe? Wenn ja, was messen sie dann? Misst der Lese-Test etwa auch Mathefähigkeit? Wohl kaum. Misst der Mathe-Test Lesefähigkeit? Das schon eher! Da die Mathe-Aufgaben in diesen Tests oft sehr einfach sind, können die meisten Schüler sie unter normalen Umständen (ohne Zeitdruck und vom Mathe-Lehrer sorgfältig formuliert) lösen. Dann gäbe es aber trotz großer Teilnehmerzahlen keine „signifikanten“ Unterschiede mehr. Da die Werte kaum variieren, kann es aus rein logischen Gründen auch keine Korrelationen mehr geben.

Um diesem — für Statistiker und den von ihnen abhängigen empirischen Bildungsforscher sehr unerfreulichen — Missstand abzuhelfen, machen die Testkonstrukteure die Aufgaben künstlich schwer, nämlich durch sogenannte „Distraktoren“. Das sind, wie der Name sagt, Zusätze zu den einzelnen Aufgaben, die den Testteilnehmer von der eigentlichen Aufgabe ablenken sollen. Folge: Viele Testteilnehmer sind verunsichert: Gehört das alles zur Aufgabe? Muss ich es genau lesen? Damit verlieren diejenigen viel Zeit, bei denen die Distraktoren wirken: Sie lesen genau, sie denken nach, sie zweifeln an ihren Lösungen. Wenn sie dann auch noch generell langsam im Lesen oder Fremdsprachler sind, bekommen sie mit Sicherheit schlechte Testwerte. Sie werden nicht fertig in der vorgegebenen Zeit. Test-schlaue Schüler wissen damit umzugehen: Sie lesen die Aufgabe von hinten oder sie raten einfach. Letzteres wird, wie Studien zeigen, meist mit besseren Testwerten belohnt als Denken.

Was also testen die Tests wirklich, von denen Sie sich so einen Schrecken haben einjagen lassen? Um es einfach zu sagen: Sie messen Testschlauheit und Test-Angst. Wer sie nicht durchschaut, macht sich übergroße Sorgen um die Resultate. Folge: Angst und Blockade. Wir haben gezeigt, wie Testangst (im Vergleich zur Lernfreude) die Testleistung drückt (Loy 2004).

Und jetzt machen viele Bildungspolitiker genau diese Testwerte zur Richtlinie ihres Handelns. Dabei kann nur Ungutes herauskommen, wie zum Beispiel: noch mehr Tests, noch mehr Zentralisierung der Lehrfortbildung und -überwachung, und damit eine weitere Abwertung von Lehrern und Schülern als selbständige, lernwillige Persönlichkeiten, sowie von Fachwissenschaft, Fachdidaktik und von Lernpsychologie. Die Schule der Zukunft wird dann ähnlich aussehen wie der nie in Betrieb gegangene Schnelle Brüter in Kalkar, wie der vielleicht einmal funktionsfähige Berliner Flughafen oder der neue Stuttgarter Bahnhof, der weniger als der alte leisten, dafür aber gefährlicher sein wird, oder die DDR, die nicht zuletzt deshalb kollabierte, weil alles zentral nach statistischen Kriterien (Leistungsnormen) gelenkt wurde. In der Bildungspolitik haben wir uns faktisch der DDR angeschlossen und nicht umgekehrt.

In dieser Schule wird sich unter unseren Kindern immer mehr Schulfrust, Zukunftsangst und Politikverdrossenheit breit machen. Nicht wenige werden Hilfe bei denen suchen, die ihnen lautstark, aber ohne jede Rücksicht auf Wahrheit Hilfe versprechen. Die heute vielfach benutzten Tests (nicht jeder Test!), sind kein Vorbild für Wahrheit und Wahrhaftigkeit (siehe oben). Sie erschrecken die Menschen. Sie erziehen Untertanen, die auf eigenes Denken verzichten.

Ja, es gibt auch gute Tests! Gute Tests sind Tests, an deren Entwicklung Fachleute für das Testgebiet (z.B. Mathe-Professoren), Fachdidaktiker und Lernpsychologen mitgewirkt haben, und die anhand gesicherter Erkenntnisse über den Testgegenstand validiert wurden. Gute Tests sind Tests, die zur Verbesserung der Bildungspolitik, der Fachdidaktik, der Lehrbücher, der Lehrerausbildung und bestimmter Lehrmethoden (anonym) eingesetzt werden.

Tests können auch für Prüfungen von Personen eingesetzt werden, wenn sie hinreichend gut sind. Man müsste zeigen, dass sie Verstehen, Denken und Anwendung messen können. Das geht prinzipiell. Aber davon sind die real existierenden Tests meist weit entfernt. Das können gut ausgebildete Lehrer und Lehrerinnen besser.

Georg Lind

Wo kann man das alles nachlesen? Hier ist eine große, wenn auch unvollständige Auswahl an Lesestoff.