Gast #31: Was sagen uns IQB-Bildungstrend, TIMSS, PISA und andere Ländervergleiche?

Wir pädagogischen Praktiker/innen müssen uns fast jedes Jahr neu überlegen, was wir mit den Ergebnissen von Vergleichsstudien anfangen, wenn diese mal wieder in den Medien rauf und runter diskutiert werden. PISA, TIMSS und Bildungstrend zeigen dann angeblich wie einzelne Bundesländer oder Deutschland im internationalen Vergleich (meist) schlechter oder (seltener) besser geworden sind. Wir können die Gültigkeit solcher Studien selbst nicht überprüfen, dazu fehlt uns das methodische Handwerkszeug. Lassen wir uns von Experten helfen, die das drauf haben. In diesem Fall von Hans Brügelmann. Ich habe diesen Aufsatz auf pedocs gefunden und halte ihn für äußerst hilfreich.

Um das Wichtigste gleich vorwegzunehmen: Ergebnisse werden oft hochgejazzt und können von den Daten gar nicht gedeckt werden.

Quelle: Brügelmann, H. (2017). Was sagen uns IQB-Bildungstrend, TIMSS, PISA und andere Ländervergleiche? Lehren und Lernen 43 (2), 4–9.

Ende 2016 haben drei Schulleistungsstudien wieder mal für Aufregung in den Medien gesorgt.

Der IQB-Bildungstrend 2015

Als erstes kam Baden-Württemberg unter die Räder. Im „IQB-Bildungstrend 2015“ wurden vor allem die Deutsch-Leistungen von 9.-Klässler/-innen in den verschiedenen Bundesländern verglichen (Stanat u. a. 2016, im ff. nur mit Seitenzahl zitiert). Zu ihrer Erhebung wurden Tests in den Bereichen „Lesen“, „Zuhören“ und „Orthographie“ eingesetzt. Beim Vergleich der Ergebnisse wurde Baden-Württemberg unter den 16 Bundesländern auf den Rängen 10, 14 und 12 eingestuft. Nach Plätzen im oberen Bereich bei früheren Erhebungen war die Aufregung groß. Wie der Bildungsforscher Ulrich Trautwein im SPIEGEL (Nr. 44/2016) so malte auch Heike Schmoll in der FAZ vom 2.11.2016 die Schulentwicklung in Baden-Württemberg aufgrund der Daten des Ländervergleichs in düsteren Farben. Zu Recht – oder mediale Brandstiftung?

Erklärungen für den angeblichen „Leistungsabfall“ hatten die Kritiker/-innen auch gleich zur Hand: Abschaffung der verbindlichen Schulempfehlung nach Klasse 4, Einführung der Gemeinschaftsschulen, Schreiben mit der Anlauttabelle im Anfangsunterricht. Und das, obwohl die Autor/-innen (S. 185) selbst ausdrücklich anmerken, „dass die Gemeinschaftsschule als neue Schulart … noch nicht berücksichtigt werden“ konnte. Und zur Grundschule sind die 9.-Klässler/-innen noch zu Zeiten der CDU/FDP-Koalition gegangen. Insofern läuft der Versuch, aus dem IQB-Trend 2015 ein Grün-Rot-Bashing zu konstruieren, leer.

Im Übrigen lohnt es, sich die Ergebnisse genauer anzuschauen. Denn was bedeuten die unterschiedlichen Rangplätze konkret?

Im Lesen erreicht Baden-Württemberg den 10. Platz mit 496 Punkten, Schleswig-Holstein auf dem 2. Platz erreicht 514 (S. 337). Sind diese 18 Punkte (oder rund 3%) Unterschied eine inhaltlich bedeutsame Differenz? Wir wissen es nicht, denn die Forscher/-innen teilen nicht mit, welchen Realunterschieden (gelesene Textmenge pro Minute, Anteil der falsch gelösten Aufgaben) diese Werte entsprechen. Das gilt auch für die Differenz zu den baden-württembergischen Ergebnissen von 2009, als das Land 521 Punkte erreichte.

Zwar übersetzen die Autor/-innen die Punktdifferenzen in zeitliche Unterschiede und sagen zum Beispiel (S. 536), in dieser Untersuchung entsprächen 20 Punkte ungefähr dem Lernfortschritt von einem Schuljahr. Aber ist der in diesem Alter wirklich bedeutsamer als die in Kasten 1 berichteten Unterschiede in der Ski-Abfahrt? Lesen durchschnittliche 9.-Klässler/-innen in derselben Zeit 2% oder 20% mehr Text als 8.-Klässler/-innen? Und lösen sie mit 15 Jahren nur 4% der Aufgaben falsch, mit 14 aber noch 10% oder auch nur 5%? Die Bedeutung der Punktunterschiede für Leistungen im Alltag bleibt also offen.

Kasten 1: Medaillenverteilung nach hunderstel Sekunden

Bei den alpinen Ski-Weltmeisterschaften 2015 gewann der Schweizer Patrick Küng die Abfahrt. Er brauchte für die Strecke in Beaver Creek 1 Minute, 43 Sekunden und 18 Hundertstel. Elfter wurde sein Landsmann Didier Défago. Dank der eingesetzten Präzisionsgeräte konnte die elektronische Zeitmessung einen Rückstand von 71 Hundertstel feststellen. Nicht mal eine Sekunde langsamer – bezogen auf eine Gesamtzeit von über 100 Sekunden. Der Dritte brauchte sogar nur sieben Hundertstel mehr als der Zweite. Das sind gerade mal 0,06% mehr – für die „Ski-Kompetenz“ im Alltag belanglos. Bedeutsam ist der Unterschied nur für Wettbewerbe unter einzelnen Spitzenfahrern. Merke: Mit Präzisionsverfahren messbare Unterschiede sagen noch nichts über ihre alltagspraktische Bedeutung aus.

Und noch eine zweite Einschränkung: Die Ergebnisse stammen aus Stichproben, mithilfe derer die Verhältnisse in der Grundgesamtheit lediglich geschätzt werden. Eine solche Schätzung geht immer mit einem gewissen Schätzfehler einher, der es streng genommen nur zulässt einen Wertebereich anzugeben, das sogenannte Vertrauens-(„Konfidenz“-) Intervall, in dem sich der tatsächliche Wert in der Grundgesamt mit einer bestimmten Wahrscheinlichkeit befindet.

In der Rechtschreibung beispielsweise liegt der tatsächliche Wert für die Grundgesamtheit aller baden-württembergischen 9.-Klässler/-innen auf Platz 12 mit 95%iger Wahrscheinlichkeit irgendwo innerhalb des Vertrauensintervalls von 491 bis 506, für die Zweitplatzierten aus Sachsen irgendwo zwischen 500 und 514 (S. 340). Die Überschneidungen der beiden Vertrauensintervalle zeigen, wie unsicher die berichteten Differenzen und damit die zugewiesenen Plätze 2 und 12 sind; denn es könnte auch sein, dass der tatsächliche Wert in der sächsischen Grundgesamtheit 501 beträgt und in der baden-württembergischen 505.

Veränderungen der Rangplätze von 2009 nach 2015 sind ähnlich wenig verlässlich zu interpretieren. Zwar erreichte die baden-württembergische Stichprobe in der Orthographie 2009 noch 516 Punkte (S. 351). Aber die Vertrauensintervalle (mit immer noch 5% Fehlerwahrscheinlichkeit) für die tatsächlichen Werte (in der Grundgesamtheit) liegen für 2015 bei 499 bis 513 und für 2009 bei 509 bis 523. Also überschneiden sich auch hier die Vertrauensintervalle. Zudem: Rangplätze sind relative Bewertungen. So sinken sie auch ohne Verschlechterung der Leistungen, wenn andere Länder zugewonnen haben.

Umso verwunderlicher das Mediengetöse. Die Autor/-innen stellen dagegen in der durchschnittlichen Rechtschreibkompetenz sachlich „keine signifikanten Unterschiede zwischen den Jahren 2009 und 2015“ fest (S. 351). Warum aber soll dann im Anfangsunterricht z.B. das Schreiben mit Anlauttabellen verboten werden? Ganz zu schweigen davon, dass niemand weiß, welchen Anteil das lautorientierte Schreiben in baden-württembergischen Grundschulen tatsächlich hat (bundesweit lag z.B. Reichens Marktanteil nie über 1%). Und noch weniger ist bekannt, in welchen methodischen Kombinationen (etwa mit Grundwortschatzarbeit) es in der Regel auftritt und wie lange es durchschnittlich andauert (vgl. die Varianten in den Beiträgen zu Brinkmann 2015). Positive Effekte auf die spätere Rechtschreibung sind für das synthetisch-analytische Konstruieren von Wörtern in der Anfangsphase im deutschen wie im angelsächsischen Raum nachgewiesen (s. u.a. Richter 1992, 150ff.; National Early Literacy Panel 2008).

TIMSS 2016

Wie oberflächlich empirische Befunde in vielen Medien dargestellt und kommentiert werden, konnte man auch nach der Veröffentlichung des internationalen Grundschulvergleichs in Mathematik und den Naturwissenschaften (TIMSS) beobachten. So war auf FAZ-online am 29.11.2016 in einer dpa-Meldung zu lesen: „Deutschlands Grundschüler haben anscheinend große Probleme mit Mathematik. In diesem wichtigen Unterrichtsfach sind sie laut der Bildungsstudie TIMSS im internationalen Vergleich mit 522 Punkten (2011: 528) tief ins Mittelfeld gerutscht und liegen nun unterhalb des EU-Durchschnitts von 527 Punkten.“ (Hervorheb. Vf.)

Schaut man sich die Daten genauer an, stellt man fest, dass die deutschen Viertklässler/-innen 2007 bei 525 Punkten lagen, auf diesen Basiswert bezogen also bis 2011 drei Punkte gewonnen und bis 2015 drei Punkte verloren haben. Demnach kein erkennbarer Trend, sondern Schwankungen – statistisch durchaus im Zufallsbereich für einen Trend. Zudem beziffern die Autor/-innen des TIMSS-Berichts den Lernfortschritt für ein Schuljahr auf rund 30 Testpunkte; selbst sechs Punkte Differenz (2015 vs. 2011) entsprechen also gerade mal zwei Monaten. „Große Probleme“?

Entsprechend zu relativieren ist die Differenz von 5 Punkten zum europäischen Durchschnitt, der bei 527 Punkten liegt. Denn die Verteilungen der Leistungen in den einzelnen Ländern überlappen sich erheblich. Dass Deutschland nicht mehr über dem EU-Durchschnitt liegt, kann zudem nicht einfach als Folge schlechterer Leistungen in unserem Land interpretiert werden („tief … gerutscht“), sondern ist zumindest auch einer Verbesserung der Testergebnisse in anderen Ländern geschuldet: der europäische Durchschnitt lag 2011 bei 519 Punkten.

Vor allem aber wurde in den Medien kaum zur Kenntnis genommen, dass sich die deutsche Schülerpopulation von 2011 bis 2015 bedeutsam verändert hat, so dass Veränderungen nicht ohne weiteres auf den Unterricht zurückgeführt werden können. In den Worten der Autor/-innen des TIMSS-Berichts: „In Mathematik sind unter Berücksichtigung von Veränderungen in der Schülerschaft die durchschnittlichen Leistungen von dem Jahr 2007 zu dem Jahr 2011 statistisch signifikant um 11 Leistungspunkte gesunken und von TIMSS 2011 zu 2015 statistisch signifikant um 8 Punkte gestiegen. Damit wurde in TIMSS 2015 wieder das Leistungsniveau von TIMSS 2007 erreicht.“ (S. 375, Hervorheb. Vf.)

Das Bild ist also viel komplizierter als in der öffentlichen Diskussion verhandelt. Und: Vorschnelle Ursachen- und Schuldzuweisungen können zu fatalen Fehlschlüssen bei der Entscheidung für die erforderlichen Maßnahmen führen – wie sich schon oben bei den Fehlinterpretationen der IQB-Trendstudie gezeigt hat.

PISA 2015

Und dann kam PISA – zum sechsten Mal seit 2000. Nach den Erfolgsmeldungen der letzten Runden, in denen die deutschen 15-Jährigen jeweils Punkte gewonnen und hier und da Plätze gut gemacht hatten, dieses Mal „Stabilisierung auf hohem Niveau“ (so KMK-Präsidentin Claudia Bogedan, Bremen): Im Lesen +1 Punkt, in Mathematik –8 und in den Naturwissenschaften –15 Punkte. Die rücksichtsvolle Bewertung erstaunt, wurden doch in den Vorjahren schon Zuwächse von 4 oder 9 Punkten zu „Fortschritten“ hochgejubelt und als „Beweis“ für eine erfolgreiche Bildungspolitik verkauft: die Einführung von Bildungsstandards und regelmäßigen Tests habe die „Qualität“ der Schulen gesteigert. Nun heißt es, solche Differenzen seien „statistisch nicht signifikant“.

Das stimmt, aber dann muss man sich das Ganze doch etwas grundsätzlicher anschauen. Bekanntlich werden auch kleine Unterschiede „statistisch signifikant“, wenn die Stichproben nur groß genug sind. Bei PISA umfassen sie 5.000 bis 10.000 Schüler/-innen pro Land. Wenn dann Unterschiede von 5 bis 10 Punkten (je nach Messfehler) oft „nicht signifikant“ werden, können sie auch inhaltlich nicht besonders bedeutsam sein. Bei PISA-2000 konnte schon die Lösung einer einzigen Aufgabe zusätzlich zu 20 Punkten Zugewinn führen. Die Umrechnung der Punkte auf eine 500er-Skala lässt selbst kleine Unterschiede groß erscheinen – visuell zusätzlich verzerrt, wenn in den Kurven die unteren 480 Punkte „abgeschnitten“ werden.

Und in der Tat erreichen selbst 10 – 20 Punkte auf der PISA-Skala in der Regel nicht die Schwelle auch nur „kleiner Effektstärken“, die für Mittelwertsunterschiede bei d = 0.2 bis 0.3 angesetzt werden.

Nachdenklich stimmt auch, dass Korea von 2012 bis 2015 in den Naturwissenschaften 30 Punkte verloren hat, die Schüler/-innen also binnen drei(!) Jahren um ein ganzes Schuljahr schwächer geworden sein sollen. Schweden andererseits hat von 2003 bis 2012 insgesamt 31 Punkte verloren, dann aber bis 2015 schon wieder 16 Punkte aufgeholt, was angeblich einem halben Schuljahr entspricht. Werden in solchen Schwankungen tatsächlich reale Veränderungen abgebildet?

Es gibt auch noch andere Erklärungen. So mussten die Aufgaben bis 2012 mit Bleistift auf Papier bearbeitet werden – 2015 aber am Computer. In einem Vergleich beider Formen stellten Robitzsch u.a. (2016) fest, dass deutsche Schüler/-innen bei denselben Aufgaben am PC deutlich (um 10 und mehr Punkte) schlechtere Ergebnisse erzielten als auf dem Papier. Dafür, dass dieser Medienwechsel einen gewichtigen Einfluss auf die Leistungsvergleiche hat, spricht auch ein Ergebnis aus Österreich: Dort haben sich im Lesen die Mädchen verschlechtert, die Jungen etwas verbessert (Nimmervoll 2016).

Wenn aber schon der Wechsel der Aufgabenform solche Unterschiede ausmachen kann – was bedeutet das erst für die Aussagekraft der künstlichen Testsituation für Leistungen unter Alltagsbedingungen? Und welche Bedeutung hat der Zeitdruck für den Abruf vorhandener Kompetenzen, welche Rolle spielt dabei z.B. die unterschiedliche Textlänge der Aufgabe in verschiedenen Sprachen, wie stark überlagern zudem die Leseanforderungen der textgebundenen Aufgabenstellung die mathematischen und naturwissenschaftlichen Leistungen? Viele Fragezeichen.

So ist auch denkbar ist, dass die Leistungszuwächse vorher, also nach 2000 auf eine wachsende Vertrautheit der Schüler/-innen mit den Aufgabenformaten und deren stärkere Nutzung im Unterricht zurückzuführen sind.

Außerdem verändern sich die Maßstäbe für die Bewertung erreichter Punkte, nämlich die Mittelwerte von EU, OECD und internationaler Stichprobe, von Termin zu Termin, weil nicht immer dieselben Länder teilnehmen, so dass sich Rangplätze selbst bei gleich bleibenden Ergebnissen verändern können.

Das PISA-Ranking und das mit ihm verbundene Verständnis von Forschung ist demnach hoch problematisch (ausführlicher: Jahnke/Meyerhöfer 2006, Brügelmann 2015, Dammer 2015).

Das Desiderat: alternative Lehr-Lern-Forschung

Interessanter als die Ergebnisse solcher Studien sind Fragen, die sie aufwerfen: So erreichen bei PISA-2015 die deutschen Schüler/-innen in den Naturwissenschaften – bezogen auf Unterrichts- und Hausaufgabenzeit – mehr Punkte als alle anderen Länder außer Finnland. Ein Indiz für besonders effektives Lernen, für besonders erfolgreiche Lehrer/-innen? Und anders als erwartet sind sie im Fachwissen besonders gut – im methodischen Denken eher schwach. Letzteres beherrschen angeblich die asiatischen Schüler/-innen besser, deren Schulen immer wieder reiner Drill vorgeworfen wird.

An der Untersuchung solcher Überraschungen sollte Bildungsforschung ansetzen. Und vor allem sollte sie untersuchen, wie es manchen Schulen gelingt, selbst unter schwierigen Bedingungen erfolgreich zu arbeiten. Aber das erfordert einen anderen Stil von Forschung: Lernbiographien von Schüler/-innen, Beobachtungen der Interaktionen im Unterricht aus verschiedenen Perspektiven, Dokumentation und Analyse von Umsetzungsvarianten desselben Programms/derselben Methode, Fallstudien der Entwicklung von Schulen und Lehrer/-innen. Die nächste PISA-Olympiade kann dafür noch zehn Jahre warten.

Dieser Artikel erscheint mit freundlicher Genehmigung der Redaktion als Nachdruck aus: Grundschule aktuell, Nr. 137, Februar 2017.

Literatur

Brinkmann, E. (Hrsg.): Rechtschreiben in der Diskussion – Schriftspracherwerb und Rechtschreibunterricht. (Beiträge zur Reform der Grundschule, Bd. 140) Frankfurt/M.: Grundschulverband 2015.

Brügelmann, H.: Vermessene Schulen – standardisierte Schüler. Zu Risiken und Nebenwirkungen von PISA, Hattie, Vera & Co. Weinheim/Basel 2015.

Dammer, K.-H.: Vermessene Bildungsforschung. Wissenschaftsgeschichtliche Hintergründe zu einem neoliberalen Herrschaftsinstrument. Baltmannsweiler 2015.

Jahnke, T./Meyerhöfer, W. (Hrsg.): Pisa & Co. Kritik eines Programms. Hildesheim 2006.

National Early Literacy Panel (Ed.): Developing early literacy: A scientific synthesis of early literacy development and implications for intervention. (National Institute for Literacy & The Partnership for Reading) Jessup, Maryland 2008.

Nimmervoll, L.: Statistiker hinterfragt Österreichs PISA-Verschlechterung. In: Der Standard v. 8.12.2016. Download: http://derstandard.at/2000048953546/Statistiker-hinterfragt-Oesterreichs-Pisa-Verschlechterung

Reiss, K., u.a. (Hrsg.): PISA 2015. Eine Studie zwischen Kontinuität und Innovation. Münster/ New York 2016.

Richter, S.: Die Rechtschreibentwicklung im Anfangsunterricht und Möglichkeiten der Vorhersage ihrer Störungen. (Phil. Diss. Universität Bremen) Hamburg 1992.

Robitzsch, A., u.a.: Herausforderungen bei der Schätzung von Trends in Schulleistungsstudien. Eine Skalierung der deutschen PISA-Daten. 2016. Online am 6.12.2016: http://econtent.hogrefe.com/doi/full/10.1026/0012-1924/a000177

Stanat, P., u.a. (Hrsg.): IQB-Bildungstrend 2015. Sprachliche Kompetenzen am Ende der 9. Jahrgangsstufe im zweiten Ländervergleich. Münster/New York 2016.

Wendt, H., u.a. (Hrsg.): Mathematische und naturwissenschaftliche Kompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich. Münster /New York 2016.

Prof. em. Dr. Hans Brügelmann

Fachreferent für Qualitätsentwicklung im Grundschulverband

hans.bruegelmann@gmx.de