“Potentially misleading”
“Statistical malpractice disguised as statistical razzle-dazzle”
“Bullying by numbers”
“Pseudo-science and a house of cards”
“More akin to pig farming than science”
“A cult … a tragedy for Australian School Leadership”
“What monsters wait under the bed of the meta-meta-analysis conducted by Hattie?” (Visible Learning. The Sequel, S. 24)
Die Reaktionen auf John Hatties Studie Visible Learning von 2009 fielen teilweise recht harsch aus. Er hat sich natürlich nicht beleidigt zurückgezogen, sondern das Beste daraus gemacht. In einer kleinen Schrift ist er zusammen mit Arran Hamilton ausführlich auf seine Kritiker eingegangen.
Hattie, J. & Hamilton, A. (2020). Real Gold vs. Fool´s Gold. The Visible Learning Methodology for Finding What Works Best in Education. Thousand Oaks, California: Corwin. A Sage Publishing Company.
Im ersten Teil befassen sich die beiden Autoren vorwiegend mit grundsätzlichen Aspekten der Methodenkritik. In einem zweiten Teil nennen sie 38 Ansatzpunkte der Kritik und gehen in kurzen Zusammenfassungen darauf ein. Diesen zweiten Teil gebe ich hier ungekürzt in einer deutschen Übersetzung wieder, die ich mithilfe von DeepL erstellt habe.
A. Fragen der Meta-Analyse
1. Kritik: Gewichtung.
Einige haben argumentiert, dass die Effektgrößen aus jeder Meta-Analyse nach dem Stichprobenumfang gewichtet werden sollten.
Antwort: Dies ist vernünftig; wir haben dies jedoch für einige Bereiche getestet, und es hat in diesen Fällen kaum einen Unterschied bei den aggregierten Effektgrößen gemacht.
2. Kritik: Stichprobengröße.
Für viele der umstrittenen Einflüsse gibt es nur ein bis drei Meta-Analysen.
Antwort: Der Schlüssel ist nicht unbedingt die Anzahl der Meta-Analysen, sondern eine Kombination von Faktoren wie die Anzahl der Studien in jeder Meta-Analyse, die Anzahl der Effekte, die Stichprobengröße und die Qualität der Meta-Analyse. In Visible Learning MetaX sind all diese Merkmale enthalten, und die Forscher können ihre eigenen Beurteilungen und Analysen vornehmen und die verschiedenen Konfidenzwerte sehen.
3. Kritik: Stichprobenbildung.
Visible Learning verwendet Meta-Analysen von atypischen Schülerpopulationen (z. B. Englischlernende oder Personen mit Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung, Hyperaktivität oder emotionalen/verhaltensbezogenen Problemen). Visible Learning umfasst auch atypische Probanden aus Nicht-Schüler-Populationen, wie Ärzte, Handwerker, Krankenschwestern, Sportler, Sportmannschaften und militärische Gruppen.
Antwort: Es ist richtig, dass die meisten Meta-Analysen verschiedene Stichproben einschließen, und oft werden diese Faktoren innerhalb der Meta-Analyse bewertet. In Visible Learning MetaX wird die Art der Stichprobe identifiziert (Vorschule, Grundschule, High School, Hochschule, alle K-12, Sonderpädagogik oder nicht, usw.). Auch wenn es in der Meta-Analyse Personen gibt, die nicht zur Schule gehen, so sind es doch relativ wenige, da das Hauptunterscheidungsmerkmal im Auswahlprozess das Vorhandensein einer schulischen Stichprobe war.
4. Kritik: Reduktionismus.
Eine Zahl kann ein Forschungsgebiet nicht zusammenfassen; eine häufige Kritik an der Meta-Analyse ist, dass sich die Analyse auf den zusammenfassenden Effekt konzentriert und die Tatsache ignoriert, dass der Behandlungseffekt von Studie zu Studie variieren kann.
Antwort: Das Ziel einer Meta-Analyse sollte darin bestehen, die Effektgrößen zusammenzudenken und nicht einfach (oder notwendigerweise) einen zusammenfassenden Effekt anzugeben. Es ist üblich, zu untersuchen, ob der Gesamtmittelwert eine ausreichende statistische Größe ist, um die Ergebnisse zu erklären. Wenn dies nicht der Fall ist, sind Moderatorenanalysen die Norm, und hierin liegen oft die interessantesten Aspekte von Meta-Analysen. In vielerlei Hinsicht gehören die Analysen ihrer Heterogenität zu den faszinierendsten Teilen der Synthese von Studien. Auch ich habe mehr als 15 Jahre gebraucht, um diese Heterogenität in den vielen Meta-Analysen aufzuarbeiten.
5. Die Kritik: Qualität und Aggregation.
Visible Learning aggregiert die Ergebnisse schlechter Studien und setzt damit niedrige Maßstäbe für die Beurteilung der Qualität von Ergebnisstudien.
Antwort: Es gibt eine ausführliche Diskussion darüber, wie die Qualität in Meta-Analysen berücksichtigt werden sollte. In Visible Learning: A Synthesis of Over 800 Meta-Analyses Relating to Achievement“ sagte ich 2009, dass ich mich in diesem Buch nicht mit Qualitätsfragen befassen würde, da die Qualität an vielen anderen Stellen behandelt wurde (siehe Referenzen im Buch), aber einige behaupteten frech, dass ihm die Qualität egal sei.
Erstens untersuchen die meisten Meta-Analysen die Moderatoreffekte der Qualität und schließen niedrige Effekte aus, wenn dies ein Problem ist.
Zweitens geht es hier um die Qualität der Meta-Analysen, und das ist ein weniger erforschtes Thema. In Visible Learning MetaX stellen wir die Zeitschrift und ihren Impact Factor zur Verfügung, und dies kann dann untersucht werden (obwohl wir akzeptieren, dass dies nicht das optimale Qualitätsmaß ist und andere willkommen sind).
Drittens ist es eine empirische Frage, ob die Qualität der Studie eine Rolle spielt. Wie in Visible Learning erwähnt, haben Lipsey und Wilson (1993) beispielsweise 302 Meta-Analysen in den Bereichen Psychologie und Pädagogik zusammengefasst und keine Unterschiede zwischen Studien, die nur zufällige und nicht zufällige Designs enthielten (d = 0,46 vs. d = 0,41), oder zwischen qualitativ hochwertigen (d = 0,40) und minderwertigen (d = 0,37) Studien festgestellt. Es gab eine Verzerrung nach oben bei den veröffentlichten Studien (d = 0,53) im Vergleich zu den nicht veröffentlichten Studien (d = 0,39), obwohl der Stichprobenumfang nicht mit der Effektgröße zusammenhing (d = -0,03).
Des Weiteren fanden Sipe und Curlette (1996) keinen Zusammenhang zwischen der Gesamteffektgröße von 97 Metaanalysen (d = 0,34) und der Stichprobengröße, der Anzahl der kodierten Variablen und der Art des Forschungsdesigns, und sie fanden einen leichten Anstieg für veröffentlichte (d = 0,46) gegenüber unveröffentlichten (d = 0,36) Metaanalysen.
Es gibt eine Ausnahme, die sich aus den Grundsätzen der statistischen Aussagekraft vorhersagen lässt: Wenn die Effektgrößen nahe bei Null liegen, hängt die Wahrscheinlichkeit, dass man diesem Effekt mit großer Sicherheit trauen kann, wahrscheinlich mit dem Stichprobenumfang und der Qualität der Studie zusammen (siehe Cohen, 1988, 1990). Das Ziel sollte darin bestehen, alle möglichen Studien unabhängig von ihrem Design zusammenzufassen und dann festzustellen, ob die Qualität einen Einfluss auf die endgültigen Schlussfolgerungen hat.
6. Kritik: Das Schubladenproblem.
Das Schubladenproblem macht die Meta-Analyse ungültig. Die Meta-Analyse liefert zwar eine mathematisch fundierte Synthese der in die Analyse einbezogenen Studien, aber wenn diese Studien eine verzerrte Stichprobe aller möglichen Studien sind, dann spiegelt der in der Meta-Analyse angegebene mittlere Effekt diese Verzerrung wider. Es gibt mehrere Anhaltspunkte dafür, dass Studien, die relativ hohe Behandlungseffekte feststellen, eher veröffentlicht werden als Studien, die geringere Behandlungseffekte feststellen. Die letzteren unveröffentlichten Studien schlummern in den Aktenschränken der Forscher – daher das Problem der Aktenschublade.
Antwort: Der Publikationsbias ist ein ständiges Problem in der gesamten Forschung. Viele fragen sich, wie viele unveröffentlichte Studien in der Schublade eines Forschers liegen müssten, um die wesentlichen Ergebnisse der Meta-Analyse umzustoßen. Die Anzahl der in Visible Learning zusammengefassten Studien ist groß (mehr als 90.000), und der Richtwert für einen überdurchschnittlichen Effekt liegt bei d = 0,40. Wir glauben, dass die Vielzahl der Studien und die hohe Messlatte das Schubladenproblem entschärfen.
7. Kritik: „Obstsalat“.
Visible Learning vermischt „Äpfel und Birnen“, indem es die Ergebnisse von Studien mit unterschiedlicher methodischer Qualität kombiniert.
Antwort: Bei jeder Literaturübersicht geht es darum, ausgewogene Urteile über verschiedene Studien zu fällen. Ein wichtiger Grund für die Entwicklung der Meta-Analyse war es, einen systematischeren Weg zu finden, um Studien miteinander zu verbinden, ähnlich wie Äpfel und Birnen einen Obstsalat ergeben können. Die Meta-Analyse kann als Frage nach dem „Obst“ betrachtet werden, um dann die Auswirkungen der Kombination von Äpfeln und Orangen und die angemessene Gewichtung dieser Kombination zu bewerten.
Im Gegensatz zu herkömmlichen Übersichten bieten Meta-Analysen systematische Methoden zur Bewertung der Qualität von Kombinationen, ermöglichen die Bewertung verschiedener Moderatoren und liefern hervorragende Daten für andere, um die Ergebnisse zu wiederholen oder neu zu kombinieren. Der Schlüssel liegt in allen Fällen in der Qualität der Interpretation der kombinierten Analysen. Darüber hinaus können, wie bereits erwähnt, die einzelnen Studien hinsichtlich ihrer methodischen Qualität bewertet werden.
8. Kritik: Wichtige Studien werden ignoriert.
Die in Visible Learning enthaltenen Studien sind eine Rosinenpickerei und lassen einige der wichtigsten Studien aus.
Antwort: Es ist zu hoffen, dass die wichtigen Studien enthalten sind! Wenn nicht, können sie aus traditionellen Übersichten hinzugefügt werden (wie in vielen der Visible Learning-Abschnitte über die verschiedenen Einflüsse). Weitere Meta-Analysen werden laufend zu Visible Learning MetaX hinzugefügt, und viele der Meta-Analysen geben ihre Kriterien für die Suche und Auswahl von Studien explizit an.
9. Kritik: Es ändert sich ständig.
Warum werden in der Visible Learning Datenbank immer mehr Metaanalysen und Einflüsse hinzugefügt?
Antwort: Natürlich müssen weitere hinzugefügt werden, denn das liegt in der Natur der Forschung – wir hinterfragen, fragen, replizieren und validieren ständig frühere Studien. Darüber hinaus basiert Visible Learning auf Popperschen Prinzipien. Wir streben nach Falsifizierbarkeit – vielleicht werden die nächsten Meta-Analysen das Visible Learning zugrunde liegende Modell in Frage stellen, und wir wollen die Ersten sein, die dies anerkennen.
Bisher hat jedoch jede hinzugefügte Meta-Analyse eine Bestätigung und keine Widerlegung geliefert. Es ist spannend, dass Forscher immer noch faszinierende Einflüsse finden, die sie untersuchen und der Datenbank hinzufügen können. Visible Learning MetaX wird es Forschern ermöglichen, zu sehen, wann neue Meta-Analysen hinzugefügt werden, so dass sie die Auswirkungen selbst untersuchen können.
10. Kritik: Die Effektgrößen in Visible Learning ändern sich im Laufe der Zeit.
Antwort: Die Behauptung ist, dass die Rankings und Effektgrößen von Visible Learning nicht konsistent sind, und wir finden das gleiche Ergebnis, wenn eine neue Meta-Analyse zum gleichen Thema hinzugefügt wird. Es wäre sogar noch bemerkenswerter, wenn der durchschnittliche Effekt für jeden Einfluss genau gleich bliebe, wenn mehr Studien hinzugefügt werden! Und in der Tat, die meisten sind sehr ähnlich. Ja, einige haben sich geändert, meist weil die ersten Meta-Analysen möglicherweise nicht genügend Studien enthielten, um eine Stabilität des durchschnittlichen Einflusses zu gewährleisten.
11. Kritik: Rückspiegelsicht auf die Welt.
Was können uns Studien, die auf früheren Studien basieren, über die Zukunft sagen?
Antwort: Ja, die Studien sind „historisch“, das heißt, sie berichten über vergangene Ergebnisse und können nicht zeigen, dass die Zukunft genauso sein muss. Das ist die Bedeutung von „re-search“. Das Ziel besteht darin, aus dem, was geschehen ist, zu lernen, um besser zu wissen, wohin wir gehen sollen, so wie der Blick in den Rückspiegel beim Autofahren uns hilft, sicher voranzukommen.
Wenn wir die Vergangenheit ignorieren, können Meinungen, Modeerscheinungen, Überzeugungen und Wünsche die Oberhand gewinnen. Unsere Aufgabe, die Ausbildung von Schülerinnen und Schülern, verlangt mehr, zumindest aber, dass wir die Fehler der Vergangenheit nicht wiederholen, dass wir lernen, wie wir den Erfolg vergrößern können, und dass wir die Maßnahmen mit der höchsten Wahrscheinlichkeit verbessern.
12. Kritik: Ein narrativer Rückblick ist besser.
Antwort: Ja, natürlich ist er das. Es ist die Interpretation, die am wichtigsten ist, unabhängig davon, ob die Interpretation auf Primär-, Sekundär- oder Meta-Analysen basiert. Ein Schlüsselelement der Visible Learning-Forschung besteht darin, diese Interpretation oder die Geschichte hinter den Daten zu liefern.
B. Effektgrößen
13. Kritik: Die Vermischung verschiedener Effektgrößen ist schlechte Wissenschaft.
Antwort: Es gibt viele Formen von Effektgrößen, und es gibt viele Bücher, die diese beschreiben. In Visible Learning gibt es zwei Hauptformen: (1) Vergleichsgruppe und (2) Wachstum über die Zeit. Beide basieren auf vielen Formen der Statistik, hauptsächlich auf Mittelwerten und Korrelationen. Bei ihrer Betrachtung ist Vorsicht geboten, und das Ziel von Visible Learning ist es, diese Vorsicht walten zu lassen.
Bei den 1.600 Effektgrößen in der aktuellen Visible Learning-Datenbank gibt es keine Mittelwertunterschiede in Bezug darauf, ob die Effekte auf einer Korrelation (0,40) oder auf Mittelwertunterschieden (0,40) beruhen. Interessanter ist, dass die Effekte von Einflüssen, die als „kausal – eine Intervention“ klassifiziert werden, viel höher sind (0,50) als Einflüsse, die eher Korrelate sind (0,30), kausal ohne Intervention (0,28) und kausale Intervention basierend auf dem Kontext (0,28).
Das bedeutet nicht, dass wir diese Unterschiede ignorieren; bei der Diskussion jedes Einflusses kann es wichtige Nuancen in der Interpretation geben, und in den Büchern von Visible Learning werden diese diskutiert. Allzu oft schauen sich Kritiker nur die Tabellen an, ignorieren die Geschichte und schließen fälschlicherweise, dass wir diese wichtigen Moderatoren nicht diskutieren.
14. Kritik: Die allgemeinsprachliche Effektgröße (CLE) ist falsch.
Antwort: Es gab einen bedauerlichen Fehler in frühen Ausgaben von Visible Learning, bei dem die falsche Spalte in einer Tabellenkalkulation verwendet wurde, um die CLE im Anhang zu füllen. Die CLE wurde als Alternative (nicht als Ersatz, wie einige behauptet haben) zur Interpretation der Effektgrößen eingeführt. Offensichtlich war sie nicht erfolgreich, denn es dauerte einige Jahre, bis einige norwegische Studenten den Fehler entdeckten, der sofort eingeräumt und in späteren Neuauflagen von Visible Learning aktualisiert wurde. Der Fehler bedeutete nicht, dass die Effektgrößen oder jegliche Interpretationen, die auf den Effektgrößen in Visible Learning basieren, falsch waren.
15. Kritik: Die Hälfte der Statistiken in Visible Learning sind falsch.
Antwort: Ein Twitter-Troll zu einen Kommentar, der anscheinend mir zugeschrieben wurde – dass die Hälfte der Statistiken in Visible Learning falsch sind – hat diesen Mythos aufrechterhalten. Die Quelle (eine Konferenz in London) wurde auf Video aufgezeichnet, also bin ich zurückgegangen und habe es überprüft – ich habe diesen Kommentar nie abgegeben, und er ist falsch.
Alle Daten sind in den Anhängen von Visible Learning (2009) und Visible Learning for Teachers (2012) (und jetzt in Visible Learning MetaX) zu finden und können von jedem überprüft werden. Ja, die frühen Versionen von CLE waren fehlerhaft, aber das ist nur ein Nebeneffekt der Interpretationen in Visible Learning. Dies ist ein Mythos.
Mehr über diese Kritik erfahren Sie in „Effective Debate: In Defence of John Hattie“ von Stuart Lord (2015).
16. Kritik: Effektgrößen werden von Mathematikern nicht verwendet.
Antwort: Die Behauptung lautet: „Mathematiker verwenden sie nicht. In Mathematik-Lehrbüchern wird sie nicht gelehrt. Statistikpakete berechnen sie nicht.“
Erstens: Statistiker verwenden sie, haben sie entwickelt, lehren sie und berechnen sie. Die Effektgröße wird in den meisten grundlegenden Statistikbüchern erwähnt, ist Gegenstand zahlreicher Studien, wird in allen Meta-Analysen verwendet, wird von der American Psychological Association (2009) dringend empfohlen und wird in vielen Quellen heiß diskutiert. Effektgrößen gibt es tatsächlich.
Es gibt viele Formen von Effektgrößen, es gibt viele statistische Abhandlungen, in denen Effektgrößen diskutiert werden, und nur weil einige Mathematiker sie nicht verwenden, bedeutet das nicht, dass es keine Effektgrößen gibt (siehe Hedges & Olkin, 1985, für eine frühe und ausgezeichnete Analyse von Effektgrößen; und in jüngerer Zeit siehe Coe, 2002, für einen Überblick).
17. Kritik: Effektgrößen sollten in der Bildung nicht verwendet werden, da sie aus der Medizin stammen.
Antwort: Interessanterweise ist das Gegenteil der Fall. Die Effektgröße stammt ursprünglich aus der Bildungsforschung und wurde später von der Medizin übernommen.
18. Kritik: Die Variabilität der Effekte wird ignoriert.
Antwort: Dies ist nicht korrekt. Für jeden Einfluss in Visible Learning gibt es eine Schätzung der Varianz des Mittelwerts der Auswirkungen (siehe jedes Zifferblatt)*. Darüber hinaus gibt es eine etablierte Methode, um festzustellen, ob die Varianz der Effekte so heterogen ist, dass der Mittelwert möglicherweise kein guter Schätzer ist. Die Durchführung solcher Tests ist bei Metaanalysen gängige Praxis, und die Leser wurden aufgefordert, die Originalstudien aufzusuchen, um diese Analysen einzusehen.
Für jeden Einfluss wurde ein Varianzschätzer angegeben (siehe Zifferblatt* für die einzelnen Einflüsse), und wenn diese groß waren, wurde dies entsprechend kommentiert. Es wurde viel Zeit darauf verwendet, viele der Einflüsse mit großer Varianz (z. B. Feedback) zu untersuchen, und die Geschichte ist in der Tat nuancierter, als es der durchschnittliche Effekt widerspiegelt.
Rückmeldungen beispielsweise gehören zu den stärksten, aber auch zu den variabelsten Effekten; obwohl viele Rückmeldungen positiv sind, sind viele auch negativ. So ist es zum Beispiel wichtig, zwischen dem Geben und dem Empfangen von Feedback zu unterscheiden, zwischen „Wie mache ich mich?“ und „Wie geht es weiter?“, und wie Schüler und Lehrer Feedback erhalten und interpretieren (Hattie & Clarke, 2019; Hattie, Gan, & Brooks, 2017; Hattie & Timperley, 2007).
*Gemeint ist die Barometerdarstellung in Visible Learning I, bzw. die Thermometerdarstellung in The Sequel. RG
C. Interpretation der Effektstärken
19. Kritik: Die Verwendung des Angelpunktes von d = 0,40 erscheint willkürlich.
Antwort: Der Angelpunkt ist der Durchschnitt aller über 1.600 Meta-Analysen, und ein Interesse in Visible Learning waren die Einflüsse, die über dem Durchschnitt liegen, insbesondere im Vergleich zu denen, die unter dem Durchschnitt liegen. Es ist faszinierend, dass sich dieser Gesamtdurchschnitt von d = 0,40 seit Johns erster Veröffentlichung im Jahr 1989 nicht verändert hat. Der Wert d = 0,40 ist lediglich eine Gesamtzusammenfassung vieler Einflüsse, über viele Situationen, Altersgruppen, Inhalte usw. hinweg, und dient dazu, die Einflüsse in Visible Learning zu organisieren.
20. Kritik: Der Angelpunkt kontrolliert nicht auf Moderatoren und Mediatoren.
Antwort: Die Behauptung ist, dass die Effektgrößen des US-Bildungsministeriums pro Jahr eine weitere Ebene der Komplexität bei der Interpretation von Effektgrößen darstellen; Studien müssen sowohl für das Alter der Schüler als auch für die Zeit, über die die Studie läuft, kontrollieren, und die Behauptung ist, dass Visible Learning dies nicht tut.
In Wirklichkeit hat es das getan, tut es und wird es immer tun. Der Dreh- und Angelpunkt ist ein Durchschnittswert; wir sollten uns niemals vom Fehler des Durchschnitts verführen lassen, und die Moderatoren und Mediatoren eines Durchschnitts sind in allen Bildungsstudien von zentraler Bedeutung. An vielen Stellen in Visible Learning und anderswo sind die Moderatoren und Mediatoren eine ständige Quelle der Faszination und Debatte.
21. Kritik: Die durchschnittliche Effektgröße kann durch das Alter moderiert werden.
Antwort: Da der Angelpunkt der Gesamtdurchschnitt ist, sollte er immer relativ zu allen Moderatoren, einschließlich des Alters, bewertet werden. Es ist jedoch darauf zu achten, dass dann nicht Behauptungen aufgestellt werden wie „Effektgrößen werden durch das Alter moderiert“ und Tabellen mit diesen Alterseffekten vorgelegt werden, ohne auf die Art der Bewertung zu achten. So stammen diese Tabellen oft von eng gefassten Leistungsmessungen in Kernfächern wie Lesen und Rechnen.
Solche Messungen sind oft kurz (40- bis 120-minütige Tests), eine „Meile breit und ein Zoll tief“ und spiegeln nicht den Reichtum des Lesens und Rechnens wider. In diesen Fällen ist es nicht verwunderlich, dass in den jüngeren Schuljahren größere Fortschritte und in den höheren Schuljahren geringere Fortschritte zu verzeichnen sind. Dies ist nicht zu verwechseln mit Bewertungen von Lese- und Rechenfertigkeiten in den oberen Schuljahren auf der Grundlage des Unterrichts, bei denen man verschiedene Effektstärken erhalten kann (einschließlich, entgegen den Behauptungen der Kritiker, >0,40).
22. Kritik: Es gibt so wenige Moderatoren, die in Visible Learning entdeckt wurden, dass wir den Durchschnitt verwenden können.
Antwort: Es ist richtig, dass es nur wenige Moderatoren für die durchschnittlichen Effektgrößen gibt. Dies steht nicht im Widerspruch zu einer früheren Kritik (damals als „aptitude-treatment interactions“ bezeichnet) von Cronbach und Snow (1977), aber das bedeutet nicht, dass wir nicht ständig nach ihnen suchen sollten.
Moderatoren sind die Essenz des Modells der Berücksichtigung individueller Unterschiede, der Differenzierung und der Zentrierung auf das Kind. Wenn wir Studien durchführen, müssen wir uns ständig fragen, wer, wie, warum, wann und in welchem Ausmaß betroffen ist. Bei solchen Untersuchungen können wir verallgemeinerbare Moderatoren finden oder auch nicht, und das ist ein Ergebnis, doch in der Bildung gehen wir selten von der Prämisse aus, dass eine Intervention für alle passt.
Wo es in Visible Learning (2009) Moderatoren gab, wurden diese vermerkt. So lag beispielsweise der durchschnittliche Effekt für Hausaufgaben bei 0,29, aber die Effektgröße war für die Grundschule niedrig (0,15) und für die Oberschule viel höher (0,64). Dies wird vermerkt, eine Interpretation wird gegeben, und dieser Fall zeigt die geringe Aussagekraft des Durchschnitts (0,29).
23. Kritik: Es ist falsch, sich auf Einflüsse mit hohen Effektstärken zu konzentrieren und die geringen Einflüsse außer Acht zu lassen.
Antwort: Absolut richtig. Einige der geringen Effekte können kritisch sein. Zumindest ist es wichtig zu fragen, warum sie so gering sind, und eines von Johns Interessen ist es, einige davon zu erforschen (insbesondere Fachwissen, modernes Lernen oder offene Umgebungen, Klassengröße und Sitzenbleiben).
Ich habe die Frage gestellt, warum die Effekte bei der Klassengröße so gering sind, vor allem, wenn man davon ausgehen sollte, dass eine geringere Klassengröße mehr Möglichkeiten für die Einführung einiger der höheren Effekte bieten sollte (Hattie, 2010). Wir erforschen die Bedingungen, unter denen vertieftes Fachwissen eine Rolle spielt, und wir sind an einem großen Projekt über den optimalen kooperativen Unterricht beteiligt, um erstaunliche Einflüsse auf Schüler in offenen Umgebungen zu erzielen. Nur weil ein Effekt nicht >0,40 ist, heißt das nicht, dass er nicht lohnenswert ist; es bedeutet, dass er möglicherweise eingehender erforscht werden muss, um die Wirkung zu verstärken.
24. Kritik: Korrelation bedeutet nicht gleich Kausalität.
Antwort: Ja, das ist grundlegend, auch wenn es von einigen bestritten wird, und strukturelle Modelle als Messungen im Laufe der Zeit können eher zu Aussagen über Kausalität führen. Die Rolle des Forschers besteht darin, vorsichtig zu interpretieren und nicht kurzzuschließen oder Kausalität zu unterstellen. Visible Learning hat versucht, ein Modell zu errichten, das Kausalität beinhaltet, hat Beweise aus den vielen Meta-Analysen verwendet, um dieses Modell zu erstellen und zu verteidigen, und hat deutlich gemacht, dass jedes solche Modell falsifizierbar ist. Dies ist die Gratwanderung bei allen Interpretationen, und kausale Behauptungen sind legitim, wenn sie durch Beweise untermauert sind.
25. Kritik: Die Nichtberücksichtigung von qualitativen Studien.
Das Folgende ist ein Beispiel für diese Kritik:
Lassen Sie mich das grundsätzliche Manko etwas deutlicher formulieren. Die nicht-meta-analytischen und qualitativen Studien bzw. Studien mit gemischten Methoden, die Professor Hattie ausgeschlossen hat, sind genau die Forschungsuntersuchungen, die nicht nur (a) zeigen, dass die Klassengröße einen Einfluss auf die Leistungen der Schüler hat, sondern auch (b) welche Auswirkungen unterschiedliche Klassengrößen auf die Lehr- und Lernpraktiken in der Klasse insgesamt haben, und darüber hinaus (c) welche Untergruppen von Schülern am stärksten von größeren oder kleineren Klassengrößen und den damit einhergehenden Änderungen der Unterrichtsprozesse betroffen sind, die sie erfordern.
Antwort: Ja, qualitative Studien werden in Meta-Analysen nicht berücksichtigt, und ja, sie können die Funktionsweise von Klassen bereichern. Eine der aufregendsten Entwicklungen seit der Veröffentlichung von Visible Learning ist das Aufkommen und die Zunahme von Metasynthesen qualitativer Studien (siehe Kennedy, 2008; Suri, 2013), und wir freuen uns darauf, eine ähnliche Synthese dieser Studien zu lesen wie die Arbeit zu Visible Learning. Ich habe auch viele dieser nicht-empirischen Studien verwendet, um die Auswirkungen vieler Einflüsse zu verstehen – und die Klassengröße (Hattie, 2005); in diesem Fall halfen diese Studien zu erklären, warum die Auswirkungen der Klassengröße so gering sind!
26. Kritik: Meta-Analysen sind nicht unterweisungssensibel.
Antwort: Die typische Behauptung ist, dass Meta-Analysen die Tatsache außer Acht lassen, dass verschiedene Ergebnismessungen nicht gleichermaßen empfindlich auf Instruktion reagieren (Popham, 2007). Dies ist nicht bei allen Meta-Analysen der Fall und stellt sicherlich ein wichtiges Problem bei der Interpretation der Implikationen von Meta-Analysen dar. Die Kontrolle der Sensitivität für die Instruktion ist in Metaanalysen angemessener, und es wäre in der Tat von großem Vorteil, wenn dieser Moderator häufiger einbezogen würde.
Ruiz-Primo, Shavelson, Hamilton und Klein (2002) haben eine gute fünfstufige Klassifizierung für den Abstand zwischen einer Bewertung und der Umsetzung des Lehrplans erstellt und mit Beispielen für jede Stufe versehen:
- 1. Unmittelbar, wie z. B. Wissenschaftsjournale, Notizbücher und Klassenarbeiten;
- 2. Nah, oder formale eingebettete Beurteilungen (z. B. wenn eine unmittelbare Beurteilung nach der Anzahl der Pendelschwünge in 15 Sekunden fragt, würde eine nahe Beurteilung nach der Zeit fragen, die für 10 Schwünge benötigt wird);
- 3. Proximal, einschließlich einer anderen Beurteilung desselben Konzepts, die einen gewissen Transfer erfordert (z. B. wenn eine unmittelbare Beurteilung die Schüler auffordert, Boote aus Pappbechern zu bauen, würde die proximale Beurteilung nach einer Erklärung fragen, was Flaschen schwimmen oder sinken lässt);
- 4. Distal, zum Beispiel eine groß angelegte Bewertung aus einem staatlichen Rahmenkonzept für Bewertung, bei dem die Beurteilungsaufgabe aus einem anderen Bereich, z. B. den Naturwissenschaften, entnommen wurde, und bei der das Problem, die Verfahren, Materialien und Messmethoden sich von denen der ursprünglichen Aktivitäten; und
- Remote, wie z. B. standardisierte nationale Leistungstests.
27. Kritik: In Meta-Analysen werden die Kosten nicht kontrolliert.
Antwort: Ja, das tun nur wenige (siehe aber Yeh, 2008), aber die Kosten der Umsetzung können einbezogen werden, wie es die Education Endowment Foundation getan hat. Natürlich müssen die Kosten berücksichtigt werden, wenn Entscheidungen darüber getroffen werden, welche Maßnahmen eingesetzt werden sollen. Würden Sie beispielsweise in die enormen und wiederkehrenden Kosten für die Verringerung der Klassengröße investieren, anstatt die kostengünstigeren und skalierbaren Lösungen wie Direkt Instruktion, Reciprocal Teaching oder formative Assessment zu implementieren? All dies sind ausgezeichnete empirische Fragen, die wir in Visible Learning MetaX zu beantworten versuchen.
28. Kritik: Andere widerrufen jetzt ihre eigene Verwendung von Effektgrößen.
Antwort: Ja, einige haben das getan, obwohl ihre Interpretationen anscheinend die gleichen bleiben. Der berühmteste Fall ist Dylan Wiliam, der behauptete:
„Im Nachhinein war es daher vielleicht ein Fehler, in unserer Broschüre „Inside the black box“ Effektgrößen zu verwenden, um die Art der Auswirkungen aufzuzeigen, die formative Beurteilung haben könnte. Es wäre besser gewesen, von zusätzlichen Lernmonaten zu sprechen, was der Tatsache Rechnung trägt, dass der jährliche Leistungszuwachs, gemessen in Standardabweichungen, in der Grundschule rasch abnimmt (der Zuwachs eines Jahres beträgt mehr als 1 Standardabweichung für Fünfjährige, und nur etwa 0,4 bei 11-Jährigen).
Um die Frage von Michael Dorian zu beantworten – wir haben uns bei der Ermittlung unserer subjektiven Schätzung von 0,4 bis 0,7 Standardabweichungen für die Auswirkungen der formativen Beurteilung mehr auf Studien verlassen, die im Unterricht und über längere Zeiträume hinweg durchgeführt wurden, und die standardisierte Messungen der Leistung verwendeten.
Ich denke immer noch, dass Effektgrößen nützlich sind (und sind weitaus nützlicher als die bloße Angabe statistischen Signifikanzniveaus). Wenn die Effektgrößen auf Experimenten von ähnlicher Dauer, mit ähnlichen Populationen, mit Ergebnismessungen, die ähnlich sind in ihrer Sensitivität für die Auswirkungen des dann sind Vergleiche meiner Meinung nach vernünftig. Andernfalls denke ich, dass Effektgrößen extrem schwer zu interpretieren sind. (Didau, 2014)
Die Realität ist, dass die Verwendung von Effektgrößen in den letzten drei Jahrzehnten erheblich zugenommen hat. In der allgemeinen Einschätzung ist die Verwendung von Effektgrößen inzwischen so gestiegen, dass viele Berufsverbände, Zeitschriftenherausgeber und Statistiker in verschiedenen Disziplinen ihre Einbeziehung als notwendig erachtet haben, um Unterschiede in den Forschungsergebnissen zu verdeutlichen und zu belegen (z. B. American Psychological Association, 2001, 2009; Baugh & Thompson, 2001; Kline, 2004).
29. Kritik: Visible Learning ignoriert die Debatten darüber, was sich zu lernen lohnt.
Die Kritik lautet wie folgt: Nur in einem Satz wird ein Blick auf die materielle Seite geworfen: „Bildung ist mehr, als Menschen das Denken beizubringen – es ist auch, Menschen Dinge beizubringen, die es wert sind, gelernt zu werden“ (S. 27). Das hätte der Ausgangspunkt für einen Diskurs über die Substanz von Bildung und Unterricht sein können, aber Hattie folgt diesem möglichen Gedankengang nicht. Man muss sich also fragen: Wo ist das Fleisch?
Im Kapitel über den „Lehrplan“ würde man mehr Informationen erwarten über die Substanz, den Inhalt des schulischen Lernens. Doch auch hier findet sich nichts. Das Kapitel ist unterteilt in Fachbereiche: Lesen, Mathematik, und andere curriculare Elemente. Unter diesen Rubriken findet der Leser wiederum Berichte
über bestimmte spezielle Lehrmethoden und deren Effektstärken. Die Frage der Inhalte, die Frage nach der pädagogischen Bedeutung von Themen, Überlegungen zu Probleme und Möglichkeiten der Legitimation für curriculare Entscheidungen (Warum dies – warum ausschließen?) werden völlig ausgeblendet. (Terhart, 2011)
Antwort: In Visible Learning geht es nicht um die Ziele der Bildung und es ist auch keine Abhandlung darüber, was es wert ist zu lernen. Ich habe an anderer Stelle über diese Themen geschrieben, und es sind tatsächlich kritische Themen.
30. Kritik: Bei Visible Learning geht es nur um Leistung und das ist nicht alles, worum es in der Schule geht.
Antwort: Visible Learning (2009) beginnt mit den Worten: „Natürlich gibt es viele Ergebnisse der Schulbildung, wie z. B. Einstellungen, physische Ergebnisse, Zugehörigkeit, Respekt, Bürgersinn und die Liebe zum Lernen. Dieses Buch konzentriert sich auf die Leistungen der Schüler, und das ist eine Einschränkung dieser Übersicht“ (S. 6).
Andere Autoren fassen jetzt die Auswirkungen von Motivation, Interesse und Affekt zusammen; wir haben vor Kurzem „Wie wir lernen“ zusammengefasst (Hattie & Donoghue, 2016). Wir würden uns wünschen, dass andere die gesundheitlichen und körperlichen Ergebnisse zusammenfassen. Mitchell (2014) hat sich beispielsweise auf Schüler mit besonderen Bedürfnissen konzentriert, und wir freuen uns, wenn diese umfassendere Sicht auf die vielen Ergebnisse der Schulbildung überprüft wird. Die Leistung steht bei den Ergebnissen der Schulbildung nach wie vor im Mittelpunkt.
31. Kritik: Visible Learning ignoriert sozioökonomische Auswirkungen.
Antwort: Ganz und gar nicht. Der Datensatz von Visible Learning erfasst ausdrücklich Metaanalysen zum sozioökonomischen Status (SES) und anderen außerschulischen Einflüssen. Es wird auch anerkannt, dass der SES einen überdurchschnittlichen Einfluss auf die Lernergebnisse der Schüler hat. Eine Schlüsselbotschaft von Visible Learning ist jedoch, dass die Lehrer einen Unterschied machen und dass wirkungsvolle Strategien die Lernergebnisse verbessern, unabhängig vom Hintergrund oder der Ausgangssituation der Schüler.
32. Kritik: Die Interpretation von Meta-Analysen ist mit vielen Risiken verbunden.
Antwort: Da haben Sie Recht. Es gibt ein ganzes Kompendium von Risiken bei der Interpretation von Statistiken, und diese sind nicht nur bei Meta-Analysen gegeben. So schreiben Andrade und Cizek (2010), Black und Wiliam [1998] stellten fest, [dass] die Effektgröße von der Leistungsspanne in der Population beeinflusst wird. Eine Steigerung um 5 Punkte in einem Test, bei dem die Standardabweichung der Population 10 Punkte beträgt, würde zu einer Effektgröße von 0,5 Standardabweichungen führen. Wird dieselbe Intervention jedoch nur der oberen Hälfte derselben Population verabreicht, würde sie – vorausgesetzt, sie ist für alle Schüler gleichermaßen wirksam – aufgrund der geringeren Varianz der Teilstichprobe zu einer Effektgröße von über 0,8 Standardabweichungen führen.
Ein in der Literatur häufig beobachteter Befund – dass formative Beurteilungsmaßnahmen für Schüler mit sonderpädagogischem Förderbedarf erfolgreicher sind (z. B. in Fuchs & Fuchs, 1986) – ist ohne einen Versuch, die Einschränkung der Varianz zu kontrollieren, schwer zu interpretieren und könnte einfach ein statistisches Artefakt sein. (S. 20) Dieses Problem der Einschränkung der Reichweite kann jedoch bei Primär-, Sekundär- und Meta-Analysen auftreten. Campbell und Stanley (1963) weisen auf viele andere mögliche Gefahren für die Gültigkeit der Interpretation von Statistiken hin, unabhängig davon, ob eine Primär-, Sekundär- oder Metaanalyse verwendet wird. Vorsicht ist immer geboten, und wir haben uns bemüht, bei unseren Interpretationen vorsichtig zu sein.
D. Das Modell von Visible Learning (TM)
33. Kritik: Es gibt alternative Interpretationen auf der Grundlage der Daten von Visible Learning.
Antwort: Natürlich gibt es die, aber bisher hat noch niemand eine alternative Erklärung hergeleitet. Wir fordern Sie auf, dies zu tun, denn das ist der Fortschritt der Wissenschaft. Widerlegen Sie die Theorie von Visible Learning und entwickeln Sie eine neue, bitte. Die Daten liegen alle vor, Visible Learning MetaX ist eine Goldmine, und wir werden die Ersten sein, die Erklärungen anerkennen, die mehr erforschen, mutig und widerlegbar sind und den Schulen helfen, die gewünschte Wirkung auf ihre Schüler zu erzielen. Bislang hat noch niemand eine alternative Theorie auf der Grundlage dieser Daten vorgelegt!
34. Die Kritik: Es ist nur ein Modell.
Antwort: Ja, und wie jedes gute Modell zielt es nicht nur darauf ab, zu erklären, was wir wissen (die Beweise), sondern auch darauf, zu projizieren, was wir vielleicht in Zukunft wissen wollen. Es ist spekulativ.
35. Kritik: Die Hauptaussagen von Visible Learning widersprechen der allgemeinen Erfahrung von Lehrern.
Antwort: Manchmal ja, manchmal nein; das hängt von der Denkweise des Lehrers ab. Manchmal widersprechen die Erkenntnisse tatsächlich dem „gesunden Menschenverstand“, manchmal bestätigen sie ihn und geben die Erlaubnis, weiterzumachen, und manchmal überraschen sie und erfordern eine Triangulation. Erfahrungen werden auch interpretiert, und es ist diese Interpretation, die immer hinterfragt, widerlegt und bewertet werden muss.
36. Kritik: Visible Learning berichtet über die gegenteilige Schlussfolgerung als die eigentlichen Autoren der Studien, über die es berichtet (z. B. „Klassengröße“, „Lehrerausbildung“, „Ernährung“ und „Verringerung störenden Verhaltens“).
Antwort: Bei Visible Learning geht es nicht um das Wiederholen, Zusammenfassen und Kopieren, sondern um das Interpretieren. Eine der wichtigsten Behauptungen in Visible Learning ist, dass fast alles funktioniert, und das hat viele Forscher dazu veranlasst, positive Beweise zu finden und dann Behauptungen über die Bedeutung aufzustellen. Bedeutung ist jedoch ein relatives Konzept. Ein gutes Beispiel ist die Klassengröße; die überwiegende Zahl der Belege zeigt zwar, dass sich eine Verringerung der Klassengröße positiv auf die Leistungen der Schüler auswirkt, aber der Umfang dieses positiven Effekts ist relativ gering (Hattie, 2005, 2016). Viele Autoren zum Thema Klassengröße haben Behauptungen über die Bedeutung aufgestellt, ohne die relative Stärke zu berücksichtigen. Ein weiteres Beispiel ist eine aktuelle Meta-Analyse zur Leistungsvergütung von Lehrern mit einer Gesamteffektgröße von 0,04 (Pham, Nguyen, & Springer, 2017).
37. Kritik: Die Einflüsse sind nicht voneinander getrennt.
Antwort: Völlig richtig, und dies wird in Visible Learning (2009) und Visible Learning for Teachers (2012) immer wieder hervorgehoben. Das Modell von Visible Learning hilft also, die Überschneidungen, die Wechselwirkungen und die Bedeutungen, die den verschiedenen Einflüssen zugrunde liegen, zu erklären. Es ist nicht möglich, einfach die Effektgröße von zwei Einflüssen zu addieren – und diese Überschneidung der vielen Einflüsse ist der Grund, warum ich 15 Jahre gebraucht habe, um das erste Buch zu schreiben.
38. Kritik: Visible Learning konzentriert sich nur auf die Schülerleistungen.
Antwort: Einverstanden. Dies bedeutet jedoch nicht, dass Visible Learning wertlos ist, aber es wirft Probleme mit dem engen Verständnis von Exzellenz auf, die viele für den Zweck der Schulbildung halten. Wir stimmen zu (wie oben erwähnt), dass es andere wichtige Ziele und Ergebnisse der Schulbildung gibt, aber Leistung ist immer noch eines der Hauptziele.
In diesem Zusammenhang ist zu bedenken, dass die Wahrscheinlichkeit einer höheren Effektgröße im Vergleich zu einer breiteren Konzeption des Ergebnisses umso größer ist, je enger das Ergebnis gefasst ist (z. B. ist es einfacher, eine höhere Effektgröße für den Wortschatz als für das Verständnis zu erzielen). Dies ist bei der Entwicklung von Theorien und Erklärungen sowie bei der Interpretation von Metaanalysen und Effekten im Unterricht zu berücksichtigen.
Wie oben einleitend geschrieben, wurde dieser Text mithilfe von DeepL übersetzt, allerdings nicht blind und unkontrolliert, sondern ich habe versucht, die mechanischen Übersetzungen mit Hatties Grundgedanken in Übereinstimmung zu bringen. Da ich kein Statistiker bin, sind die Passagen, in denen sich Hattie zu diesem Fachgebiet äußert, mit Vorsicht zu lesen. Wem es möglich ist, der sollte den Text in der Originalsprache lesen, er ist öffentlich zugänglich.
ISBN 978-1-5443-9992-8





