Fail #34: Vom Algorithmus gefeuert

Wie eine gute Lehrerin ihren Job verlor, weil ihr ein mathematisches Modell das Können absprach.

cathy-oneil-cropDas folgende Beispiel ist dem Buch von Cathy O’Neil entnommen: Weapons of math destruction. How big data increases inequality and threatens democracy (First paperback edition). New York: B/D/W/Y Broadway Books (2017). Auf Deutsch heißt es „Angriff der Algorithmen“. Um es kurz zu sagen: Es macht Angst.

Cathy O’Neil ist eine in Harvard ausgebildete Mathematikerin, arbeitete am College und ging als „Data Scientist“ zunächst in die Privatwirtschaft, wo sie für einen Hedge Fonds tätig war. Sie hat sich davon bald wieder abgewandt und versucht nun, uns Nichtmathematiker über die Fragwürdigkeiten von Entscheidungen aufzuklären, die durch problematische mathematische Modelle und Algorithmen erzeugt werden. Sie schreibt den Blog mathbabe.org.

Ein löbliches Unterfangen

Alles begann damit, dass der damalige Bürgermeister von Washington D.C. im Jahr 2007 versuchte, die Qualität der Schulen in seiner Stadt zu verbessern. Er setzte dazu eine neue Kanzlerin in Amt und Würden, Michelle Rhee, die von der gängigen Theorie ausging: Wenn Schüler nicht genug lernen, liegt das an den Lehrkräften. Rhee entwickelte folglich Pläne, wie sie die schlechten Lehrer entfernen könnte. Dies entsprach dem sich herausbildenden Modell von Systemsteuerung: Evaluiere die Lehrkräfte. Werde die schlechtesten los und setze die besten dahin, wo sie am besten Gutes bewirken können. Rhee entwickelte also ein Lehrerbeurteilungs-Werkzeug namens IMPACT, das auf den jährlichen Testergebnissen der Schüler beruhte, und feuerte anschließend die schlechtesten zwei Prozent der Lehrkräfte, im Folgejahr noch einmal fünf Prozent, das waren 206 Kolleginnen und Kollegen.

Eine gute Lehrerin?

Sarah Wysocki war im zweiten Jahr an ihrer Schule, unterrichtete Fünftklässler und bekam ausgezeichnete Beurteilungen von ihrem Vorgesetzten und sehr positive Rückmeldungen von den Eltern ihrer Schüler. Eine der Rückmeldungen pries sie als „eine der besten Lehrerinnen, denen ich je begegnet bin“. Am Ende des Schuljahres 2010/11 erhielt sie eine miserable Bewertung in der Evaluation durch IMPACT. Diese machte die Hälfte ihrer Gesamtbeurteilung aus und ließ – trotz der gegenteiligen positiven persönlichen Einschätzungen – dem Bezirk keine andere Wahl, als sie zusammen mit den anderen 205 Lehrer/innen zu entlassen. Schließlich musste man ja, unabhängig von subjektiven Meinungen, den objektiven Ergebnissen des mathematisch begründeten Urteils folgen. Das erschien nur recht und billig und vor allem: fair.

„Es ist schwierig.“

Wysocki suchte nach den Gründen für die schlechten Evaluationsergebnisse. Wie kamen sie zustande? Die Antwort darauf war alles andere als einfach. Das Beurteilungssystem war von Mathematica Policy Research entwickelt worden, einer Gruppe von Experten aus Princeton, die versucht hatten, die Fortschritte der Schüler und die Verantwortlichkeiten der Lehrkräfte dafür in einem äußerst komplexen Algorithmus auszuformulieren, in welchen sie zahlreiche Variablen einfließen ließen – den sozioökonomischen Hintergrund der Schüler, Teilleistungsstörungen und anderes. Was damit gemessen wurde, waren die jährlichen Testleistungen der Schüler. Aus dem Vergleich ihrer Vorjahresleistungen mit denen des aktuellen Schuljahres berechnete der Algorithmus den Effekt, den ein Lehrer objektiv erzielt hatte.

Die Webfehler

Die Praktiker unter uns werden die Problematik rasch erkennen: Schülerleistungen können sich von einem Jahr auf das andere heftig ändern, je nach der persönlichen Situation eines Kindes, die auch von Dingen bestimmt ist, die nicht in einem Algorithmus einfließen können: Tagesform, aktuelle Stimmungsschwankungen, Erkältungen, pubertäres Liebesleid, Ärger zuhause, soziale Spannungen in der Klasse und vieles mehr.

Die Statistiker werden sagen, dass eine rechnerische Grundlage von 25 bis 30 Schülern in einer Klasse viel zu dünn ist, als dass man daraus weit reichende Schlüsse ziehen könnte. Algorithmen müssen ihre Qualität schließlich in tausenden von Fällen unter Beweis stellen. Je kleiner das Sample ist, desto größer die Fehlerquote. O’Neil vergleicht die mathematische Arbeit an Suchmaschinen mit einem solchen naiven Vorgehen und schreibt:

The numbers are far too small given all the things that could go wrong. Indeed, if we were to analyze teachers with the statistical rigor of a search engine, we´d have to test them on thousands or even millions of randomly selected students. Statisticians count on large numbers to balance out exceptions and anomalies. (S. 6)

Ein weiteres Problem stellt das mangelnde Feedback dar: Der Algorithmus der Mathematica Policy Researcher konnte sich nicht an einer objektiven Wirklichkeit bewähren – wenn man nicht die Einschätzungen von Vorgesetzten als eine solche nimmt. Also schuf das zugrunde liegende mathematische Modell seine eigene Wirklichkeit. Dazu O’Neil:

Equally important, statistical systems require feedback – something to tell them when they´re off track. Statisticians use errors to train their models and make them smarter… Without feedback, however, a statistical engine can continue spinning out faulty and damaging analysis while never learning from its mistakes… They define their own reality and use it to justify their results. This type of model is self-perpetuating, highly destructive – and very common. (S. 6-7)

Das also ist passiert: Ein mathematisches Modell bezeichnet Wysocki und andere Lehrer/innen als mangelhaft, und der Bezirk sortiert sie aus. Aber wie lernt das Modell, ob es richtig urteilt? Gar nicht. Die Lehrer werden nach dem beurteilt, wie der Algorithmus sie sieht. Wenn sie weg sind, sind 206 Lehrkräfte aussortiert, die im Bezirk „objektiv“ nicht gut unterrichtet haben. Der Algorithmus „beweist“ seine Effektivität. Anstatt nach der Wahrheit zu suchen, verkörpert er sie.

Kein Blick in die Black Box

Sarah Wysocki war es nicht möglich, jemand zu finden, der ihr erklären konnte (oder wollte), wie ihre unterirdische Beurteilung zustande gekommen war. Das ist verräterisch: Urteile von Algorithmen kommen auf Menschen herab wie ein göttliches Diktat. Das Modell ist eine Black Box, die ein streng gehütetes Betriebsgeheimnis enthält. Weil man es nicht kennt, kann man nicht dagegen argumentieren. Viele Lehrer, die anfänglich gegen die mutmaßliche Willkür des Algorithmus‘ protestiert hatten, ließen sich im Lauf der Zeit entmutigen.

Suspicion

Wysocki kam ein Verdacht: Das fragliche Schuljahr hatte sie nämlich mit viel Vorfreude begonnen, weil die Testergebnisse ihrer neuen Schüler/innen im Lesen an der Barnard Elementary School so toll gewesen waren – fünfmal höher als der Durchschnitt. Da würde sie mit vielen guten Schülerinnen und Schülern arbeiten können!

Allerdings musste sie gleich zu Beginn des Schuljahres feststellen, dass viele ihrer Schüler/innen Probleme hatten, auch nur die einfachsten Texte zu lesen. Untersuchungen von der Washington Post und von USA Today hatten herausgefunden, dass an 41 Schulen im Bezirk die Testergebnisse mit hoher Wahrscheinlichkeit geschönt worden waren, auch an der Barnard Elementary! Diese künstlich hoch gehaltenen Testwerte wurden am Ende des Schuljahres mit den unter ihrer Leitung erzielten Lernergebnissen verglichen; kein Wunder, dass sie schlecht abschnitt.

Die Logik im System

Wenn ein Algorithmus über Lehrer urteilt, bestimmt er ihr Verhalten: Die Kolleginnen und Kollegen versuchen sich so zu verhalten und so zu unterrichten, dass sie dem Algorithmus gefallen. Das ist eine existenzielle Frage: Schneiden sie schlecht ab, ist ihre Anstellung in Gefahr. Schneiden sie gut ab, erhalten sie oder/und ihre Vorgesetzten eine Provision (von bis zu $ 8000). Möglich, dass manche deshalb der Versuchung nicht widerstreben konnten, die Testergebnisse zu manipulieren.

End of Story

Die Manipulationen ließen sich allerdings nicht schlüssig nachweisen. Von daher musste sich Sarah Wysocki mit ihrer Entlassung abfinden. Am allmächtigen Algorithmus ließ sich nicht rütteln. O’Neil meint, dass an die menschlichen Opfer weitaus höhere Maßstäbe angelegt werden als an die Algorithmen.

Für Wysocki endete die Angelegenheit versöhnlich: Sie hatte so viele positive Stimmen und Empfehlungen in ihrem Portfolio, dass sie rasch eine neue Stelle in einem wohlhabenden Bezirk in Virginia antreten konnte.

So thanks to a highly questionable model, a poor school lost a good teacher, and a rich school, which didn´t fire people on the basis of their students´scores, gained one. (S. 11)

 

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s