KI ruiniert Bildung
Automatisierung und der Weg des geringsten Widerstands.
In der Schule und im Studium sind KI-Chatbots fester Bestandteil des Alltags. Das könnte Bildung zum Positiven revolutionieren: Jeder Schüler kriegt einen eigenen KI-Tutor. Die Realität deutet aber in eine andere Richtung. KI wird oft nicht genutzt, um das Lernen zu verstärken. KI wird genutzt, um das Lernen zu ersetzen. Das ist ruinös.
Aber der Reihe nach.
Teil 1: Das Zwei-Sigma-Problem
Der Bildungspsychologe Benjamin Bloom machte 1984 eine wichtige Beobachtung. Schüler, die in der Schule nicht klassischen Unterricht in der Klasse haben, sondern direkt mit einem Tutor in Einzelbetreuung lernen, zeigen bessere Leistung. Deutlich bessere Leistung. Im Durchschnitt schneiden sie bei Leistungsnachweisen zwei Standardabweichungen besser ab als Schüler, die klassischen Unterricht in der Klasse haben. Diesen Befund nannte Bloom das Zwei-Sigma-Problem1. Es ist nicht möglich, an allen Schulen flächendeckend ein Betreuungsverhältnis von 1:1 einzuführen. Das wäre sehr teuer — und so viele Lehrpersonen gibt es schlicht nicht. Gibt es eine andere Möglichkeit, den positiven Effekt von direktem Eins-zu-Eins-Coaching in Gruppen zu übertragen?
Heute wissen wir, dass Bloom den Effekt des direkten Coachings überschätzt hat. Wenn Schüler ein Eins-zu-Eins-Coaching erhalten, verbessert sich ihre Leistung nicht um zwei Standardabweichungen, sondern um rund 0.32 Standardabweichungen2. Das ist aber immer noch ein sehr grosser Effekt. Warum ist ein persönlicher Tutor, der ein individuelles Coaching durchführt, so wirksam? Dafür gibt es verschiedene Gründe. Ein zentraler ist, dass eine Lehrperson mehr Zeit hat, um auf individuelle Bedürfnisse und Fragen einzugehen, wenn sie weniger Schüler betreuen muss. Wenn die Lektion 45 Minuten dauert und man eine Klasse mit 25 Schülern betreut, ist es kaum möglich, bei allen Schülern im Detail nachzuhaken, was sie verstanden haben und was nicht. Ein individuelles Coaching ist entsprechend auch viel interaktiver. Der einzelne Schüler kann gezielter Fragen stellen, und die Lehrperson als Tutor kann gezielt auf Probleme eingehen und versuchen, den Schüler zu motivieren und anzuregen.
Es gab bisher keine Lösung für das Zwei-Sigma-Problem (vielleicht sollten wir es 0.32-Sigma-Problem nennen). Wir wissen zwar, dass individuelles Coaching immer besser ist als Unterricht in grösseren Gruppen. Wir wissen gleichzeitig aber auch, dass schlicht die Ressourcen fehlen, um individuelles Coaching umfassend einfzuführen. Das Dilemma schien lange Zeit unauflösbar.
Das könnte sich heute ändern. Mit KI-Chatbots haben wir nun eine Technologie, mit der sich individualisiertes Coaching flächendeckend skalieren lässt. Die 25 Schüler in einer Schulklasse benötigen nun nicht mehr 25 Lehrpersonen für Coaching. Es genügt, wenn die 25 Schüler in Ergänzung zum Schulunterricht einen Chatbot einsetzen, der ihnen als Tutor den Stoff zusätzlich individualisiert vermittelt.
Wenn KI auf solche Art eingesetzt wird, ist manchmal die Rede von “cognitive scaffolding”: KI ist ein Gerüst, das uns erlaubt, unsere eigenen Denkkompetenzen wirksam auf- und auszubauen.
Teil 2: KI als Tutor
Trotz aller Kritik an KI und insbesondere LLM-Chatbots muss ich festhalten: KI-Chatbots können sehr nützlich sein. Sie können Konzepte sehr gut zusammenfassen. Und vor allem sind sie sehr interaktiv. Sie gehen mit endloser Geduld auf Fragen ein und haben immer Zeit. Damit will ich nicht sagen, dass Chatbots Lehrpersonen ersetzen können. Natürlich können sie das nicht. Lehrpersonen halluzinieren nicht (oder zumindest weniger) und sie haben auch sehr wichtige pädagogische Aufgaben jenseits der blossen Stoffvermittlung. Aber Chatbots haben heute ein technisches Niveau erreicht, das sie als ergänzende Tutoren nützlich macht.
Es gibt Evidenz, dass dieser Nutzen real sein kann. Die Weltbank hat in Nigeria ein grosses Experiment durchgeführt, in dem Schulkinder in der Versuchsgruppe zusätzlich zum klassischen Schulunterricht über sechs Wochen auch einen Chatbot als Tutor einsetzten3. Geprüft wurde, ob der KI-Tutor einen Effekt auf die Englischkenntnisse hat. Das Ergebnis: Schüler mit dem KI-Tutor hatten eine um 0.23 Standardabweichungen bessere Leistung.
Ein ähnliches Ergebnis zeigt eine Studie aus den USA mit Studierenden. Kestin et al.4 haben untersucht, ob die Lernerfolge unterschiedlich sind, wenn Studierende anstatt klassischen Unterricht in der grossen Vorlesung nur Unterricht mit einem spezialisierten KI-Tutor haben. Das Ergebnis: Der klassische Unterricht bringt einen Lernerfolg — aber der KI-Tutor ist noch wirksamer.
Es scheint, als könnten wir die Geschichte an dieser Stelle beenden: Wir haben eine Lösung für das Zwei-Sigma-Problem gefunden. Es gibt gute Evidenz, dass KI-Tutoren den Lernerfolg deutlich steigern können. Kognitives Scaffolding, also der Einsatz von KI, um eigene Denkleistung konstruktiv zu verstärken, funktioniert.
Doch leider endet die Geschichte hier noch nicht. KI-Chatbots haben einen positiven Effekt, wenn sie gezielt als KI-Tutoren eingesetzt werden. Das Problem ist aber, dass die meisten Kinder und Jugendlichen Chatbots nicht spezifisch als KI-Tutoren einsetzen. Sie nutzen Chatbots rationalerweise einfach so, dass sie möglichst schnell zum Ziel kommen.
Der Effekt des kognitiven Scaffolding ist positiv. In der Realität kommt es aber oft zu einem anderen Effekt: Kognitives Offloading. Denkarbeit wird nicht mit einem Tutor gezielt gesteigert. Sie wird an die KI ausgelagert.
Teil 3: Kognitives Offloading
Strömberg et al.5 haben in einer grossen Studie untersucht, welchen Einfluss die Nutzung von KI bei mehr als 26'000 Schülern in China über 30 Monate hat. In der Studie wurden nicht speziell konfigurierte KI-Tutoren getestet, sondern der Effekt der allgemeinen Chatbot-Verfügbarkeit.
Die Studie ist aktuell hinter einer Paywall. Der Einfachheit halber hier direkt das PDF (Ich habe eine Kopie gekauft).
Das Ergebnis der Studie ist sehr deutlich. Die Hausaufgaben der Schüler werden mit der Nutzung von KI rund 20% besser. Die Schüler benötigen für ihre Hausaufgaben zudem rund 20% weniger Zeit. Aber, und das ist der springende Punkt: Die Schüler werden bei Prüfungen, an denen sie keine Chatbots nutzen dürfen, rund 20% schlechter.
Das Phänomen, das sich in diesen Daten offenbart, ist kognitives Offloading6. KI wird in der Realität nicht nur für kognitives Scaffolding genutzt, also als Gerüst, um besser zu lernen. Sie wird auch und wahrscheinlich mehr genutzt, um Aufgaben besser zu erledigen. Und zwar, indem die eigene Denkarbeit ausgelagert wird.
Das Phänomen des kognitiven Offloading zeigt sich auch in weiteren Studien. Bastani et al.7 kommen in einem Experiment zum Schluss, dass KI zwar die Leistung bei Hausaufgaben verbessert. Bei Prüfungen ohne KI sinkt die Leistung der Schüler aber. In dieser spezifischen Studie hatte KI, die gezielt als Tutor eingesetzt wird, keinen negativen Effekt auf die Prüfungsleistung (aber auch keinen positiven).
In einem Experiment kommt Barcaui8 zum Schluss, dass Studierende, die ohne KI-Chatbot lernen, eine schlechtere Prüfungsleistung zeigen als Studierende, die mit KI-Chatbot lernen. Barcaui beschreibt diesen Effekt nicht als kognitives Offloading, sondern als “cognitive crutch”, kognitive Krücke. Die Metaphern sind unterschiedlich, das Prinzip ist aber dasselbe: Wenn man KI nutzt, um Denkarbeit zu automatisieren, kann der Output an Qualität gewinnen, aber die eigene Denkkompetenz wird dadurch nicht gefördert — oder sie erodiert sogar.
Es gibt also zwei mögliche Effekte von KI auf Bildung: Kognitives Scaffolding und kognitives Offloading. Kognitives Scaffolding ist wünschenswert, kognitives Offloading ist es nicht. Die Lösung lautet also: Wir müssen Schülern und Studierenden einfach erklären, dass sie KI nicht als Ersatz für eigenes Denken nutzen sollen, sondern als Verstärkung des eigenen Denkens. Problem gelöst?
Leider nicht.
Teil 4: Der Weg des geringsten Widerstands
Wenn man Jugendliche fragt, wie sie ihre KI-Nutzung einschätzen, sagen viele von ihnen, dass sie sich Sorgen machen9. Sie befürchten, dass sie zu viel Copy-Paste machen anstatt Inhalte selbst zu formulieren. Sie befürchten, dass ihre Kreativität leidet. Sie befürchten, dass es zu einfach ist, Lösungen für Aufgaben zu finden, ohne selbst nachzudenken. Aber: Sie alle nutzen trotzdem KI. Nicht, weil sie dumm sind. Im Gegenteil: Weil sie rational sind.
Unsere menschliche Intelligenz befähigt uns zu rationalem Denken und Entscheiden. Einerseits auf einer epistemischen Ebene: Wir können verstehen, wann es gute Gründe gibt, etwas zu glauben. Andererseits sind wir aber auch auf einer instrumentellen Ebene rational: Wir können verstehen, dass es sinnvoll ist, unsere Ziele mit möglichst wenig Aufwand zu erreichen. Menschen sind nutzenmaximierende Wesen. Wir alle haben einen Homo Oeconomicus in uns.
Unser innerer Homo Oeconomicus ist eine wichtige Triebfeder. Weil wir bestrebt sind, Ziele möglichst effektiv und möglichst effizient zu erreichen, entwickeln wir Technologien, die es uns erlauben, Arbeit zu automatisieren und damit Ziele besser zu erreichen. Ein typisches Beispiel: Wir haben Verkehrsmittel wie die Eisenbahn, das Auto, das Flugzeug erfunden, um besser von A nach B kommen zu können. Wenn man z.B. beruflich 100 km reisen muss, kann man immer noch zu Fuss gehen, aber die meisten Menschen wählen rationalerweise den Weg des geringsten Widerstands.
Das ist grundsätzlich gut. Es ist gut, dass wir Arbeit automatisieren können und dass wir rationalerweise den Weg des geringsten Widerstands wählen. Genau das passiert grundsätzlich auch im Bildungsbereich. Das unmittelbare Ziel von Schülern und Studierenden ist, vorgegebene Aufgaben zu erledigen. Das so effizient wie möglich zu machen, ist grundsätzlich vernünftig.
In diesem Szenario ist unser innerer Homo Oeconomicus aber falsch kalibriert. Das eigentliche, das übergeordnete Ziel von Bildung ist, sich Denkkompetenz anzueignen. Dieses übergeordnete Ziel von Bildung ist in der Praxis aber durch eine Vielzahl kleinteiliger Leistungsnachweise operationalisiert. Die Mathe-Hausaufgaben, die Seminararbeit, und so fort. Man kann an Kinder, Jugendliche und auch an Erwachsene appellieren, dass diese Zwischenschritte bewusst schwer und mühsam sein müssen, weil man dadurch das eigentliche Ziel — Denkkompetenz aufbauen — besser erreicht. Aber es wird bestenfalls nur zum Teil funktionieren.
Unser innerer Homo Oeconomicus ist zu hyperaktiv. Wir sind darauf geeicht, den Weg des geringsten Widerstands zu gehen. Zu sagen, dass man aktiv den grössten Widerstand suchen soll, um daran zu wachsen, ist eine abstrakte intellektuelle Idee. Dass sie zu wenig verfängt, zeigt die Realität des kognitiven Offloading.
Teil 5: Ein systemisches Risiko
Ich habe bereits vor rund einem halben Jahr argumentiert, dass die KI-bedingten Veränderungen unserer Denkleistung nicht nur ein individuelles Phänomen sind. Die Veränderungen sind eine rasante Verschiebung auf der Populationsebene. Kaum eine Technologie hat sich jemals so schnell verbreitet wie die aktuellen Iterationen von KI. Die Veränderungen sind umfassend und tiefgreifend. Sie sind ein systemisches Risiko.
Das systemische Risiko ergibt sich aus dem ungewissen multiplikativen Charakter von kognitivem Offloading. Was passiert, wenn eine ganze Generation über markant tiefere kognitive Kompetenzen verfügt als frühere Generationen? Wir wissen es nicht. Und genau der Umstand, dass wir es nicht wissen, ist eine grosse Bedrohung.
Auf individueller Ebene ist es so gut wie sicher schlecht, über weniger kognitive Kompetenzen zu verfügen. Auch wenn KI einen grossen Teil von Denkarbeit zuverlässig übernehmen kann, bedeutet weniger individuelle Denkkompetenz auch weniger Autonomie und Entscheidungsfähigkeit im eigenen Leben. Dieser Abbau bzw. fehlender Aufbau kognitiver Kompetenzen hat darüber hinaus aber auch zwangsläufig multiplikative Effekte. Der Schaden bleibt nicht isoliert auf das einzelne Individuum begrenzt.
Ein Beispiel. Angenommen, ein Student absolviert sein Studium, indem er seine schriftlichen Arbeiten von KI hat schreiben lassen. Die Leistungsnachweise sind auf dem Papier erfüllt. Die Kompetenzen, für die der Student eigentlich studiert hat, hat er sich aber nur teilweise oder gar nicht angeeignet. Nach dem Studium wird dieser Student vermutlich andere Dinge machen. Er wird in beruflichen oder zivilgesellschaftlichen Kontexten Entscheidungen treffen müssen, die auch andere Menschen beeinflussen. Was, wenn er mangels Denkkompetenz eine katastrophal schlechte Entscheidung trifft, die unter normalen Umständen vermeidbar wäre?
Dieser eine Student aus diesem fiktiven Beispiel wird nicht das Ende der Welt verursachen. Aber die Risikoexposition ist maximal gross: Kognitives Offloading ist ein Phänomen auf Populationsebene. Wenn KI-bedingt sehr viele Entscheidungen nur schon ein klein wenig schlechter sind, können in der Summe aufgrund von Feedbackschlaufen in komplexen Systemen katastrophal negative Outcomes resultieren.
Das systemische Risiko von KI in der Bildung ist damit ein sogenanntes Fat-Tailed-Risiko. Risiko stellen wir uns in der Regel als Thin-Tailed vor, wie eine klassische Normalverteilung: Die meisten Fälle sind im Rahmen des Handhabbaren; extreme Ausreisser existieren eigentlich nicht. Das Risiko von KI für Denkkompetenz hat wegen seines multiplikativen Charakters eine andere Verteilung: Die meisten Outcomes sind immer noch in einem Bereich, in dem keine Krisen drohen. Aber extreme Ausreisser haben lediglich eine kleine, nicht aber eine trivial-kleine Wahrscheinlichkeit. In der Ungewissheit der Fat Tails lauern die grossen Katastrophen.
Ich weiss nicht, wie wir diesem Risiko begegnen sollen. Es wird nie mehr eine Welt ohne Chatbots geben. Es wird nie mehr ein Bildungswesen geben, in dem nicht praktisch alle Schüler und Studierenden (sowie auch Lehrpersonen) KI nutzen, um Denkarbeit zu automatisieren.
Appelle alleine, dass man doch selbstständig denken soll, werden nicht genügen. Unser innerer Homo Oeconomicus hört solche Appelle nicht. Vielleicht liegt die Lösung stattdessen darin, dass wir im Lichte von KI überdenken, wie Bildung überhaupt funktionieren soll. Der Fokus auf viele einzelne Leistungsnachweise (Hausaufgaben, Hausarbeiten) als Mittel zum Zweck des übergeordneten Ziels (Denkkompetenzen entwickeln) hat vielleicht in seiner bisherigen Form ausgedient.
Leistungsnachweise an sich sind sinnvoll, aber wenn Leistungsnachweise von KI automatisiert werden können, werden sie eben auch automatisiert. Die Leistungsnachweise müssen darum stärker KI-inkompatibel gestaltet werden. Das bedeutet vielleicht mehr Arbeit vor Ort als zuhause oder mehr mündliche Leistungsnachweise. Solche Anpassungen klingen einfach, haben aber Grenzen. Einerseits logistisch (der Aufwand für Schulen und Hochschulen steigt), aber auch im weitesten Sinn idealistisch. Der Sinn von Bildung kann nicht sein, Kinder, Jugendliche und junge Erwachsene ständig zu überwachen, weil man ihnen nicht traut, eigenständig zu arbeiten.
Darum müssen wir vielleicht einen anderen Hebel finden, um das Problem anzugehen. Schüler und Studierende müssen intrinsisch dazu motiviert werden, den Weg des grösseren Widerstands zu gehen. Wie wir diese intrinsische Motivation herbeiführen, weiss ich nicht. Eine zentrale Herausforderung ist der Umstand, dass es erster Linie ein Nachteil ist, KI weniger einzusetzen. Wenn alle Mitschüler KI für Hausaufgaben und Hausarbeiten nutzen, aber ich nicht, dann habe ich einen Nachteil. Es gibt keine Bonuspunkte für eine ehrenhafte epistemische Haltung.
Wir müssen dieses Bootstrapping hinaus aus dem Fehlanreiz des kognitiven Offloading aber irgendwie schaffen. Es nicht zu versuchen, können wir uns angesichts des Risikos schlicht nicht leisten.
Bloom, Benjamin S. “The 2 Sigma Problem: The Search for Methods of Group Instruction as Effective as One-to-One Tutoring.” Educational Researcher 13, no. 6 (1984): 4–16. https://doi.org/10.3102/0013189X013006004.
Nickow, Andre, Philip Oreopoulos, and Vincent Quan. “The Promise of Tutoring for PreK–12 Learning: A Systematic Review and Meta-Analysis of the Experimental Evidence.” American Educational Research Journal 61, no. 1 (2024): 74–107. https://doi.org/10.3102/00028312231208687.
Simone, Martín De, Federico Tiberti, Maria Barron Rodriguez, Federico Manolio, Wuraola Mosuro, and Eliot Jolomi Dikoru. “From Chalkboards to Chatbots: Evaluating the Impact of Generative AI on Learning Outcomes in Nigeria. Policy Research Working Paper 11125.” In World Bank. World Bank Publications, 2025. https://eric.ed.gov/?id=ED676624.
Kestin, Greg, Kelly Miller, Anna Klales, Timothy Milbourne, and Gregorio Ponti. “AI Tutoring Outperforms In-Class Active Learning: An RCT Introducing a Novel Research-Based Design in an Authentic Educational Setting.” Scientific Reports 15, no. 1 (2025): 17458. https://doi.org/10.1038/s41598-025-97652-6.
Strömberg, David, Victor Lei, and Yanhui Wu. The Generative AI Learning Penalty: Evidence from Chinese Secondary Education. No. DP21577. June 2, 2026, DP21577. https://cepr.org/publications/dp21577.
Gerlich, Michael. “AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking.” Societies 15, no. 1 (2025): 6. https://doi.org/10.3390/soc15010006.
Bastani, Hamsa, Osbert Bastani, Alp Sungu, Haosen Ge, Özge Kabakcı, and Rei Mariman. “Generative AI without Guardrails Can Harm Learning: Evidence from High School Mathematics.” Proceedings of the National Academy of Sciences 122, no. 26 (2025): e2422633122. https://doi.org/10.1073/pnas.2422633122.
Barcaui, André. “ChatGPT as a Cognitive Crutch: Evidence from a Randomized Controlled Trial on Knowledge Retention.” Social Sciences & Humanities Open 12 (January 2025): 102287. https://doi.org/10.1016/j.ssaho.2025.102287.
Tomescu, Alexandra. Teaching the AI-Native Generation. Oxford University Press, 2025. https://corp.oup.com/spotlights/teaching-the-ai-native-generation/.







Die Problematik der unreflektierten Nutzung von KI im Bildungssystem sind meiner Einschätzung nach bekannt (zumindest klang es auf einem großen Barcamp „KI und Bildung) mit über 300 Personen so). Gleichzeitig verschrecken mich manche Ideen, z.B. von KI-Klassenräumen mit KI-Lehrenden und KI-Mitlernenden jeweils individuell pro lernende Person. Gleichzeitig soll die reale Lehrkraft mehr Zeit zur Interaktion haben … Ich bin da skeptisch.