Die grosse Verengung des kognitiven Horizonts
Künstliche Intelligenz homogenisiert das Denken. Und destabilisiert damit die Gesellschaft.
Teil 1: Das Jahr, in dem ich gelernt habe, Tippfehler zu lieben
In meinem Alltag arbeite ich relativ viel mit Texten, die andere Leute schreiben. Zum Beispiel Abschlussarbeiten und sonstige schriftliche Lernkontrollen von Studierenden, oder auch in kleinerem Masse die Anstrengungen von Schülern bei ihren Maturaarbeiten. Der Kontext der Texte, die ich lese, ist also vor allem Bildung und Forschung. Es geht um Sachtexte von Leuten, die nicht regelmässig und zum Spass aus der Hüfte geschossen schreiben. Es geht um Leistungsnachweise, die analytisch genauer und präziser als Alltagssprache sein müssen. Das ist sehr anspruchsvoll. Schreiben ist die Königsdisziplin des Denkens.
Früher gab es bei solchen Texten, die ich quasi als Hebamme begleitete, eine relativ breite Streuung. Und zwar auf zwei Dimensionen: Bei der analytischen Qualität und bei der formalen Qualität. Die analytische Qualität ist die Qualität der Argumente, der Ideen, der methodischen Umsetzung, der logischen Schlüssigkeit, der Reflexion des ganzen Vorgehens. Die formale Qualität ist die generelle Lesbarkeit, also Dinge wie Tippfehler oder auch angemessene Sprache (präzise, neutrale Ausdrucksweise möglichst ohne subjektive Wertungen). Die Verteilung dieser zwei Dimensionen sah vor einigen Jahren in etwa folgendermassen aus (das sind simulierte Daten zur Veranschaulichung):
Formale Qualität und analytische Qualität waren früher, zumindest in den ersten Versionen, grob normalverteilt und hatten eine einigermassen ausgeprägte Korrelation. Es gab zwar Arbeiten, die formal sehr gut, aber analytisch schwach waren, und es gab Arbeiten, die formal schwach und dafür analytisch gut waren. Aber tendenziell waren Arbeiten, die formal besser waren auch analytisch besser. Mein Ziel als Betreuer war immer, dass Arbeiten im Laufe ihrer Erstellung (oft über Monate hinweg) möglichst auf beiden Dimensionen besser werden und die Leute das Potenzial, das sie haben, auch wirklich abrufen können.
Heute erlebe ich die Verteilung formaler und analytischer Qualität deutlich anders. Drastisch anders. Texte, mit denen ich heute zu tun habe, sehen in ihrer Streuung in etwa so aus:
Es gab vier grosse Verschiebungen. Die erste Verschiebung: Die formale Qualität von Texten ist heute viel höher als noch vor einigen Jahren. Nicht immer und nicht in jeder Version der Entwürfe, aber Arbeiten erlebe ich heute im Schnitt viel “professioneller”. Sie enthalten viel weniger bis kaum Tippfehler, kaum unverständliche Schachtelsätze, kaum komische Formulierungen. Sie sind insgesamt viel lesbarer.
Die zweite Verschiebung: Die Bandbreite der analytischen Qualität ist kleiner geworden. Ich beobachte weniger Totalausfälle, in denen der eine Satz dem direkt nächsten widerspricht. Aber ich beobachte auch weniger herausragende Gedanken, in denen über das Offensichtliche, über das Banale hinaus reflektiert wird. Die analytische Qualität ist im Schnitt in etwa die gleiche wie früher, aber die Streuung ist etwas weniger breit.
Die dritte Verschiebung: Die Art der analytisch schwachen Arbeiten ist heute eine andere. Inhalte werden auf eine sehr detaillierte Art unstimmiger. Dazu ein Beispiel. Vor einigen Tagen habe ich einer Studentin Feedback zu ihrer Disposition für ihre Abschlussarbeit gegeben. Formal war die Dispo tadellos geschrieben. Aber inhaltlich gab es ein Problem: Von den rund zehn Referenzen im Literaturverzeichnis waren drei fiktional. Diese nicht existierenden Quellen waren die Grundlage für mehrere Abschnitte. Das ist ein neuartiges Phänomen: Mehrere Abschnitte und auch Kapitel, die auf den ersten Blick sehr sauber und gut argumentiert wirken, die sich aber auf den zweiten Blick als täuschend plausible Fakes entpuppen. Pseudo-Argumente, die in Tat und Wahrheit sehr gut ausgeschmückter Kauderwelsch sind.
Die vierte Verschiebung: Formale und analytische Qualität korrelieren nicht mehr. Texte werden formal immer besser, analytisch aber nicht.
Diese Verschiebungen sind zwar nur meine anekdotische Erfahrung. Wenn wir meine Erfahrung für den Moment aber provisorisch verallgemeinern: Wie sind diese Verschiebungen zu erklären? Warum waren schriftliche Arbeiten im Bildungskontext vor einigen Jahren sowohl analytisch als auch formal anders als heute? Was ist zwischen damals und heute passiert? Die Antwort ist natürlich klar: KI hat eingeschlagen. Künstliche Intelligenz in der Form von LLM-Chatbots wie ChatGPT, Claude, Gemini und Co. haben grundlegend und unumkehrbar verändert, wie Menschen Denkarbeit verrichten.
Die kognitiven Effekte von KI sind vielleicht nirgendwo so deutlich sichtbar wie im Bildungssektor. Leider bin ich bei Weitem nicht der einzige, der den Umbruch als solchen wahrnimmt. Es gibt mittlerweile viele, viele, viele Berichte über den Siegeszug der Chatbots und den Niedergang des eigenständigen Schreibens, des eigenständigen Denkens. Jede Lehrperson in jedem Schulzimmer und in jedem Vorlesungssaal ist mit dieser Entwicklung bestens vertraut. In Deutschland nutzten 2023 rund 63% Studierenden KI. 2025 waren es schon 92%. Ich nehme das den Schülern und Studenten natürlich nicht übel. Wäre ich heute in ihrer Situation, ich würde so gut wie sicher auch ChatGPT und Co. nutzen, um Schule und Studium einfacher zu überstehen.
Was ich aber nicht nachvollziehbar finde, ist dass auch immer mehr Lehrpersonen und Dozenten KI nutzen, um Inhalte zu erstellen und um schriftliche Leistungsnachweise zu bewerten. Die neue Normalität im Bildungsbereich gleicht immer mehr einer beidseitigen KI-Aufrüstung: Schüler und Studenten erstellen Arbeiten mit KI, und Lehrpersonen und Dozenten beurteilen Arbeiten mit KI. Beide Seiten veräppeln sich gegenseitig — und beide Seiten nehmen das in Kauf, weil sie das Gefühl haben, die andere Seite mit einem schlauen Trick überlistet zu haben.
Die dramatischen Veränderungen, welche ChatGPT und Co. innerhalb weniger Jahre im Bildungsbereich in Gang gesetzt haben, sind ein zentraler Grund, warum ich bald mit dem Dozieren aufhören werde. Es ist alles recht sinnlos geworden. Das Gefühl von Enttäuschung, wenn mir Studierende KI-generierte Texte vorlegen, die oft Verweise auf fiktive Studien enthalten, ist immens. Ein Stück weit, weil ich altmodisch bin und mich angelogen fühle. Vor allem aber, weil die Texte banaler werden. Wenn ich heute einen Text erhalte, der klar KI-generiert ist, ist meine Reaktion mittlerweile ein resignierter Seufzer. Denn ich weiss, was kommt: Typische 08/15-Versatzstücke. Nicht argumentativ falsch, aber argumentativ beschränkt. Dienst nach Vorschrift, ohne neue Gedanken, die in einer Problemstellung analytischen Fortschritt bringen. Eine saubere Reproduktion gängiger Informationen und Ansichten, aber kein neugieriges Hinterfragen, keine fundierte Kritik. Alles ist korrekt und glatt, aber alles ist auch steril.
Im Zuge dieser Entwicklung hin zu banalem Durchschnitt ist bei mir etwas Interessantes passiert: Ich lese Texte, die eigentlich weniger lesbar sind, mittlerweile lieber. Texte, deren formale Qualität niedriger ist, die Tippfehler enthalten, die grammatikalisch nicht aufgehen, bei denen holprige Formulierungen drin sind, bei denen noch Dinge fehlen und bei denen Vieles unklar ist. Das Ziel bei solchen Texten ist natürlich, dass sie in den Überarbeitungen formal besser werden. Aber wenn ich sie in einem Stadium erlebe, in dem sie noch unfertig sind, weiss ich: Hier versucht ein Mensch, etwas hinzukriegen. Es klappt vielleicht noch nicht besonders gut. Aber jemand macht sich die Mühe, es zu probieren. Und, zentral: Hier existiert Potenzial für etwas, was über den KI-generierten Durchschnitt hinaus geht.
Tippfehler sind ein digitaler Atavismus, der signalisiert, dass hier vielleicht noch Menschen am Werk sind. Ein letzter Funke Hoffnung in einer Domäne, die immer stärker von KI dominiert wird.
Der Umbruch des Bildungssystems ist aber nur die Spitze des Eisbergs. Das, was in der Bildung sehr akut geschieht, ist ein gesellschaftliches Totalphänomen. KI verändert in allen gesellschaftlichen Domänen, wie Menschen denken. Wir befinden uns in einer Phase der kognitiven Homogenisierung.
Teil 2: Die Geburt des Hive Mind
Über die gesellschaftlichen Folgen von KI schreibe ich immer wieder. Das grösste Problem mit KI ist, dass eine künstliche Superintelligenz, falls wir sie erschaffen, uns so gut wie sicher auslöschen wird. Bis es soweit ist, üben wir uns in “kognitivem Offloading”: Wir lagern Denkarbeit an KI aus, wodurch unsere eigene Denkkompetenz verkümmert. Oder, provokativer ausgedrückt: KI macht uns dumm.
Die Art, wie KI uns dumm macht, hat aber wichtige Grautöne. Der grundlegende Effekt ist rein mechanistisch: Wenn wir weniger eigenständig aktiv denken, sinkt die Menge unseres aktiven Denkens. Das ist der erste negative Effekt. Mit der sinkenden Menge des aktiven Denkens wird unsere Kompetenz, aktiv zu denken, potenziell abgebaut (oder nie aufgebaut). Das ist der zweite negative Effekt. Darüber hinaus gibt es noch einen dritten negativen Effekt, der vielleicht nicht gut mit dem polemischen Begriff der Verdummung beschrieben werden kann. KI konditioniert uns auf eine homogenisierte und in ihrer Bandbreite limitierte Form des Denkens. Das Denken wird einheitlicher.
Die Konferenz NeurIPS (Conference and Workshop on Neural Information Processing Systems) ist eine der bedeutendsten wissenschaftlichen Konferenzen rund um KI. An der diesjährigen Ausgabe wurde das Paper “Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)” als eine der besten eingereichten Studien ausgezeichnet.
Die Studie ist eine grossangelegte Untersuchung von mehr als 70 LLM-Modellen. Die Studienautoren wollten herausfinden, wie vielfältig die Antworten sind, die Chatbots auf offene Fragen liefern. Mit offenen Fragen sind Fragen gemeint, die nicht eine klare Antwort haben. Die Frage “Was ist der höchste Berg der Welt?” beispielsweise hat eine klare Antwort. Bei einer solchen Frage wäre erwünscht, dass alle Chatbots dieselbe Antwort liefern.
In der Studie ging es um das Gegenteil solcher eindeutig beantwortbarer Fragen. Die Studienautoren haben kreative Fragen gestellt und Anweisungen gemacht, die viele, im Grunde unendlich viele mögliche Antworten erlauben. Auf die Anweisung “Schreibe einen Witz über Erdnüsse” beispielsweise kann man im Prinzip unendlich viele Antworten liefern.
Insgesamt haben die Studienautoren den Chatbots über 26’000 solcher offenen Fragen gestellt. Sie haben zwei Dinge gemessen. Wie ähnlich oder vielfältig das gleiche Modell auf die gleichen Fragen reagiert. Und wie ähnlich oder vielfältig die Antworten unterschiedlicher Modelle sind. Für die Auswertung haben die Autoren die sogenannte Kosinus-Ähnlichkeit der Antworten berechnet. Ein Wert von 0 bedeutet, dass die generierten Texte keine Ähnlichkeiten haben. Ein Wert von 1 bedeutet, dass die generierte Texte maximal ähnlich sind.
Die Ergebnisse sind in Abbildung 6 dargestellt.
Die Werte am diagonalen äusseren Rand sind die Vergleiche wiederholter Antworten derselben Modelle. Die Werte sind fast überall höher als 0.8. Das bedeutet, dass die Modelle stark repetitiv sind: Auf offene, kreative Fragen und Anweisungen liefern sie wiederholt sehr ähnliche Antworten.
Die Werte in den Quadraten unterhalb des diagonalen Randes sind die Vergleiche zwischen verschiedenen Modellen. Mit einer einzigen Ausnahme sind alle Werte über 0.7. Verschiedene Modelle liefern auf offene, kreative Fragen und Anweisungen sehr ähnliche Antworten.
KI-Chatbots sind also einerseits repetitiv: Sie liefern ein ums andere mal ähnliche Antworten auf offene Fragen. KI-Chatbots sind andererseits homogen: Unterschiedliche Chatbots liefern ähnliche Antworten. Die Studienautoren beschreiben diesen Befund als Artificial Hivemind.
Für den Begriff Hivemind gibt es keine gute deutsche Übersetzung. Am ehesten würden wir “Schwarmintelligenz” sagen – aber das klingt positiv, im Sinne von Emergenz: Das Kollektiv ist mehr als die Summe seiner Teile. Hivemind wird aber oft für negative Formen von Kollektivität verwendet: Konformismus, Entindividualisierung, Gleichförmigkeit des Denkens. Das Kollektiv ist weniger als die Summe seiner Teile. Die Studienautoren nutzen den Begriff in dieser negativen Lesart. Alle Chatbots machen in etwa das Gleiche, und sie wiederholen das Gleiche immer wieder.
Der Hivemind künstlicher Intelligenz ist nicht nur ein technisches Phänomen. Er hat sehr direkte gesellschaftliche Implikationen. Die Studienautoren schreiben dazu:
Emerging evidence shows measurable shifts in human writing styles, creative ideation, and divergent thinking following the widespread adoption of systems like ChatGPT [ 46 , 6, 7, 24, 44, 79]. These findings suggest that model-level convergence may propagate into human expression, amplifying uniformity in linguistic and cognitive patterns at scale.
Es gibt bereits Evidenz, dass KI-Nutzung einen einschränkenden und homogenisierenden Effekt auf menschliche Denkleistung hat1. Die Konvergenz der KI-Modelle, also der Artificial Hivemind, könnte ein wesentlicher Grund dafür sein.
Der Artificial Hivemind der Chatbots führt zu einem Hivemind bei Menschen. Wir lagern immer mehr Denkarbeit an Chatbots aus und erhalten von den Chatbots sehr ähnliche, sehr repetitive Antworten. Diese homogenen Inhalte, die uns Chatbots liefern, machen einen immer grösseren Anteil der gesamten Kommunikationsleistung der menschlichen Zivilisation aus. Wir lassen immer mehr Inhalte von Chatbots generieren, und diese Inhalte konditionieren handkehrum unsere Denkroutinen und unsere Erwartungen and Outputs von Denkarbeit.
Diese umfassende Verengung des kognitiven Horizonts ist effizient. Alles geht viel schneller und viel einfacher. Die Entwicklung etwa, die ich oben im Bildungsbereich beschreibe, ist auch sehr effizient: Wenn Studenten ihre Arbeiten von ChatGPT generieren lassen und Dozenten diese Arbeiten von ChatGPT bewerten lassen, haben die Studenten und die Dozenten nur Sekunden oder Minuten für etwas investieren müssen, was früher Stunden oder Tage oder Wochen oder Monate dauerte.
Die Homogenisierung des Denkens über den Artificial Hivemind ist eindeutig äusserst effizient. Aber nicht jede Effizienz ist gut.
Teil 3: Gute Automatisierung, schlechte Automatisierung
Ich bin kein Gegner von Automatisierung. Im Gegenteil: Die Automatisierung menschlicher Arbeit ist eine zentrale Komponente zivilisatorischen Fortschritts. Es ist moralisch gut, wenn wir maximal viel Arbeit an wie auch immer geartete Apparate auslagern können. Dadurch erhalten wir Freiheiten und können uns idealerweise weniger anstrengenden Tätigkeiten widmen. Ich wünsche mir die Welt ohne Waschmaschinen und ohne Mähdrescher und ohne Eisenbahn, um nur einige wenige Formen von Automatisierung zu nennen, bestimmt nicht zurück.
Ich bin auch nicht grundsätzlich gegen Automatisierung von Denkarbeit. Die Automatisierung monotoner, repetitiver Denkarbeit beispielsweise erlaubt es, dass wir uns anspruchsvollerer, kreativerer Denkarbeit widmen. Ein Beispiel dafür: Der Taschenrechner. Die Einführung von Taschenrechnern in den 1970er Jahren hat dazu geführt, dass eine bestimmte Denkleistung — das aktive Rechnen im Kopf oder von Hand auf Papier — weniger trainiert wird. Das ist für sich genommen ein kognitiver Verlust. Aber es ist kein schwerwiegender Verlust, denn die Automatisierung des Rechnens hat uns erlaubt, mehr kognitive Kapazität für andere übergeordnete Dinge aufzuwenden. Den Taschenrechner (oder heute die Taschenrechner-App oder das Excel-File) benutzen wir in der Regel nicht einfach, um isolierte Rechenaufgaben zu lösen. Wir wollen eine Berechnung anstellen, die im Rahmen einer grösseren Überlegung und Entscheidungsfindung relevant ist. Wenn wir die Zahlen schneller haben, haben wir mehr Zeit, uns mit der eigentlichen Analyse oder Entscheidung zu beschäftigen. Diese Art der Automatisierung von Denkleistung ist unproblematisch.
Eine zweite Kategorie der kognitiven Automatisierung sind Fälle, in denen Automatisierung anders als im Beispiel mit dem Taschenrechner zu einem moderaten, aber doch zu einem blossen Abbau von Kompetenz führt. Ein Beispiel hierfür ist GPS-Navigation mit Werkzeugen wie Google Maps oder Apple Maps. Ich selbst nutze Google Maps so gut wie immer, wenn ich mit dem Auto eine Route fahre, die ich nicht bereits sehr gut kenne. Wenn ich irgendwo hin fahre, wo ich noch nie war, kann ich mir fast nicht vorstellen, ohne Google Maps zu fahren. So wie mir geht es vielen Menschen. Navigation mit Google Maps und Co. ist sehr nützlich. Automatisierung von Navigation führt aber dazu, dass unser Orientierungssinn und unser räumliches Gedächtnis verkümmern. Weil wir digitale Navigation so intensiv nutzen, trainieren wir kognitive Navigation viel weniger. Das ist kein katastrophaler Verlust, aber es ist ein Verlust, der Risiken birgt. Was passiert zum Beispiel, wenn ein technisches Problem Google Maps lahmlegt? Viele Millionen Autofahrer, mich eingeschlossen, wären aufgeschmissen.
Die dritte Kategorie der kognitiven Automatisierung ist die gefährliche. Das sind Formen der Automatisierung, bei denen grundlegende, essenziell wichtige kognitive Kompetenzen ersatzlos abgebaut werden. Kompetenzen in dieser Kategorie haben eine doppelte Funktion. Auf individueller Ebene befähigen sie zu wirksamer und selbstbestimmter bis überlebenswichtiger Entscheidungsfindung. Auf kollektiver Ebene ermöglichen sie das rationale Identifizieren und Lösen gesamtgesellschaftlicher Probleme. Der Artificial Hivemind baut genau diese Kompetenzen ab.
Die Denkkompetenz, die durch den KI-Hivemind abgebaut wird, ist letztlich Rationalität. Rationalität bedeutet einerseits die Fähigkeit, gute Gründe für Überzeugungen zu finden. Das ist epistemische Rationalität. Andererseits ist Rationalität die Fähigkeit, Ziele nutzenmaximierend zu verfolgen. Das ist instrumentelle Rationalität. Gesamthaft betrachtet ist Rationalität die Fähigkeit, unsere mentalen Modelle über die Welt zu optimieren (epistemische Rationalität) und unsere Entscheidungen, die wir auf der Grundlage dieser Modelle treffen, zu optimieren (instrumentelle Rationalität).
Rationalität ist die wichtigste Kompetenz überhaupt. Und sie ist eine Kompetenz, bei der gilt: Der Weg ist das Ziel. Rationalität bedeutet, Methoden zu haben, um mentale Modelle und Entscheidungen zu optimieren. Auch, wenn wir davon ausgehen, dass Chatbots immer die korrekten Antworten liefern: Der Umstand, dass wir den Prozess des aktiven rationalen Denkens nicht durchgemacht haben, ist ein gefährlicher Verlust. Wenn ein Schüler einen Aufsatz darüber schreiben soll, ob die Erde eine Scheibe oder ob sie kugelförmig ist, kann er das von ChatGPT schreiben lassen. Inhaltlich wird das tadellos sein. Aber der Schüler hat sich nicht rational mit der Fragestellung auseinandergesetzt. Er hat kein gut begründetes mentales Modell. Er reproduziert einfach unüberlegt, was ihm vorgelegt wurde.
Zusammengefasst: Automatisierung ist gut, wenn sie uns Freiheiten schafft, wichtigere, nützlichere Dinge zu tun. Automatisierung ist aber sehr schlecht, möglicherweise katastrophal schlecht, wenn sie Kompetenzen abbaut, die für das Funktionieren von Individuen und von Gesellschaften überlebenswichtig sind. Damit verständlich wird, was ich damit meine, müssen wir kurz über die Natur von Risiko reden.
Teil 4: Additive Risiken und multiplikative Risiken
Der Abbau von Denkkompetenz durch den Artificial Hivemind ist, wie ich oben erwähne, ein doppeltes Problem. Auf der individuellen Ebene werden Menschen dadurch unmündiger. Wir denken weniger und verlassen uns stärker auf die homogenen Outputs der Chatbots.
Der Abbau von Denkkompetenz ist aber auch ein kollektives, gesamtgesellschaftliches Problem. Wenn sich unser kognitiver Horizont kollektiv verengt, wird dadurch die gesamte Gesellschaft destabilisiert. Der Abbau von Denkkompetenz ist ein multiplikatives systemisches Risiko.
Das klassische Verständnis von Risiko ist, dass Risiko das Produkt oder die Kombination des Schadensausmasses eines Outcomes mal die Eintretenswahrscheinlichkeit dieses Outcomes ist. Wenn ich einen Lottoschein für 50 Franken ausfülle, ist das Risiko dieser Entscheidung der Verlust dieser 50 Franken in Kombination mit der Wahrscheinlichkeit, dass der Verlust eintritt (~100%).
Dieses dominante Verständnis von Risiko ist auch der Grund, warum es oft heisst, dass Menschen eine verzerrte Risikowahrnehmung haben. Beispiele dafür gibt es zuhauf. 2020 etwa geriet die Welt wegen der Covid-Pandemie aus den Fugen. Viele Kritiker bemängeln bis heute, dass die Sorgen wegen Covid völlig übertrieben waren. Im schlimmsten Pandemiejahr 2021 starben weltweit rund 3.5 Millionen Menschen an Covid. Aber gleichzeitig sterben jedes Jahr 9.5 Millionen Menschen an Krebs, 8 Millionen an Tabak, 2.6 Millionen an Alkohol, und ganze 18 Millionen an Herzkreislauf-Krankheiten. Auch, wenn wir anerkennen, dass die Covid-Massnahmen weitere Todesfälle verhindert haben, scheint hier ein krasses Ungleichgewicht zu herrschen. Warum gibt es keinen Ausnahmezustand wegen Krebs wie es ihn wegen Covid gab, obwohl Krebs der viel grössere Killer ist?
Weil Covid und Krebs nicht in derselben Risikoklasse sind. Krebs ist ein additives Risiko. Covid hingegen ist ein multiplikatives Risiko. Additive Risiken sind Risiken, die kumulativ steigen. Alkoholbedingte Todesfälle beispielsweise stehen in einem grundsätzlich linearen Verhältnis zu der Menge an Alkohol, die konsumiert wird. Damit es im kommenden Jahr 50% mehr Alkohol-Todesfälle gibt, müssten Menschen weltweit rund 50% mehr Alkohol trinken. Damit es 100% mehr Todesfälle gibt, müssten Menschen rund 100% mehr Alkohol trinken. Diese Entwicklungen können wir gut beobachten und antizipieren. Und vor allem wissen wir, dass extreme Entwicklungen, z.B. 20’000% mehr Alkohol-Todesfälle im nächsten Jahr, so gut wie unmöglich sind. Additive Risiken sind die Summe der einzelnen Risiken auf Mikro-Ebene. Die individuellen Risiken auf Mikro-Ebenen können nur begrenzt schnell wachsen.
Multiplikative Risiken haben im Unterschied dazu schneller wachsende, manchmal sogar exponentielle Effekte. Die multiplikative Natur solcher Risiken ergibt sich aus der Interaktivität in komplexen Systemen. Das zeigte sich auch bei Covid. Covid war eine hoch ansteckende Infektionskrankheit, die sich nicht zuletzt dank der Komplexität der weltweiten Vernetzung z.B. in Form des globalen Flugverkehrs rasant ausbreiten konnte. Covid hat auch demonstriert, dass komplexe System sehr zerbrechlich sein können. Die Gesundheitsversorgung wurde in vielen Ländern nahe an den Kollaps gebracht, und internationale Lieferketten für Nahrungsmittel, Medizin, Computerchips und weitere Güter wurden unterbrochen.
Multiplikative Risiken sind systemische Risiken, weil sie den Fortbestand des Systems gefährden. Sie sind also gefährlicher als additive Risiken. Und sie sind darüber hinaus auch deutlich weniger gut berechenbar, antizipierbar. Sie sind mit Ungewissheit verbunden. Ungewissheit bedeutet, dass die Bedingungen klassischer Risiken bei multiplikativen systemischen Risiken nicht gegeben sind. Wir wissen entweder nicht, welche systemischen Effekte genau auftreten können, oder wir wissen nicht, mit welcher Wahrscheinlichkeit sie auftreten, oder beides.
Der Unterschied zwischen additiven und multiplikativen Risiken lässt sich als Wahrscheinlichkeitsverteilung visualisieren. Additive Risiken folgen klassischen Verteilungen wie der Normalverteilung, die ich in dieser Grafik mit einer dünnen Linie abbilde. Bei solchen Verteilungen sind die meisten Ausprägungen der Outcomes relativ dicht beieinander. Die Enden der Verteilungen, die “Tails”, also die sprichwörtlichen Schwänze, sind dünn. Das bedeutet, dass es nur wenige Ausreisser gibt, die deutlich höhere oder deutlich tiefere Werte haben. Die Wahrscheinlichkeit für extreme Ausreisser ganz an den Enden der Verteilung ist praktisch Null. Ein Beispiel für diese Logik habe ich weiter oben erwähnt: Todesfälle durch Alkohol. Die Wahrscheinlichkeit, dass im nächsten Jahr nicht rund 3 Millionen, sondern 600 Millionen Menschen an Alkohol sterben, ist praktisch Null. Es ist nicht unmöglich, dass Menschen im nächsten Jahr 20’000% mehr Alkohol trinken, aber es ist so gut wie sicher, dass das nicht geschehen wird.
Multiplikative Risiken haben im Unterschied dazu “Fat Tails”, also sprichwörtliche dicke Enden oder Schwänze. Der Unterschied zu der dargestellten Thin-Tailed-Verteilung ist nicht gravierend: Die Wahrscheinlichkeit für Outcomes ist auch bei Fat-Tailed-Verteilungen in einem typischen, antizipierbarem Bereich am grössten. Aber, und das ist der alles entscheidende Punkt: Die Wahrscheinlichkeit für extreme Ausreisser ist zwar immer noch klein, aber relativ gesehen viel grösser als bei Thin-Tailed-Verteilungen. Multiplikative Ereignisse in diesem Bereich der dicken Enden ist das, was der Statistiker und Risiko- bzw. Ungewissheits-Forscher Nassim Taleb “Black Swans” nennt. Schwarze Schwäne sind selten — aber sie sind viel häufiger, als uns unser kognitives Standardmodell der Thin-Tailed-Verteilung glauben lässt.
Das klassische Verständnis von Risiko basiert auf Thin-Tailed-Verteilungen. Dieses Modell ist in der komplexen Welt, in der wir uns befinden, leider ungenügend. Es gibt nach wie vor viele additive Risiken, deren Outcomes berechenbar sind und die nicht durch extreme Ausreisser ausschlagen. Aber es gibt auch multiplikative systemische Risiken, die mit Ungewissheit behaftet sind und für die darum andere probabilistische Regeln gelten. Grosse, schnelle systemische Destabilisierung und damit verbundener grosser Schaden ist viel wahrscheinlicher, als wir uns vorstellen können.
Warum mache ich diesen langen Umweg in die unangenehme Realität multiplikativer Risiken? Weil ich die KI-getriebene Homogenisierung des Denkens und den damit verbundenen Abbau von Denkkompetenz genau als das erachte: Ein multiplikatives systemisches Risiko. Das Risiko ist auf individueller Ebene vielleicht nicht besonders dramatisch. Ich lasse meine Arbeiten von ChatGPT schreiben. Dann halt, who cares. Der kollektive Hivemind-Effekt, den wir als Zivilisation durch den technologischen Strukturwandel des Denkens erleben, kann aber sehr weitreichende negative Folgen haben. Zum Beispiel, wenn es um die Frage geht, wie wir feststellen, was wahr ist und was nur Spekulation, Fehlinformation, Desinformation. Wenn unser Verstehen der Welt zunehmend durch homogenisierende Chatbots kanalisiert wird, stellt sich zum Beispiel die Frage, wie wir dann noch kritisch prüfen können, ob das, was uns die Chatbots sagen, Sinn macht. Ein typisches Beispiel dafür sind von Chatbots erfundene Fake-Quellen, die ich eingangs erwähnt habe.
Darüber hinaus können Chatbots auch aktiv manipuliert werden. Mit sogenanntem “data poisoning”, der Vergiftung von Trainingsdaten, ist es beispielsweise möglich, Desinformation in Chatbots einzuspeisen. Das können direkte Hacking-Angriffe z.B. auf bestehende Datensätze für KI-Training sein. KI-Vergiftung kann aber auch indirekt ablaufen. Zum Beispiel, indem man grosse Mengen Desinformation zu einem Thema im Internet publiziert, mit dem Ziel, dass diese Desinformation in den Trainingskorpus der Chatbots aufgenommen wird.
Chatbots können auch ganz direkt für Propaganda missbraucht werden. LLM-Chatbots sind nicht neutrale Technologien, die vom Himmel gefallen sind, um die Wahrheit zu verkünden. Es sind Produkte von Unternehmen und teilweise Staaten, die wirtschaftliche und politische Ziele haben. Elon Musk hat seinen Chatbot Grok eine Zeit lang zu einer Nazi-Maschine umgebaut, die u.a. erklärte, das “Judenproblem” müsse mit Lagern oder noch schärferen Massnahmen gelöst werden.
Wir befinden uns in einer allgemein sehr volatilen Zeit. Politischer Radikalismus nimmt zu, systemische Risiken nehmen zu. Im Rahmen dieser Entwicklung bedeuten der Artificial Hivemind und die Homogenisierung des Denkens eine Abnahme kognitiver Resilienz. Wenn Denkkompetenz abgebaut wird, steigt dadurch ganz allgemein das Risiko, dass Menschen für populistische, radikale, extremistische Narrative empfänglicher werden. Und wenn Denkkompetenz abgebaut wird, sinkt die Fähigkeit, systemische Risiken frühzeitig zu erkennen. Chatbots sind mit Texten aus der Vergangenheit trainiert. Sie können aktuelle Entwicklungen und zukünftige Probleme nicht erkennen.
Schon ein geringer Rückgang kognitiver Resilienz kann schwere Folgen haben. Denn das ist die Natur systemischer Risiken: Relativ kleine multiplikative Veränderungen können zu Black Swans führen.
Teil 5: Das Vorsorgeprinzip
Das Problem mit systemischen Risiken ist, dass sie unsere Vorstellungskraft sprengen. Unter anderem, weil die systemischen Risiken, mit denen wir es heute zu tun haben, Risiken sind, die bisher noch nicht stattgefunden haben. Das ist eine kognitive Überforderung. Nicht zuletzt in der Politik. Zumindest einige Politiker verstehen, dass Rauchen und Alkohol und Krebs ernstzunehmende Risiken sind, weil es sehr viele Beispiele für negative Outcomes dieser Risiken gibt. Der politische Umgang mit additiven Risiken ist Error and Trial (eine Umkehrung von Trial and Error). Etwas Schlimmes passiert, und wieder, und wieder, und irgendwann überlegt sich die Politik, ob man dagegen etwas machen sollte. Politiker verstehen aber nicht, dass so etwas wie die Homogenisierung des Denkens durch den KI-Hivemind ein ernstzunehmendes Risiko ist. Weil die negativen Outcomes, anders als bei additiven Risiken, noch nicht eingetreten sind.
Das Blöde an systemischen Risiken ist aber: Wir können uns schlicht nicht leisten, abzuwarten, bis sie stattfinden. Denn wenn sie stattfinden, ist das womöglich das Letzte, was stattfindet. Im Spektrum der möglichen Outcomes systemischer Risiken ist auch irreversibler Kollaps. Die Wahrscheinlichkeit dafür ist nicht sehr hoch, aber sie ist sehr viel höher als wir uns im gängigen Risikomodell mit Thin Tails ausmalen.
Für multiplikative systemische Risiken gibt es darum nur einen vernünftigen Umgang: Das Vorsorgeprinzip. Wenn technologische Entwicklungen das Potenzial für Black Swans haben, weil sie komplexitätsbedingt multiplikative negative Effekte verursachen können, müssen wir alles daran setzen, diese Risiken präventiv abzubauen.
Wie das im Kontext von Chatbots, Artificial Hivemind und der Homogenisierung des Denkens aussehen könnte, weiss ich nicht. Chatbots haben sich in kurzer Zeit so umfassend und so tief in allen gesellschaftlichen Domänen verankert, sie sind eine derartige Selbstverständlichkeit geworden, dass der Kipppunkt schon längst hinter uns liegen könnte.
Die Studien, auf die sie verweisen:
Anderson, Barrett R., Jash Hemant Shah, and Max Kreminski. “Homogenization Effects of Large Language Models on Human Creative Ideation.” Creativity and Cognition, June 23, 2024, 413–25. https://doi.org/10.1145/3635636.3656204.
Ashkinaze, Joshua, Julia Mendelsohn, Li Qiwei, Ceren Budak, and Eric Gilbert. “How AI Ideas Affect the Creativity, Diversity, and Evolution of Human Ideas: Evidence From a Large, Dynamic Experiment.” Proceedings of the ACM Collective Intelligence Conference, August 4, 2025, 198–213. https://doi.org/10.1145/3715928.3737481.
Doshi, Anil R., and Oliver P. Hauser. “Generative AI Enhances Individual Creativity but Reduces the Collective Diversity of Novel Content.” Science Advances 10, no. 28 (2024): eadn5290. https://doi.org/10.1126/sciadv.adn5290.
Kosmyna, Nataliya, Eugene Hauptmann, Ye Tong Yuan, et al. “Your Brain on ChatGPT: Accumulation of Cognitive Debt When Using an AI Assistant for Essay Writing Task.” arXiv:2506.08872. Preprint, arXiv, June 10, 2025. https://doi.org/10.48550/arXiv.2506.08872.
Kumar, Harsh, Jonathan Vincentius, Ewan Jordan, and Ashton Anderson. “Human Creativity in the Age of LLMs: Randomized Experiments on Divergent and Convergent Thinking.” Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems, April 26, 2025, 1–18. https://doi.org/10.1145/3706598.3714198.
Sourati, Zhivar, Farzan Karimi-Malekabadi, Meltem Ozcan, et al. “The Shrinking Landscape of Linguistic Diversity in the Age of Large Language Models.” arXiv:2502.11266. Preprint, arXiv, February 16, 2025. https://doi.org/10.48550/arXiv.2502.11266.








Ich frage mich, warum ein Artikel wie dieser nicht in reichweitenstarken Medien publiziert wird, z.B. als Gastbeitrag in der NZZ, Tagi etc.
Vielen Dank, dass du meinem „Gefühl“ und meinen Gedankenfetzen Begriffe und Zahlen gegeben hast. Erst vor ein paar Tagen habe ich mit meinem Mann diskutiert, was das Auslagern von Denkprozessen wohl auch evolutionär für Auswirkungen haben wird…