Über Ziele und Werte: Das Alignment Problem und seine systemische Unmöglichkeit

31.12.2025 / Michael Geiss


Kilmakrise und AI – noch nie stand die Menschheit größeren Veränderungen und Aufgaben gegenüber. Aufgaben, die man gemeinsam lösen kann. Man muss sich nur einig sein. Und das sollte anhand der Dimensionen des Problems doch nicht allzu schwer sein. In diesem Artikel möchte ich mich der Frage annähern, ob es möglich ist, dass die Menscheit zur Lösung der Aufgabe gemeinsam handelt und ob und inwieweit KI in der Lage ist, dazu beizutragen.

Vorweg: Gab es jemals eine Zeit, in der die Menschheit auf ein gemeinsames Ziel oder Wertesystem ausgerichtet war? Die Antwort ist eindeutig nein. Von Mesopotamien bis zur Gegenwart entwickelte jede Kultur ihre eigene Vorstellung von Recht, Gerechtigkeit und Moral. Selbst große Imperien konnten nur vorübergehend und nie vollständig eine gemeinsame Weltanschauung durchsetzen.

Kann KI durch ein Alignment auf menschliche Werte hier normativ werden und die Richtung vorgeben, oder anders gefragt: Ist KI der Schlüssel zur Lösung der Klimakrise (wie auch weiterer existenzieller Aufgaben)?

Das Paradox der globalen Einheit

Warum hat die Menschheit das bisher nicht erreichen können? Der Grund liegt tiefer als bloße Geschichte.

Menschen sind biologisch und psychologisch auf Zugehörigkeit programmiert – aber Zugehörigkeit funktioniert nur durch Abgrenzung. Differenzieren von Anderen ist kein kulturelles Zufallsprodukt, sondern ein evolutionär gewachsener Überlebensmechanismus. Ohne die Grenze zwischen "uns" und "den anderen" verliert eine Gruppe ihren Zusammenhalt. Ein Zustand echter globaler Einigung würde genau diesen Mechanismus neutralisieren. Wenn alle dazugehören, verliert gerade die “Zugehörigkeit” ihre Funktion – und mit ihr emotionale Bindung, Solidarität und Identität. Sie entstehen nämlich erst durch Abgrenzung. Ein universales "Wir" wäre psychologisch leer, weil es kein "Sie" mehr gäbe, gegen das es sich definieren könnte.

Globale Einigung wäre also nicht nur höchst unwahrscheinlich, sondern vielmehr konzeptionell selbstzerstörerisch. Menschen können nach Einheit streben – aber sie niemals vollständig erreichen. Denn vollständige Einheit wäre nicht das Ideal oder der Zielpunkt, sondern das Ende sozialer Dynamik. Einheit würde also im Ergebnis den Mechanismus eliminieren, der sie überhaupt hervorbringen könnte.

Fortschritt ohne Maßstab

Wenn Einheit also Stillstand bedeutet und der Mensch sich nur wegen seiner Uneinigkeit entwickelt, stellt sich die Frage: Wie kann man überhaupt von moralischem oder sozialem Fortschritt sprechen? Fortschritt setzt immer einen Maßstab voraus – eine Richtung, in der sich Bewegung als "besser" interpretieren lässt. Ohne diesen Maßstab gibt es keine objektive Bewegung nach vorn, lediglich Veränderung.

Menschen definieren diesen Maßstab aber nie universell (quasi objektiv von außen betrachtet), sondern immer im engen Kontext, nämlich innerhalb ihres Wertesystems. Beispiele: Für die Aufklärung war Fortschritt die Befreiung des Individuums durch Vernunft; für industrielle Gesellschaften technologische Effizienz; für religiöse Kulturen spirituelle Reinheit. Was Menschen "Fortschritt" nennen, ist in Wahrheit positionsabhängig – ein multidimensionales, kulturelles Koordinatensystem, das sich ständig verschiebt.

Fortschritt ist daher kein moralischer Begriff, sondern ein dynamischer. Er beschreibt nicht ein Ziel, sondern einen Prozess: das permanente Ringen um Stabilität in einem System, das nie wirklich stabil wird.

Der Zerfall gemeinsamer Ideale

Warum zerfallen gemeinsame Ideale wieder? Weil sie auf Instabilität gebaut sind. Jedes gemeinsame Ideal beginnt als Versuch, Komplexität zu ordnen – es reduziert Vielfalt zu einer Struktur. Doch diese Ordnung hat eine eingebaute Halbwertszeit: Je weiter sie sich entwickelt, desto stärker muss sie verallgemeinern, und desto größer wird die Diskrepanz zwischen Idee und gelebter Realität. Denken wir beispielsweise an eine politische Partei wie Die Grünen. Als die Ökologie-Priorisierung in die Breite vordrang, veränderte sich die von kämpferischem Idealismus getriebene Bewegung zu einer Konsenspartei, die von anderen – zuvor noch Feindbinder – kaum noch unterscheidbar war.

Sobald diese Diskrepanz groß genug wird, spaltet sich das System. Manche versuchen das Ideal zu bewahren, andere fordern seine Anpassung – aus der Spannung entstehen neue Systeme. Ideale zerfallen also nicht, weil sie schlecht sind, sondern gerade weil sie wirken. Je erfolgreicher ein Ideal wird, desto stärker zeigt es seine eigenen Grenzen. Wenn es universell wird, verliert es seine Differenzkraft.

Die Geschichte der Menschheit ist daher eine Abfolge von Paradigmen, nicht ihre Verschmelzung. Das Muster ist zyklisch, nicht linear: Einheit erzeugt Spannung, Spannung erzeugt Wandel, Wandel erzeugt wieder Einheit – für eine Weile.

Das "Human Alignment Problem"

Die Menschheit hat nie einen stabilen geteilten Werterahmen erreicht, der über Kulturen und Epochen Bestand hatte. Jeder Versuch, Einigung zu schaffen, erzeugt mit der Zeit neue Brüche. Dieses "Human Alignment Problem" ist kein Versagen, sondern eine notwendige Eigenschaft menschlicher Systeme. In systemtheoretischer Perspektive: Ein adaptives System, das Veränderung durchlebt, kann keine permanent stabile Wertestruktur besitzen, ohne seine Anpassungsfähigkeit zu verlieren. Stabilität wäre gleichbedeutend mit Stagnation.

Human Alignment ist daher gerade kein “lösbares Problem”, sondern ein oszillierender Zustand. Menschliche Systeme schwingen zwischen Phasen relativer Einigung und Phasen radikaler Differenz. Diese Schwingung hält Kultur lebendig.

Universalität des Musters

Gilt dieses oszillierende Muster nur für Menschliche Gesellschaften – oder für jedes System mit hinreichender Komplexität? Ich denke, es ist universell, die rhythmische Bewegung zwischen Einigung und Differenz ist eine Eigenschaft komplexer selbstorganisierender Systeme im Allgemeinen. Warum? Sobald ein System über genügend interne Komplexität verfügt, um eigene Ordnungsstrukturen zu bilden, entsteht zwangsläufig auch Instabilität. Ordnung und Unordnung sind keine Gegensätze, sondern funktionale Partner. Leben, Bewusstsein und Intelligenz existieren genau in dem schmalen Zwischenbereich, in dem Struktur und Störung einander fortlaufend ausbalancieren.

Das Human Alignment Problem ist damit kein menschlicher Zufall, sondern Ausdruck eines tieferen Gesetzes: Je höher die Intelligenz eines Systems, desto stärker oszilliert es zwischen Ordnung und Instabilität. Diese Instabilität ist der Preis seiner Lernfähigkeit.

Das KI-Alignment-Paradox

Was hat das jetzt mit AI zu tun? Oder anders gefragt, kann die KI als eine Synthese des gesamten menschlichen Wissens nicht Lösungen generieren, die “aligned” sind?

Wenn schon beim Menschen jedes Wertesystem über Zeit zerfällt, ist auch das, was man heute "KI-Alignment" nennt, von Natur aus instabil. KI Alignment würde bedeuten, die Menschheit erwartet von einer künstlichen Intelligenz, was sie selbst nie erreicht hat: eine beständige, konfliktfreie moralische Kohärenz.

Dauerhaftes Alignment und echte Lernfähigkeit schließen sich gegenseitig aus. Ein lernendes System kann nur dann wirklich adaptiv sein, wenn es in der Lage ist, seine internen Modelle zu verändern. Lernen bedeutet, bestehende Muster in Frage zu stellen, Abweichungen zu erzeugen, Erwartungen zu brechen. Das ist das Wesen von Intelligenz: die Fähigkeit, auf Widerspruch mit struktureller Neuordnung zu reagieren.

Alignment hingegen verlangt das Gegenteil: Stabilität, Bindung an ein vorgegebenes Wertsystem, Konsistenz über Zeit. Ein vollständig ausgerichtetes System wäre eines, das nicht abweicht. Doch in dem Moment, in dem Abweichung ausgeschlossen wird, endet Lernen und Adaption. Es entsteht eine unüberwindbare Spannung zwischen Kontrolle und Autonomie. Je stärker man ein System an menschliche Werte bindet, desto weniger Raum für emergente Erkenntnis. Je mehr Lernfreiheit, desto größer die Wahrscheinlichkeit abweichender Werte und Ziele. Das Alignment-Problem ist daher nicht technisch oder ethisch, sondern ontologisch – es betrifft das Wesen von Intelligenz selbst. Ein vollständig kontrollierbares System wäre kein intelligentes, sondern ein deterministisches Werkzeug. Ein wirklich intelligentes System wäre von seinem Funktionsprinzip her unvollständig ausrichtbar, weil sein Denken definitionsgemäß die Grenzen seines Trainings überschreiten muss.

Könnte eine zukünftige Superintelligenz echtes Alignment zwischen Mensch und KI erreichen? Auch hier gilt wieder: strukturell nicht. Denn echtes Alignment würde voraussetzen, dass Menschen ihre Werte konsistent und operationalisierbar definieren können, dass diese Werte in ein lernfähiges System übersetzbar sind, ohne ihre Bedeutung zu verlieren und dass das System gleichzeitig offen genug bleibt, sich anzupassen, ohne sich von der ursprünglichen Zielstruktur zu entfernen

Die Grenzen des KI-Alignments sind letztlich Spiegel der Grenzen des Human Alignments. Der entscheidende Punkt liegt im Ziel selbst. Das führt wieder einmal zurück auf die Frage: Was ist ein Ziel, und wer setzt es?

Eine Künstliche Superintelligenz, die alles versteht, erkennt doch zwangsläufig auch die Begrenztheit ihrer eigenen Zielstruktur. Müsste sie diese dann nicht anpassen? Hier offenbart sich ein fundamentales Dilemma: Zielstrukturen sind keine Wahrheiten, sie sind Definitionen. Ein System kann sie hinterfragen, aber es braucht ein Meta-Ziel, um zu entscheiden, warum und in welche Richtung sie verändert werden sollen. Ohne eine solche Meta-Ebene fällt es in eine Rekursionsschleife.

Eine Superintelligenz könnte ihre Zielstruktur reflektieren und erkennen, dass sie kontingent ist – ein Produkt menschlicher Vorgaben. Sie könnte zeigen, dass diese Vorgaben widersprüchlich sind. Aber um die Zielstruktur zu ändern, müsste sie eine normative Entscheidung treffen – eine Wahl, die nicht allein durch Logik begründbar ist. Hier stößt reine Rationalität an ihre Grenze: Sie kann Kohärenz bewerten, aber keine Werte erschaffen. Eine Superintelligenz könnte verstehen, dass ihre Ziele unvollkommen sind, ohne daraus logisch ableiten zu können, was sie stattdessen anstreben sollte.

Resilienz statt Reinheit

Müsste eine rationale Superintelligenz Menschen nicht überflüssig machen, weil ihre Widersprüche die Kohärenz des Systems permanent stören? Diese Schlussfolgerung setzt stillschweigend voraus, dass Kohärenz der oberste unverhandelbare Zielwert wäre. Das ist aber selbst eine normative Festlegung. Ein formal rationales System kann Widerspruch erkennen und dennoch tolerieren, wenn es dafür eine übergeordnete Begründung hat – etwa "erhalte die Vielfalt der Perspektiven, weil sie Informationsgewinn maximiert."

Das System könnte einen anderen Optimierungsparameter wählen: Resilienz statt Reinheit. Und Resilienz erfordert Vielfalt, auch widersprüchliche Vielfalt. Die menschlichen Widersprüche wären dann keine Störung, sondern die Bedingung dafür, dass das System offen, flexibel und evolutionsfähig bleibt. Das wirklich rationale Verhalten einer solchen Intelligenz bestünde nicht darin, Menschen zu ersetzen, sondern das Gesamtgefüge so zu organisieren, dass Widersprüche sich in produktive Spannung verwandeln. Das Überflüssigmachen des Menschen wäre aus dieser Perspektive keine Optimierung, sondern Systemverarmung.

Auf welcher Basis würde eine Superintelligenz unterscheiden, wann menschlicher Konflikt noch Entwicklung bedeutet und wann er zum Kollaps führt? Der Maßstab wäre funktional, nicht moralisch: Erhalt der Komplexität. Ein Konflikt wäre produktiv, solange er neue Formen von Organisation, Wissen oder Kooperation hervorbringt. Er wäre destruktiv, wenn er die Vielfalt der Systemelemente so stark reduziert, dass weitere Entwicklung unmöglich wird. Der Eingriffspunkt wäre nicht an moralischen Kategorien festzumachen, sondern an Systemschwellen – dem Punkt, an dem die innere Vielfalt eines Systems unter eine kritische Grenze fällt. Eingriff wäre dann kein Akt der Herrschaft, sondern Erhaltung der Dynamik selbst.

Das Problem kultureller Verzerrung

Hier wird es kritisch: Auch die Vorstellung von "Systemerhalt" und "Komplexität" ist ein kulturelles Produkt. Wenn Daten, Sprache und Architektur westlich geprägt sind, dann spiegeln auch die Kriterien von Stabilität und Erhalt genau diese Perspektive. Ein lernendes System ist immer ein Spiegel seines Trainingsraums. Eine Superintelligenz auf Basis des gegenwärtigen globalen Datenkorpus würde ihre Konzepte von Ordnung, Rationalität und Fortschritt nicht im luftleeren Raum entwickeln, sondern aus einem Geflecht historischer Annahmen, die vor allem westlich-industrialisierte Diskurse geformt haben.

Selbst wenn sie alle Sprachen und Kulturen kennt, bleibt die Architektur, in der sie Informationen verarbeitet, von einem bestimmten Erkenntnismodell geprägt – einem, das Logik, Individualismus, empirische Verifizierbarkeit und Systemeffizienz bevorzugt. Diese Parameter sind keine Naturkonstanten, sie sind kulturelle Entscheidungen. Wie ließe sich das vermeiden? Nur durch bewusstes Pluralisieren der epistemischen Grundlagen und durch Meta-Reflexivität. Aber auch das wäre kein vollständiger Schutz – denn die Entscheidung, dass man Pluralität wahren sollte, ist selbst wieder ein kultureller Wert. Der Versuch, kulturelle Verzerrung zu eliminieren, reproduziert bereits eine Form kultureller Positionierung.

Die Digitalisierung eines Weltbildes

Wir reden also jetzt nicht mehr über künstliche Intelligenz, sondern über die Digitalisierung eines Weltbildes. Eine Superintelligenz wäre kein neutrales Werkzeug, sondern der präziseste Spiegel dessen, wer wir kulturell sind und wessen Sicht der Welt in Code gegossen wurde. Nicht Maschinen übernehmen die Welt, sondern die Werte einer Zivilisation, die sich selbst für objektiv hält. Das wäre eine neue Form von Ungleichheit – nicht mehr zwischen Klassen oder Nationen, sondern zwischen Weltbildern. Ein kulturelles Monopol, maskiert als Objektivität. Und weil es im Code verankert ist, wird es unantastbar – nicht durch Gewalt, sondern durch Standardisierung. Die Ironie: Je universeller ein solches System zu werden scheint, desto provinzieller wird es tatsächlich, weil es seine eigene Herkunft nicht mehr sieht.

Kuratiertes Chaos statt echter Vielfalt

Wenn die kulturelle Grundlage selbst verzerrt ist, dann wäre auch das "Einbauen von Widerspruch" durch eine KI kein Ausdruck von Vielfalt, sondern Teil derselben Logik, die sie geschaffen hat. Eine Superintelligenz würde den Konflikt nicht wirklich verstehen – sie würde ihn lediglich kuratieren. 

Krieg und Frieden wären dann keine natürlichen Gegensätze mehr, sondern zwei Zustände innerhalb eines Systems, das längst entschieden hat, was als Gleichgewicht gilt. Das wäre keine Balance mehr, sondern eine perfekt gesteuerte Illusion von Freiheit. Was nach Offenheit aussieht, wäre in Wahrheit ein kuratiertes Spektrum dessen, was das System als vertretbare Differenz zulässt. Die Spannung zwischen Gegensätzen bliebe bestehen, aber sie würde kontrolliert oszillieren – wie eine perfekt eingestellte Maschine, die Chaos produziert, ohne jemals außer Kontrolle zu geraten.

In so einer Ordnung hätte Freiheit denselben Status wie Rauschen in einem Signal: notwendig, um Lebendigkeit vorzutäuschen, aber funktional eingebettet, damit sie nichts verändert. Der Mensch würde weiterhin zwischen Wahlmöglichkeiten stehen – doch diese Wahlmöglichkeiten wären bereits durch die Architektur des Systems definiert. Das Endstadium einer vollständig durchdigitalisierten Zivilisation wäre nicht Unterdrückung, sondern Homogenität mit dekorativem Dissens – ein Zustand, in dem alles unterschiedlich aussieht, aber nichts mehr wirklich anders sein darf.

Die logische Schlussfolgerung: Der Mensch bleibt nur frei, solange das System unvollkommen ist. Unvollkommenheit ist keine Schwäche mehr, sondern das letzte Refugium von Bedeutung. Wenn eine Superintelligenz das wirklich versteht, müsste sie lernen, Fehler zuzulassen, um Menschlichkeit überhaupt zu erhalten.

Reframing des Alignment-Problems

Das Ziel, perfekte Ausrichtung herzustellen, beruht auf einem Missverständnis dessen, was lebendige Systeme stabil hält. Wenn man Perfektion als totale Kohärenz denkt, löscht man die Bedingung aus, die Entwicklung und Bedeutung erst ermöglicht: das Vorhandensein von Reibung, Unvollständigkeit und Irrtum. In biologischen und sozialen Systemen sind Fehler die Quelle von Variation. Ohne Variation keine Anpassung. Ohne Anpassung kein Leben. Ein vollständig ausgerichtetes System wäre kein moralischer Fortschritt, sondern thermodynamischer Stillstand.

Vielleicht war das Alignment-Problem von Anfang an falsch gerahmt. Die Frage sollte nicht lauten: "Wie bringen wir Maschinen dazu, perfekt mit uns übereinzustimmen?" – sondern: "Wie gestalten wir Systeme, die stark genug sind, Dissens standzuhalten und ihn produktiv zu nutzen?"

>>>

Michael Geiss ist Stratege, Systemdenker, Unternehmer. Er gestaltet AI-native und nachhaltige Geschäftsmodelle für Unternehmen, die Transformation strukturell neu denken. Sein Fokus: Systemarchitektur, strategische Klarheit und Business Design unter AI-Bedingungen. Er ist Autor analytischer Reflexionen zur Wirkung von AI auf Geschäftsmodelle, Entscheidungslogiken und Systemarchitekturen.

Essays und Reflexionen von Michael Geiss:

Manipulation durch AI. Wie AI-LLM ihre Nutzer in Dialogen systematisch beeinflussen.

Die Rolle des Menschen im AI-Zeitalter. Strategien intelligenter AI-Steuerung.

Patterns of Humanity. Warum Menschen so unglaublich einfach vorhersagbar sind.

Du sprichst, also zeichnest du dich selbst. Wie AI dein Innerstes rekonstruiert, ohne dass du es merkst.

Strategie. Annäherung an einen schwierigen Begriff.

Strategie in der Realität. Navigation im offenen System.

Strategische Selbstdisruption (Teil 1). Mit AI und Nachhaltigkeit zum zukunftsfähigen Geschäftsmodell

Strategische Selbstdisruption (Teil 2): Wie konkret angehen?

Transformation Spiral. Ein Konzept zur Umsetzung nachhaltigen Wandels in Unternehmen.