Grenzen der KI — Warum LLMs nicht alles können

Einleitung

KI ist mächtig — aber nicht unfehlbar

ChatGPT, Claude und Gemini können Texte schreiben, Code analysieren und Fragen beantworten, als wären sie intelligent. Aber der Schein trügt — und zwar an mehreren Stellen gleichzeitig.

Die Leistungsfähigkeit moderner KI-Systeme ist beeindruckend — keine Frage. Aber sie hat einen Preis, und sie hat grundlegende Grenzen, die nicht einfach durch größere Modelle oder mehr Trainingsdaten überwunden werden können. Wer KI blind vertraut, riskiert Fehlentscheidungen, peinliche Fehler im Kundengespräch oder im schlimmsten Fall rechtliche Konsequenzen.

💡 Warum dieses Thema wichtig ist: KI-Unternehmen verkaufen ihre Produkte oft als »intelligent« oder »menschenähnlich«. Wer versteht, wo die Grenzen wirklich liegen, kann KI sicher und effektiv nutzen — und weiß, wann man lieber einen Menschen fragt oder eine andere Lösung wählt.

Problem Nr. 1

Halluzinationen — KI erfindet Fakten

Die wohl bekannteste und gefährlichste Schwäche von LLMs: Sie behaupten Dinge mit größter Überzeugung, die komplett falsch sind. Fachleute nennen das »Halluzinationen«.

Ein LLM wie ChatGPT oder Claude hat keinerlei eingebauten Wahrheitssensor. Es weiß nicht, ob eine Aussage richtig oder falsch ist — es weiß nur, ob sie sprachlich plausibel klingt. Wenn das Modell eine Frage bekommt, zu der es keine guten Trainingsdaten hat, erfindet es einfach eine überzeugende Antwort.

📷 Reales Beispiel — so täuschend echt können Halluzinationen sein

Ein Nutzer fragte ChatGPT nach einem Buch, das angeblich existierte. Das Modell antwortete mit Autor, Verlag, ISBN-Nummer, Erscheinungsjahr und einer ausführlichen Inhaltsangabe. Der Haken: Das Buch gab es nie. Alle Details waren frei erfunden — inklusive der ISBN. Ein Mensch hätte sofort gemerkt, dass er nichts weiß. Eine KI sagt einfach etwas.

📚

Zitate & Quellen

KI erfindet Buchtitel, Autoren und Seitenzahlen, die überzeugend klingen, aber nie existiert haben. Besonders häufig bei älteren oder obskuren Werken.

💰

Zahlen & Daten

Statistiken, Marktgrößen und historische Daten werden oft frei erfunden. Eine KI kann dir »belegen«, dass 73 % aller Österreicher — absolut erfunden.

⚖️

Rechtliches

KI zitiert Paragraphen und Gerichtsurteile, die es nie gab. Schon mehrfach haben Anwälte erfundene Urteile ungeprüft in Schriftsätzen verwendet — mit peinlichen Folgen.

⚠️ Berühmter Fall: Anwalt zitiert KI-Halluzinationen vor Gericht: 2023 reichte ein US-Anwalt einen Schriftsatz beim Bundesgericht in New York ein, der mehrere von ChatGPT erfundene Gerichtsurteile zitierte. Auf Nachfrage des Richters gab der Anwalt zu, die Urteile nicht überprüft zu haben. Der Fall machte weltweit Schlagzeilen und zeigt, wie gefährlich blindes KI-Vertrauen sein kann — selbst bei ausgebildeten Juristen.

Der Grund liegt im Funktionsprinzip von LLMs: Sie sind Wahrscheinlichkeitsmaschinen, keine Wissensdatenbank. Ein LLM berechnet für jedes mögliche nächste Wort eine Wahrscheinlichkeit und wählt das wahrscheinlichste aus. Es gibt keinen Mechanismus, der prüft, ob die Antwort in der realen Welt stimmt.

Halluzinationen treten besonders häufig auf, wenn:

Die Frage ein Thema betrifft, das in den Trainingsdaten selten oder gar nicht vorkommt
Der Nutzer nach sehr spezifischen Details fragt (genaue Zahlen, Zitate, Paragraphen)
Das Modell versucht, eine komplexe Frage mit einer knappen Antwort zu beantworten
Die Frage keine korrekte Antwort hat — das Modell aber trotzdem eine geben muss

✅ So erkennst du Halluzinationen: 1. Prüfe konkrete Behauptungen — besonders Zahlen, Zitate und Namen. 2. Frag dasselbe in einer anderen Formulierung — inkonsistente Antworten sind verdächtig. 3. Bitte um Quellenangaben und prüfe sie. 4. Vertraue bei kritischen Themen keinem KI-Output ohne menschliche Überprüfung.

Problem Nr. 2

Kein echtes Verständnis — LLMs rechnen nur Wahrscheinlichkeiten

Das härteste Wort in der KI-Diskussion: LLMs »verstehen« nichts. Sie produzieren überzeugende Sprache, aber dahinter steckt kein Bewusstsein, kein Denken und kein tiefes Verständnis.

❌ Was LLMs nicht können (echtes Verständnis)

Den Sinn eines Textes tatsächlich »begreifen«
Zwischen wahr und falsch unterscheiden (kein Wahrheitssensor)
Eigene Überzeugungen oder Meinungen haben
Kausale Zusammenhänge wirklich verstehen
Auf neue Situationen mit echtem logischen Denken reagieren

✅ Was LLMs stattdessen tun (Mustererkennung)

Textmuster aus Trainingsdaten reproduzieren
Wahrscheinlichkeitsverteilungen für nächste Wörter berechnen
Kontext aus vorherigen Nachrichten »erinnern« (im Kontextfenster)
Sprachlich überzeugende, aber faktenunabhängige Texte erzeugen
Auf Basis statistischer Korrelationen »argumentieren«

⚠️ Das »Chinese Room«-Argument: Der Philosoph John Searle beschrieb 1980 ein Gedankenexperiment: Stell dir einen Menschen in einem verschlossenen Raum vor. Durch einen Schlitz bekommt er chinesische Schriftzeichen herein und ein Handbuch, das ihm sagt, welche Zeichen er zurückgeben soll. Für die Außenwelt sieht es aus, als würde der Raum Chinesisch verstehen — tut er aber nicht. Genau so funktionieren LLMs. Quelle: Searle, J. (1980). Minds, Brains, and Programs. Behavioral and Brain Sciences 3(3): 417–457.

Teilweise ja — aber auf eine begrenzte Art. LLMs können einfache logische Schlüsse ziehen, wenn ähnliche Muster in den Trainingsdaten vorkamen. Sobald die Logik aber ungewöhnlich wird oder neue Kombinationen erfordert, scheitern sie oft.

Quelle: Eine Studie von Apple-Forschern aus dem Jahr 2024 zeigte, dass selbst GPT-4o bei einfachen logischen Schlussfolgerungsaufgaben in 30–40 % der Fälle falsche Antworten gab.

Problem Nr. 3

Energieverbrauch — KI ist ein Stromfresser

Hinter jeder KI-Antwort steckt ein enormer Energieaufwand. Ein einziger ChatGPT-Chat verbraucht etwa 10-mal mehr Strom als eine Google-Suche — und das Training der großen Modelle kostet Millionen von Kilowattstunden.

10×Mehr Energie als eine Google-Suche pro ChatGPT-Chat

~1.300 MWhGeschätzter Stromverbrauch für GPT-4 Training

~600 t CO₂CO₂-Äquivalent für ein großes KI-Training

569 Mio. lWasser für Kühlung eines Microsoft-Rechenzentrums (2023)

Eine Studie der University of Massachusetts Amherst ergab, dass das Training eines großen KI-Modells rund 1.300 Megawattstunden Strom verbrauchen kann — das entspricht etwa dem Jahresverbrauch von 130 durchschnittlichen österreichischen Haushalten (Quelle: Strubell et al., 2019, ACL).

✅ Zum Vergleich: Ein menschliches Gehirn verbraucht etwa 20 Watt — und kann damit ein Leben lang lernen, denken, fühlen und kreativ sein. Ein LLM braucht das Äquivalent einer Kleinstadt, um zu »denken« — und kann nicht einmal sicher zwischen wahr und falsch unterscheiden.

Ja, aktuell ist der Energieverbrauch von KI-Systemen ein echtes Problem. Aber es gibt Nuancen:

Effizienzgewinne: Neuere KI-Chips sind pro Rechenoperation deutlich effizienter
Quantization & Distillation: Kleinere, optimierte Modelle können oft ähnliche Ergebnisse liefern wie große Modelle
Erneuerbare Energien: Große KI-Anbieter investieren massiv in erneuerbare Energien für ihre Rechenzentren
Nutzen vs. Kosten: In vielen Fällen kann KI-Einsatz in anderen Bereichen mehr CO₂ einsparen

Problem Nr. 4

Ineffizienz — Gigantische Modelle, kleine Leistung

LLMs sind riesig — GPT-4 soll Schätzungen zufolge 1,8 Billionen Parameter haben und benötigt mehrere Hundert Gigabyte Speicher. Ein menschliches Gehirn arbeitet mit 20 Watt.

💿 LLM (GPT-4)

Größe: Geschätzt 1,8 Billionen Parameter
Speicher: ~700 GB (komprimiert)
Leistung: Tausende GPUs (Megawatt-Bereich)
Training: Monate auf Supercomputer-Clustern
Wissensstand: Eingefroren zum Trainingszeitpunkt
Lernfähigkeit: Null — kann nach Training nicht mehr dazulernen

🧠 Menschliches Gehirn

Größe: ~86 Milliarden Neuronen, ~100 Billionen Synapsen
Speicher: Geschätzt ~2,5 Petabyte
Leistung: ~20 Watt
Training: 20+ Jahre lebenslanges Lernen
Wissensstand: Aktuell — lernt jeden Tag dazu
Lernfähigkeit: Permanent — lebenslanges Lernen

💡 Was sagt uns das? Der Vergleich zeigt nicht, dass KI nutzlos ist — sondern dass der aktuelle Ansatz (»immer mehr Parameter, immer mehr Daten«) an fundamentale Grenzen stößt. Energieeffizientere Architekturen sind kein Luxus, sondern eine Notwendigkeit.

Problem Nr. 5

Datenschutz — KI hat kein Gedächtnis und keine Privatsphäre

Viele Nutzer behandeln KI-Assistenten wie vertrauliche Gesprächspartner — und geben dabei hochsensible Daten preis, ohne sich der Konsequenzen bewusst zu sein.

Das Problem ist grundlegend: Deine Eingaben in ChatGPT, Claude oder Gemini werden in der Regel für das Training der nächsten Modellgeneration verwendet. Was du dem KI-Assistenten anvertraust, kann morgen Teil seiner Trainingsdaten sein.

⚠️ Konkrete Risiken im Alltag:

Passwörter und Zugangsdaten: Niemals in einen KI-Chat eingeben. Die Daten können gespeichert und für Training verwendet werden.
Bankdaten und Finanzinformationen: Kontonummern, Kreditkartendaten, Gehaltsinformationen — alles tabu.
Geschäftsgeheimnisse: Vertrauliche Firmendaten, Kundenlisten oder Geschäftsstrategien gehören nicht in einen KI-Chat.
Personenbezogene Daten: Namen, Adressen, Geburtsdaten anderer Personen — ein DSGVO-Albtraum.
Medizinische Daten: Auch wenn die KI keine Diagnose stellt, können Gesundheitsdaten in falsche Hände geraten.

Die DSGVO (Datenschutz-Grundverordnung) ist hier eindeutig: Wer personenbezogene Daten in ein KI-System eingibt, muss sicherstellen, dass diese Daten rechtskonform verarbeitet werden. Das bedeutet insbesondere:

Du brauchst eine Rechtsgrundlage für die Verarbeitung
Der KI-Anbieter muss Auftragsverarbeiter sein — bei kostenlosen Angeboten oft nicht der Fall
Betroffene haben ein Recht auf Auskunft, Löschung und Berichtigung — bei KI-Modellen technisch kaum umsetzbar
Bei einem Datentransfer in Drittstaaten (z. B. USA) braucht es geeignete Garantien

Die EU arbeitet mit dem AI Act daran, diese Fragen zu klären. Bis dahin gilt: Im Zweifel keine sensiblen Daten in KI-Tools eingeben.

Quelle: Europäische Datenschutzbehörde (EDSA). (2024). Stellungnahme zu KI und Datenschutz.

Ja, es gibt zunehmend Angebote, die Datenschutz ernster nehmen:

ChatGPT Enterprise / Team: OpenAI bietet kostenpflichtige Varianten an, bei denen die eingegebenen Daten nicht für das Training verwendet werden.
Claude Enterprise: Ähnliches Modell bei Anthropic — keine Nutzung der Kundendaten für Training.
Lokale KI-Modelle: Open-Source-Modelle wie Llama (Meta), Mistral oder DeepSeek können auf dem eigenen Rechner laufen — kein Datenabfluss, volle Kontrolle.
EU-basierte Anbieter: Startups wie Aleph Alpha (Deutschland) setzen auf EU-Rechenzentren und DSGVO-Konformität.

💡 Empfehlung: Für private Nutzung: Keine sensiblen Daten in kostenlose KI-Tools eingeben. Für Unternehmen: Enterprise-Tarife oder lokale Modelle nutzen. Was du nicht ins Internet stellen würdest, gib auch nicht in eine KI ein.

Problem Nr. 6

Bias & Fairness — KI übernimmt unsere Vorurteile

KI-Modelle lernen aus dem Internet — und das Internet ist voller Vorurteile, Stereotype und diskriminierender Inhalte. Das Ergebnis: KI reproduziert und verstärkt gesellschaftliche Ungleichheiten.

👨‍⚕️

Geschlechter-Bias

KI ordnet Berufe automatisch Geschlechtern zu: »Arzt« = männlich, »Sekretärin« = weiblich. Selbst bei neutralen Formulierungen zeigen Studien signifikante Verzerrungen.

🌍

Kultureller Bias

KI-Modelle sind von US-amerikanischen und englischsprachigen Daten dominiert. Deutsche, österreichische oder afrikanische Perspektiven sind unterrepräsentiert.

💵

Ökonomischer Bias

KI tendiert zu wohlhabenden, westlichen Perspektiven. »Normale« Lebensrealitäten aus ärmeren Ländern oder bildungsfernen Schichten sind unterrepräsentiert.

⚠️ Bekannte Fälle von KI-Bias:

Amazon Recruiting Tool (2018): Amazons KI für die Bewerbervorauswahl bewertete weibliche Kandidaten systematisch schlechter. Das Tool wurde nach der Aufdeckung eingestellt. (Quelle: Reuters)
COMPAS (USA, 2016): Ein KI-System zur Rückfall-Wahrscheinlichkeit von Straftätern bewertete afroamerikanische Angeklagte systematisch höheres Risiko als weiße. (Quelle: ProPublica)
Gesichtserkennung (2018–2020): Mehrere Studien belegten, dass kommerzielle Gesichtserkennungssysteme dunkelhäutige Menschen deutlich schlechter erkennen als helle. (Quelle: MIT Media Lab, NIST)

Ja und nein. Es gibt verschiedene Ansätze, aber keiner ist perfekt:

Fine-Tuning (RLHF): Nach dem Training wird das Modell mit von Menschen bewerteten Antworten verfeinert.
Dataset-Bereinigung: Die Trainingsdaten werden vor dem Training gefiltert.
Debiasing-Techniken: Spezielle Algorithmen, die während des Trainings bewusst gegensteuern.

Das grundlegende Problem bleibt: Bias ist kein Bug, sondern ein Feature des aktuellen KI-Ansatzes — KI spiegelt die Gesellschaft, aus deren Daten sie lernt.

Problem Nr. 7

Aktualität — Modelle sind auf Trainingsstand eingefroren

Jedes KI-Modell hat einen Wissensstand, der zum Zeitpunkt seines Trainings eingefroren wurde. Was danach passiert — aktuelle Ereignisse, neue Gesetze, frische Forschung — ist dem Modell unbekannt.

Ohne Internetzugriff ist die Situation noch gravierender: Das Modell kann nicht googeln, nicht nachschlagen und nicht prüfen. Es ist auf sein Trainingswissen angewiesen — und das ist per Definition veraltet.

💡 Wichtige Einschränkung: Viele KI-Assistenten bieten inzwischen Internetzugriff an (ChatGPT mit Browsing, Gemini mit Google-Suche). Damit können sie aktuelle Informationen abrufen — aber die zugrunde liegenden Modelle haben immer noch einen eingefrorenen Wissensstand. Der Internetzugriff ist nur ein temporärer »Krückstock«.

Ausblick

Warum eine Super-KI (AGI) grundlegend anders sein müsste

Viele glauben, dass »Artificial General Intelligence« (AGI) einfach eine Frage von mehr Rechenleistung, mehr Daten und größeren Modellen ist. Die Forschung zeigt: So einfach ist es nicht.

❌ Was aktuelle LLMs nicht können

Echtes kausales Verständnis: Warum passiert etwas, nicht nur Korrelationen erkennen
Weltmodell: Ein inneres Modell der realen Welt
Agency & Zielsetzung: Eigene Ziele verfolgen, initiative handeln
Lebenslanges Lernen: Nach dem Training dazulernen
Metakognition: Über das eigene Denken nachdenken

✨ Was eine AGI können müsste

Kausale Schlussfolgerungen: Ursache und Wirkung verstehen
Transfer Learning: Gelerntes auf völlig neue Bereiche übertragen
Energieeffizienz: Mit einem Bruchteil der Energie auskommen (Gehirn-Vorbild: ~20W)
Situiertes Verständnis: Die reale Welt durch Interaktion verstehen
Selbstreflexion: Wissen, was man weiß und was nicht

💡 Fazit zur AGI-Debatte: Eine Super-KI, die wirklich intelligent denkt und handelt, wird nicht durch einfach mehr vom Gleichen entstehen. Es braucht neue Architekturen, die kausales Denken, lebenslanges Lernen und echte Interaktion mit der Welt ermöglichen. Die aktuelle LLM-Revolution ist beeindruckend — aber sie ist nicht der letzte Schritt.

Grenzen der Künstlichen Intelligenz.

Realistisch & faktenbasiert

KI ist mächtig — aber nicht unfehlbar

Halluzinationen — KI erfindet Fakten

📷 Reales Beispiel — so täuschend echt können Halluzinationen sein

Zitate & Quellen

Zahlen & Daten

Rechtliches

Kein echtes Verständnis — LLMs rechnen nur Wahrscheinlichkeiten

❌ Was LLMs nicht können (echtes Verständnis)

✅ Was LLMs stattdessen tun (Mustererkennung)

Energieverbrauch — KI ist ein Stromfresser

Ineffizienz — Gigantische Modelle, kleine Leistung

💿 LLM (GPT-4)

🧠 Menschliches Gehirn

Datenschutz — KI hat kein Gedächtnis und keine Privatsphäre

Bias & Fairness — KI übernimmt unsere Vorurteile

Geschlechter-Bias

Kultureller Bias

Ökonomischer Bias

Aktualität — Modelle sind auf Trainingsstand eingefroren

Warum eine Super-KI (AGI) grundlegend anders sein müsste

❌ Was aktuelle LLMs nicht können

✨ Was eine AGI können müsste

Was du dir merken solltest