Grenzen der Künstlichen Intelligenz
KI ist mächtig — aber nicht unfehlbar. Warum LLMs halluzinieren, Unmengen an Energie verbrauchen und keine echte Intelligenz besitzen. Ein ehrlicher Blick hinter die Fassade.
KI ist mächtig — aber nicht unfehlbar
ChatGPT, Claude und Gemini können Texte schreiben, Code analysieren und Fragen beantworten, als wären sie intelligent. Aber der Schein trügt — und zwar an mehreren Stellen gleichzeitig.
Die Leistungsfähigkeit moderner KI-Systeme ist beeindruckend — keine Frage. Aber sie hat einen Preis, und sie hat grundlegende Grenzen, die nicht einfach durch größere Modelle oder mehr Trainingsdaten überwunden werden können. Wer KI blind vertraut, riskiert Fehlentscheidungen, peinliche Fehler im Kundengespräch oder im schlimmsten Fall rechtliche Konsequenzen.
Auf den folgenden Seiten lernst du die wichtigsten Einschränkungen kennen — von technischen Limitierungen bis zu ethischen Fragen. Nicht um KI schlechtzureden, sondern um sie besser einschätzen zu können.
Halluzinationen — KI erfindet Fakten
Die wohl bekannteste und gefährlichste Schwäche von LLMs: Sie behaupten Dinge mit größter Überzeugung, die komplett falsch sind. Fachleute nennen das »Halluzinationen«.
Ein LLM wie ChatGPT oder Claude hat keinerlei eingebauten Wahrheitssensor. Es weiß nicht, ob eine Aussage richtig oder falsch ist — es weiß nur, ob sie sprachlich plausibel klingt. Wenn das Modell eine Frage bekommt, zu der es keine guten Trainingsdaten hat, erfindet es einfach eine überzeugende Antwort.
📷 Reales Beispiel — so täuschend echt können Halluzinationen sein
Ein Nutzer fragte ChatGPT nach einem Buch, das angeblich existierte. Das Modell antwortete mit Autor, Verlag, ISBN-Nummer, Erscheinungsjahr und einer ausführlichen Inhaltsangabe. Der Haken: Das Buch gab es nie. Alle Details waren frei erfunden — inklusive der ISBN. Ein Mensch hätte sofort gemerkt, dass er nichts weiß. Eine KI sagt einfach etwas.
Besonders tückisch: Halluzinationen betreffen häufig genau die Bereiche, in denen Nutzer besonders leichtgläubig sind:
Der Grund liegt im Funktionsprinzip von LLMs: Sie sind Wahrscheinlichkeitsmaschinen, kein Wissensdatenbank. Ein LLM berechnet für jedes mögliche nächste Wort eine Wahrscheinlichkeit und wählt das wahrscheinlichste aus. Es gibt keinen Mechanismus, der prüft, ob die Antwort in der realen Welt stimmt.
Halluzinationen treten besonders häufig auf, wenn:
- Die Frage ein Thema betrifft, das in den Trainingsdaten selten oder gar nicht vorkommt
- Der Nutzer nach sehr spezifischen Details fragt (genaue Zahlen, Zitate, Paragraphen)
- Das Modell versucht, eine komplexe Frage mit einer knappen Antwort zu beantworten
- Die Frage keine korrekte Antwort hat — das Modell aber trotzdem eine geben muss
Kein echtes Verständnis — LLMs rechnen nur Wahrscheinlichkeiten
Das härtetste Wort in der KI-Diskussion: LLMs »verstehen« nichts. Sie produzieren überzeugende Sprache, aber dahinter steckt kein Bewusstsein, kein Denken und kein tiefes Verständnis.
Der Unterschied ist fundamental: Wenn du einen Menschen fragst »Was ist die Hauptstadt von Österreich?«, weiß er, was eine Hauptstadt ist, was Österreich ist, und er hat das Konzept »Wien« mit diesen Informationen verknüpft. Ein LLM hat keine dieser Konzepte. Es hat in Milliarden von Texten gesehen, dass auf »Hauptstadt von Österreich« sehr oft »Wien« folgt — und sagt das dann. Das Ergebnis ist identisch, der Prozess ist völlig anders.
❌ Was LLMs nicht können (echtes Verständnis)
- Den Sinn eines Textes tatsächlich »begreifen«
- Zwischen wahr und falsch unterscheiden (kein Wahrheitssensor)
- Eigene Überzeugungen oder Meinungen haben
- Kausale Zusammenhänge wirklich verstehen
- Auf neue Situationen mit echtem logischen Denken reagieren
✅ Was LLMs stattdessen tun (Mustererkennung)
- Textmuster aus Trainingsdaten reproduzieren
- Wahrscheinlichkeitsverteilungen für nächste Wörter berechnen
- Kontext aus vorherigen Nachrichten »erinnern« (im Kontextfenster)
- Sprachlich überzeugende, aber faktenunabhängige Texte erzeugen
- Auf Basis statistischer Korrelationen »argumentieren«
Teilweise ja — aber auf eine begrenzte Art. LLMs können einfache logische Schlüsse ziehen, wenn ähnliche Muster in den Trainingsdaten vorkamen. Sobald die Logik aber ungewöhnlich wird oder neue Kombinationen erfordert, scheitern sie oft.
Ein berühmtes Beispiel: »Wenn alle Menschen sterblich sind und Sokrates ein Mensch ist, ist Sokrates sterblich?« — das bekommt jedes LLM hin, weil dieser Syllogismus millionenfach in den Trainingsdaten vorkommt. Aber bei einer Abwandlung wie »Wenn alle A B sind und C nicht B ist, ist C dann A?« scheitern selbst die besten Modelle regelmäßig. Echte logische Kompetenz sieht anders aus.
Quelle: Eine Studie von Apple-Forschern aus dem Jahr 2024 zeigte, dass selbst GPT-4o bei einfachen logischen Schlussfolgerungsaufgaben (denken Sie an das berühmte »Sally-Anne«-Experiment aus der Entwicklungspsychologie) in 30–40 % der Fälle falsche Antworten gab.
Energieverbrauch — KI ist ein Stromfresser
Hinter jeder KI-Antwort steckt ein enormer Energieaufwand. Ein einziger ChatGPT-Chat verbraucht etwa 10-mal mehr Strom als eine Google-Suche — und das Training der großen Modelle kostet Millionen von Kilowattstunden.
Die Zahlen sind beachtlich: Eine Studie der University of Massachusetts Amherst ergab, dass das Training eines großen KI-Modells rund 1.300 Megawattstunden Strom verbrauchen kann — das entspricht etwa dem Jahresverbrauch von 130 durchschnittlichen österreichischen Haushalten (Quelle: Strubell et al., 2019, ACL). Dabei geht es nur um das einmalige Training. Der laufende Betrieb (Inferenz) kommt noch oben drauf.
Der Wasserfußabdruck ist ebenfalls beträchtlich: Rechenzentren müssen gekühlt werden. Microsoft gab 2023 bekannt, dass allein die Kühlung seiner Rechenzentren 569 Millionen Liter Wasser verbrauchte — ein Anstieg um 34 % gegenüber dem Vorjahr, maßgeblich getrieben durch KI-Arbeitslasten (Quelle: Microsoft Environmental Report 2023).
Das ist eine berechtigte Frage — und die Antwort ist differenziert. Ja, aktuell ist der Energieverbrauch von KI-Systemen ein echtes Problem. Aber es gibt wichtige Nuancen:
- Effizienzgewinne: Neuere KI-Chips (z. B. NVIDIA H100, später B200) sind pro Rechenoperation deutlich effizienter als ihre Vorgänger. Der Trend geht zu spezialisierter Hardware.
- Quantization & Distillation: Kleinere, optimierte Modelle können oft ähnliche Ergebnisse liefern wie große Modelle — bei einem Bruchteil des Energieverbrauchs.
- Erneuerbare Energien: Große KI-Anbieter wie Google, Microsoft und Amazon investieren massiv in erneuerbare Energien für ihre Rechenzentren. Google gibt an, seit 2017 CO2-neutral zu sein.
- Nutzen vs. Kosten: In vielen Fällen kann der Einsatz von KI in anderen Bereichen (z. B. optimierte Logistik, intelligentere Gebäude, bessere Wettervorhersage) mehr CO2 einsparen als das KI-Training selbst verbraucht.
Die einfache Antwort: Ja, KI verbraucht aktuell viel Energie. Nein, das muss nicht für immer so bleiben — aber es braucht bewusste Entscheidungen von Anbietern und Nutzern.
Ineffizienz — Gigantische Modelle, kleine Leistung
LLMs sind riesig — GPT-4 soll Schätzungen zufolge 1,8 Billionen Parameter haben und benötigt mehrere Hundert Gigabyte Speicher. Ein menschliches Gehirn arbeitet mit 20 Watt. Der Vergleich ist ernüchternd.
💿 LLM (GPT-4)
- Größe: Geschätzt 1,8 Billionen Parameter
- Speicher: ~700 GB (komprimiert)
- Leistung: Tausende GPUs (Megawatt-Bereich)
- Training: Monate auf Supercomputer-Clustern
- Wissensstand: Eingefroren zum Trainingszeitpunkt
- Lernfähigkeit: Null — kann nach Training nicht mehr dazulernen
🧠 Menschliches Gehirn
- Größe: ~86 Milliarden Neuronen, ~100 Billionen Synapsen
- Speicher: Geschätzt ~2,5 Petabyte
- Leistung: ~20 Watt
- Training: 20+ Jahre lebenslanges Lernen
- Wissensstand: Aktuell — lernt jeden Tag dazu
- Lernfähigkeit: Permanent — lebenslanges Lernen
Wohlgemerkt: Das menschliche Gehirn ist kein fairer Vergleichsmaßstab, weil es evolutionär optimiert wurde — aber genau das macht den Unterschied deutlich. Ein LLM ist eine monströse, ineffiziente Nachahmung dessen, was biologische Intelligenz mit einem Bruchteil der Energie schafft.
Die genauen Größen sind oft Geschäftsgeheimnisse, aber aus veröffentlichten Daten und Schätzungen ergibt sich dieses Bild:
- GPT-3 (2020): 175 Milliarden Parameter, ~350 GB Speicher, Training kostete ~4,6 Millionen US-Dollar
- GPT-4 (2023): Schätzung 1,8 Billionen Parameter (8 Experten-Module à ~220 Milliarden), Training auf ca. 25.000 GPUs für 90–120 Tage
- Claude 3 (2024): Nicht offiziell bekanntgegeben, Schätzungen im Bereich 500 Mrd. – 1 Billion Parameter
- Llama 3.1 405B (Meta, 2024): 405 Milliarden Parameter, ~240 GB, Open-Source
- DeepSeek-V3 (2024): 671 Milliarden Parameter (MoE-Architektur), Training auf 2.048 GPUs für ca. 2,8 Millionen GPU-Stunden
Zum Vergleich: Ein KI-Modell mit 175 Milliarden Parametern hat etwa die doppelte Anzahl an Synapsen eines menschlichen Gehirns — kann aber nicht einmal ohne Weiteres eine simple Mathematikaufgabe lösen, die ein Zehnjähriger im Kopf rechnet. Das zeigt, wie unterschiedlich die »Architektur« von KI und biologischem Gehirn ist.
Datenschutz — KI hat kein Gedächtnis und keine Privatsphäre
Viele Nutzer behandeln KI-Assistenten wie vertrauliche Gesprächspartner — und geben dabei hochsensible Daten preis, ohne sich der Konsequenzen bewusst zu sein.
Das Problem ist grundlegend: Deine Eingaben in ChatGPT, Claude oder Gemini werden in der Regel für das Training der nächsten Modellgeneration verwendet. Was du dem KI-Assistenten anvertraust, kann morgen Teil seiner Trainingsdaten sein — und damit potenziell für andere Nutzer reproduzierbar.
- Passwörter und Zugangsdaten: Niemals in einen KI-Chat eingeben. Die Daten können gespeichert und für Training verwendet werden.
- Bankdaten und Finanzinformationen: Kontonummern, Kreditkartendaten, Gehaltsinformationen — alles tabu.
- Geschäftsgeheimnisse: Vertrauliche Firmendaten, Kundenlisten oder Geschäftsstrategien gehören nicht in einen KI-Chat.
- Personenbezogene Daten: Namen, Adressen, Geburtsdaten anderer Personen — ein DSGVO-Albtraum.
- Medizinische Daten: Auch wenn die KI keine Diagnose stellt, können Gesundheitsdaten in falsche Hände geraten.
Die DSGVO (Datenschutz-Grundverordnung) ist hier eindeutig: Wer personenbezogene Daten in ein KI-System eingibt, muss sicherstellen, dass diese Daten rechtskonform verarbeitet werden. Das bedeutet insbesondere:
- Du brauchst eine Rechtsgrundlage für die Verarbeitung (Einwilligung, Vertrag, berechtigtes Interesse)
- Der KI-Anbieter muss Auftragsverarbeiter sein — das ist bei kostenlosen Angeboten oft nicht der Fall
- Betroffene haben ein Recht auf Auskunft, Löschung und Berichtigung — bei KI-Modellen, die einmal gelernt haben, technisch kaum umsetzbar
- Bei einem Datentransfer in Drittstaaten (z. B. USA) braucht es geeignete Garantien (Standardvertragsklauseln, Angemessenheitsbeschluss)
Die EU arbeitet mit dem AI Act daran, diese Fragen zu klären. Bis dahin gilt: Im Zweifel keine sensiblen Daten in KI-Tools eingeben.
Quelle: Europäische Datenschutzbehörde (EDSA). (2024). Stellungnahme zu KI und Datenschutz.
Ja, es gibt zunehmend Angebote, die Datenschutz ernster nehmen:
- ChatGPT Enterprise / Team: OpenAI bietet kostenpflichtige Varianten an, bei denen die eingegebenen Daten nicht für das Training verwendet werden. Datenverarbeitung erfolgt in der EU (Azure-Rechenzentren).
- Claude Enterprise: Ähnliches Modell bei Anthropic — keine Nutzung der Kundendaten für Training.
- Lokale KI-Modelle: Open-Source-Modelle wie Llama (Meta), Mistral oder DeepSeek können auf dem eigenen Rechner laufen — kein Datenabfluss, volle Kontrolle. Voraussetzung: Ausreichend leistungsfähige Hardware (GPU mit 8–24 GB VRAM).
- EU-basierte Anbieter: Startups wie Aleph Alpha (Deutschland) oder Deepset (Deutschland) setzen auf EU-Rechenzentren und DSGVO-Konformität.
Bias & Fairness — KI übernimmt unsere Vorurteile
KI-Modelle lernen aus dem Internet — und das Internet ist voller Vorurteile, Stereotype und diskriminierender Inhalte. Das Ergebnis: KI reproduziert und verstärkt gesellschaftliche Ungleichheiten.
Das Problem ist systembedingt. Wenn ein LLM auf Milliarden von Webseiten trainiert wird, lernt es nicht nur die neutralen Fakten, sondern auch die statistischen Verzerrungen der Trainingsdaten. Ein Beispiel: Wenn in den Trainingsdaten »Arzt« deutlich häufiger mit männlichen Pronomen auftaucht und »Krankenschwester« mit weiblichen, wird das Modell diese Verknüpfung übernehmen — auch wenn sie der Realität längst nicht mehr entspricht.
- Amazon Recruiting Tool (2018): Amazons KI für die Bewerbervorauswahl bewertete weibliche Kandidaten systematisch schlechter, weil sie auf Daten von überwiegend männlichen Bewerbungen aus der Tech-Branche trainiert wurde. Das Tool wurde nach der Aufdeckung eingestellt. (Quelle: Reuters)
- COMPAS (USA, 2016): Ein KI-System zur Rückfall-Wahrscheinlichkeit von Straftätern bewertete afroamerikanische Angeklagte systematisch höheres Risiko als weiße — bei gleicher Vorgeschichte. (Quelle: ProPublica)
- Gesichtserkennung (2018–2020): Mehrere Studien belegten, dass kommerzielle Gesichtserkennungssysteme dunkelhäutige Menschen deutlich schlechter erkennen als helle. (Quelle: MIT Media Lab, NIST)
Ja und nein. Es gibt verschiedene Ansätze, aber keiner ist perfekt:
- Fine-Tuning (RLHF): Nach dem Training wird das Modell mit von Menschen bewerteten Antworten verfeinert, um unerwünschte Muster abzuschwächen. Das hilft, verstärkt aber manchmal neue Verzerrungen.
- Dataset-Bereinigung: Die Trainingsdaten werden vor dem Training gefiltert, um diskriminierende Inhalte zu entfernen oder unterrepräsentierte Gruppen stärker zu gewichten.
- Debiasing-Techniken: Spezielle Algorithmen, die während des Trainings bewusst gegensteuern. Das Feld ist noch jung und die Methoden sind nicht ausgereift.
Das grundlegende Problem bleibt: Bias ist kein Bug, sondern ein Feature des aktuellen KI-Ansatzes — KI spiegelt die Gesellschaft, aus deren Daten sie lernt. Eine völlig »neutrale« KI ist theoretisch unmöglich, weil bereits die Entscheidung, was »neutral« bedeutet, eine Wertung ist.
Aktualität — Modelle sind auf Trainingsstand eingefroren
Jedes KI-Modell hat einen Wissensstand, der zum Zeitpunkt seines Trainings eingefroren wurde. Was danach passiert — aktuelle Ereignisse, neue Gesetze, frische Forschung — ist dem Modell unbekannt.
Das ist ein fundamentales Problem: Während ein Mensch täglich Neues lernen kann, bleibt ein KI-Modell auf dem Stand seiner Trainingsdaten stehen. GPT-4 (Stand Oktober 2023) weiß nichts von der Bundestagswahl 2025, neuen Steuergesetzen oder aktuellen technologischen Entwicklungen — es sei denn, es hat Internetzugriff (wie bei ChatGPT mit Browsing-Funktion).
Ohne Internetzugriff ist die Situation noch gravierender: Das Modell kann nicht googeln, nicht nachschlagen und nicht prüfen. Es ist auf sein Trainingswissen angewiesen — und das ist per Definition veraltet.
Hier eine Übersicht der wichtigsten Modelle und ihres Wissensstands (Stand: 2025):
- GPT-4o (OpenAI, 2024): Wissen bis Oktober 2023
- GPT-4.1 / GPT-4.1 mini (OpenAI, 2025): Wissen bis Mai 2025
- Claude 4 Sonnet / Opus (Anthropic, 2025): Wissen bis Mai 2025
- Gemini 2.5 Pro (Google, 2025): Wissen bis Januar 2025 plus Echtzeitsuche über Google
- DeepSeek-V3 (2024): Wissen bis Mai 2024
- Llama 3.1 (Meta, 2024): Wissen bis Dezember 2023
Die Lücke zwischen aktuellem Datum und Wissensstand beträgt also meist Monate bis Jahre. Für tagesaktuelle Fragen (Börsenkurse, Wetter, aktuelle Nachrichten) sind KI-Assistenten ohne Internetzugriff unbrauchbar.
Warum eine Super-KI (AGI) grundlegend anders sein müsste
Viele glauben, dass »Artificial General Intelligence« (AGI) einfach eine Frage von mehr Rechenleistung, mehr Daten und größeren Modellen ist. Die Forschung zeigt: So einfach ist es nicht.
Die aktuellen LLMs basieren auf einem Prinzip, das sich Skalierungshypothese nennt: Mehr Parameter, mehr Trainingsdaten und mehr Rechenleistung führen zu besseren Ergebnissen. Und das stimmt auch — bis zu einem gewissen Punkt. Aber viele Forscher sind überzeugt, dass dieser Ansatz nicht zu echter allgemeiner Intelligenz (AGI) führen wird. Dafür fehlen fundamentale Eigenschaften:
❌ Was aktuelle LLMs nicht können (auch nicht mit mehr Skalierung)
- Echtes kausales Verständnis: Warum passiert etwas, nicht nur Korrelationen erkennen
- Weltmodell: Ein inneres Modell der realen Welt, das Vorhersagen über neue Situationen erlaubt
- Agency & Zielsetzung: Eigene Ziele verfolgen, initiative handeln, sich selbst motivieren
- Lebenslanges Lernen: Nach dem Training dazulernen, ohne alles neu trainieren zu müssen
- Metakognition: Über das eigene Denken nachdenken, eigene Wissenslücken erkennen
✨ Was eine AGI können müsste (Forschungsperspektive)
- Kausale Schlussfolgerungen: Ursache und Wirkung verstehen, auch ohne millionenfaches Vorkommen in Daten
- Transfer Learning: Gelerntes aus einem Bereich auf völlig neue, unbekannte Bereiche übertragen
- Energieeffizienz: Mit einem Bruchteil der Energie auskommen (Gehirn-Vorbild: ~20W)
- Situiertes Verständnis: Die reale Welt durch Interaktion verstehen, nicht nur durch Text
- Selbstreflexion: Wissen, was man weiß und was nicht (Epistemic Humility)
Die KI-Forschung arbeitet an mehreren alternativen Ansätzen, die über reine Skalierung hinausgehen:
Die Einschätzungen gehen weit auseinander. Eine Umfrage unter KI-Forschern (2023, mehrere tausend Teilnehmer) ergab:
- 50 % der Forscher glauben, dass AGI bis 2047 erreicht wird
- 10 % glauben an AGI vor 2028
- 25 % glauben, dass AGI möglicherweise nie erreicht wird
Wichtige Stimmen:
- Yann LeCun (Meta, Chief AI Scientist): »LLMs sind ein Umweg. AGI wird mit völlig anderen Architekturen kommen — und wir sind noch weit davon entfernt.«
- Geoffrey Hinton (Godfather of AI): »Die aktuellen Modelle verstehen mehr, als wir ihnen zutrauen. AGI könnte schneller kommen als die meisten denken.«
- Sam Altman (OpenAI, CEO): »AGI wird in relativ naher Zukunft erreicht — die Auswirkungen werden größer sein als alles, was wir uns vorstellen können.«
Was alle einig: Der reine »Scaled-LLM-Ansatz« wird nicht ausreichen. Neue Ideen sind gefragt.
Quelle: Grace, K. et al. (2024). Thousands of AI Authors on the Future of AI. AI Impacts / arXiv.
Was du dir merken solltest
LLMs sind ein mächtiges Werkzeug — aber sie sind kein Ersatz für menschliches Urteilsvermögen, kritisches Denken oder fundierte Recherche. Wer ihre Grenzen kennt, nutzt sie sicher und effektiv.