Wie funktioniert KI? LLM, Tokens und Halluzinationen erklärt

Maarit Arvola 03.12.2025

Zusammenfassung

LLM (Large Language Model) ist der Kern der generativen KI: Es erzeugt Text auf Basis statistischer Wahrscheinlichkeiten, nicht durch eigentliches Verstehen
Tokens sind die kleinsten Textteile mit einer numerischen Kennung – die KI verarbeitet Text als Tokens, nicht als Wörter
Embeddings und Vektorisierung ermöglichen die Modellierung von Bedeutungen in mathematischer Form: Wörter mit ähnlicher Bedeutung liegen nahe beieinander.
Das Modelltraining besteht aus Pre-Training, überwachter Feinabstimmung (SFT) und bestärkendem Lernen mit menschlichem Feedback (RLHF).
Halluzinationen entstehen, weil die KI Wörter auf Basis von Wahrscheinlichkeiten vorhersagt – sie weiß keine Dinge, sondern produziert glaubwürdige Vermutungen.

Menschliche Wahrnehmung vs. mathematische Prozesse

”ChatGPT phantasiert total. Die Berechnungen, Firmen, Zahlen und Leistungen waren erfunden. Das Unglaublichste war, dass die Software dies nicht zugeben wollte, sondern ich ihr mehrmals direkt ins Gesicht sagen musste, dass ihre Aussagen nicht wahr sind. […] Ich muss zugeben, dass sie gut gelogen hat. Alles war glaubwürdig und überzeugend ausgedrückt. Aber warum hat sie nicht gesagt, dass die Aufgabe zu viel für sie war?“
Unbekannter Benutzer in einer KI-Gruppe (Edit M.A.)

Menschen verstehen Künstliche Intelligenz (KI) auf viele verschiedene Weisen. Für einige ist es eine bedrohliche oder faszinierende Science-Fiction und für manche ist die KI eine übermenschliche Intelligenz, die alles möglich macht. Ziemlich oft ist mit diesen Vorstellungen auch der Gedanke an KI als ein der menschlichen Intelligenz ähnliches Wesen verbunden, das versteht, begreift, Aussagen macht oder lügt. Hinter der KI steckt jedoch ”nur und ausschließlich” eine Reihe logischer und mathematischer Prozesse.

In diesem Blogbeitrag behandeln wir die Grundlagen und Funktionsprinzipien der KI aus technischer Sicht, insbesondere im Hinblick auf Large Language Models (LLM), Tokenisierung, Vektorisierung und das Modelltraining. Falls du allgemeine Informationen zu den Grundlagen der KI wünschst, lies den Blogbeitrag „Was ist Generative KI und wie unterstützt sie Unternehmen?“.

Nachdem du diesen Beitrag gelesen hast, weißt du Folgendes:

Was ist LLM?

Die textgenerierende generative KI basiert auf großen Sprachmodellen (LLM, Large Language Model). Die Sprachmodelle wurden mit riesigen Textdatensätzen trainiert, um menschenähnliche Sprache zu erzeugen. Zum Beispiel basieren Google’s Gemini oder OpenAI’s ChatGPT auf solchen Sprachmodellen, wobei Chat bedeutet Chatbot und GPT ist die Abkürzung für Generative Pre-trained Transformer. GPT ist eine Benennung für eine Sprachmodellfamilie mit verschiedenen Versionen, z.B. GPT‑4 oder GPT‑5.

Für das Training von großen Sprachmodellen werden massive und vielfältige Textdatensätze verwendet, die öffentlich, lizenziert oder offen sein können. Diese Textsammlungen umfassen öffentliche Webquellen (z. B. Nachrichtenartikel, Blogs, Diskussionsforen und Wikipedia), Bücher und Artikel (z. B. digitale Büchersammlungen und Artikel), Code-Repositories (z. B. verschiedene Open-Source-Projekte), lizenzierte und kuratierte Datensätze (z. B. Archive, Wörterbücher und Lernmaterialien) sowie eingeschränkt auch Nutzerdaten. Auf diese Weise lernt das Modell die Sprache, ihre Strukturen und ihre Verwendung so umfassend wie möglich.

Tokens und Kontextfenster: So verarbeitet KI Text als Zahlen

Wenn ein Sprachmodell Text verarbeitet, liest oder schreibt es keine Wörter, sondern verarbeitet Tokens. Tokens sind kleine Textteile, die eine numerische Kennung, d. h. eine ID, haben. Tokens können ganze Wörter, Wortteile (Subword), einzelne Zeichen oder Kombinationen mehrerer Zeichen sein. Tokens werden sowohl beim Training von Sprachmodellen als auch bei ihrer Verwendung genutzt.

Bei der Nutzung der KI gibt der Nutzer dem Sprachmodell eine Aufforderung, also einen Prompt. Die KI analysiert den eingegebenen Text in Tokens und durchläuft rechnerisch die verschiedenen Schichten des neuronalen Netzes. Dies bedeutet, dass die Tokens die Schichten durchlaufen, wobei verschiedene Eigenschaften des Textes, wie Bedeutungen, Struktur oder Kontext, gesucht werden.

Neben den Tokens werden in Sprachmodellen auch Parameter bzw. Gewichtungen verwendet. Basierend auf diesen berechnet das LLM, welches Token in der Antwort am besten als nächstes passt – oder genauer gesagt, welches Token am wahrscheinlichsten ist. Schließlich werden die Tokens wieder in lesbaren Text umgewandelt, den der Benutzer sieht. So entsteht der Eindruck, dass die KI mit dem Menschen „spricht“, obwohl es sich im Grunde um eine definierte Wahrscheinlichkeitsberechnung handelt.

Die Tokenisierung des Beispielsatzes Willkommen in Berlin! hängt vom verwendeten Tokenizer und Sprachmodell ab, da die genaue Anzahl der Tokens und ihre IDs je nach Sprachmodell variieren. Du kannst dich mit der Tokenisierung vertraut machen, indem du beispielsweise das Tokenizer-Tool von OpenAI unter https://platform.openai.com/tokenizer verwendest. Hier kannst du ausprobieren und überprüfen, wie der Text in Tokens unterteilt wird und welche IDs für die Tokens in den jeweiligen Open AI-Sprachmodellen festgelegt wurden.

Die Anzahl der Tokens eines bestimmten Textes beeinflusst, wie gut das Sprachmodell den Text verarbeiten kann. In diesem Zusammenhang spricht man vom Kontextfenster (Context Window) der Sprachmodelle. Das Kontextfenster bezeichnet die Menge an Tokens, die ein LLM gleichzeitig verarbeiten kann. Dies betrifft sowohl den eingegebenen als auch den generierten Text. Die größten Sprachmodelle können Zehntausende oder sogar Hunderttausende von Tokens verarbeiten.

Je größer das Kontextfenster ist, desto längere Texte, d. h. desto größere Mengen an Tokens, kann das Sprachmodell auf einmal verarbeiten. Wenn der Text diese durch das Kontextfenster gesetzte Grenze überschreitet, kann das Modell nicht den gesamten Text auf einmal verarbeiten. Das Kontextfenster kann also die Fähigkeit des Sprachmodells einschränken, einen extrem langen Text oder eine komplexe Konversation mit der KI zu verarbeiten.

Embeddings und Vektorisierung: So erfasst KI Bedeutungen

Sprachmodelle werden also mit riesigen Textdatensätzen trainiert. Tokenisierung ist wiederum der Schritt, in dem der Text in kleinere Teile, d. h. Tokens, unterteilt wird und jedem Token eine numerische Kennung im Vokabular des Sprachmodells zugewiesen wird. Im nächsten Schritt wird für jeden Token eine entsprechende mathematische Vektorrepräsentation bzw. ein Embedding in einem mehrdimensionalen Raum gesucht. Im Embedding-Prozess werden Tokens, die in ihrer Bedeutung ähnlich oder nah liegen, nahe beieinander platziert.

Beispielsweise liegen die Wörter „Katze“ und „Hund“ im Embedding-Raum nahe beieinander, weil sie in ähnlichen Kontexten verwendet werden, obwohl sie unterschiedliche Konzepte sind. Ebenso sind „Zug“ und „Schiene“ oder „König“ und „Königin“ in ihrer Bedeutung nahe beieinander. Dagegen sind „Zug“ und „Katze“ in ihrer Bedeutung nicht nah.

Embedding ermöglicht:

semantische Suche und Verständnis (z. B. „Auto“ und „Fahrzeug“ sind konzeptionell nah)
Kategorisierung (Klassifizierung von Text nach Inhalt)
Informationsabruf, der nicht nur auf Schlüsselwörtern, sondern auf semantischen Ähnlichkeiten basiert.

Dieser Prozess ist der wesentliche Grund, warum die KI (im Allgemeinen) den Anschein erweckt, die Fragen oder Aufforderungen des Benutzers zu verstehen. Die KI versteht oder erkennt jedoch nicht wie ein Mensch, sondern modelliert effektiv statistische Beziehungen.

Wie werden Sprachmodelle trainiert? Pre-Training, SFT und RLHF erklärt

Das Training eines Sprachmodells beginnt mit einer riesigen Menge an Text, der zunächst in Tokens zerlegt und im Embedding-Prozess in numerische Form, d. h. Vektoren, umgewandelt wird. Das Modell wird in der Pre-Training-Phase darauf trainiert, vorherzusagen, welches Token wahrscheinlich im durch die vorherigen Tokens gebildeten Kontext folgt.

Danach ist die typische Feinabstimmungspipeline wie folgt:

SFT (Supervised Fine-Tuning) bzw. Überwachte Feinabstimmung: Das Sprachmodell wird darauf trainiert, anhand von vom Menschen erstellten Beispielpaaren zu antworten.
RLHF (Reinforcement Learning from Human Feedback) bzw. Bestärkendes Lernen mit menschlichem Feedback:
- Das Modell erzeugt mehrere Antworten auf dieselbe Aufforderung.
- Menschliche Trainer analysieren die Qualität der Antworten.
- Basierend auf diesen Bewertungen wird ein Belohnungsmodell (reward model) trainiert.
- Das Belohnungsmodell wird zur Feinabstimmung des Modells verwendet, sodass es hochwertige Antworten bevorzugt.

RLHF bzw. das Lernen mit menschlichem Feedback ist ein zentraler Bestandteil der Qualitätssicherung moderner Sprachmodelle, jedoch nicht die einzige Methode. Es gibt auch alternative oder ergänzende Methoden, wie DPO (Direct Preference Optimization) und RLAIF (Reinforcement Learning from AI Feedback).

Der gesamte Trainingsprozess dauert Monate, erfordert enorme Rechenleistung und ist äußerst ressourcenintensiv. Daher hat sich die Entwicklung hochmoderner geschlossener Modelle auf wenige Akteure (z. B. OpenAI, Google, Meta und Anthropic) konzentriert. Gleichzeitig nehmen jedoch auch die Open-Source-Ökosysteme zu (z. B. die Llama- und Mistral-Modellfamilien), auch wenn deren Training erhebliche Ressourcen erfordert.

Warum halluziniert die KI und wie kann das verhindert werden?

Unter Halluzination versteht man das Phänomen, bei dem die KI falsche oder erfundene Antworten liefert, die sie als Tatsachen präsentiert. Der Grund für die Halluzination ist das prädiktive Funktionsprinzip des Sprachmodells, d. h. das LLM sagt den wahrscheinlichsten nächsten Token voraus, anstatt die Information aus externen Quellen zu überprüfen. Das Sprachmodell selbst kennt keine Informationen oder fungiert nicht als Datenbank.

Wenn du also nach einem Unternehmen, einer Rechnung oder einer anderen Information fragst, die in den Trainingsdaten der KI nicht vorhanden ist und die sie auch aus keiner anderen Quelle (z. B. einer vom Benutzer angehängten Datei) lesen kann, wird das Modell wahrscheinlich eine glaubwürdig klingende, aber unrichtige Antwort generieren. Das Sprachmodell versucht nämlich immer, eine Antwort zu generieren, auch wenn es keine gesicherten Informationen hat.

Du kannst der KI bereits im Prompt (der Aufforderung) sagen, dass sie dem Benutzer mitteilen muss, falls sie keine Informationen zu der Sache hat, und dass sie in dem Fall keine andere Antwort generieren darf. Dies reduziert das Risiko der Halluzination, eliminiert es aber nicht unbedingt vollständig.

In KI-Anwendungen kann die Websuche aktiviert und/oder das Sprachmodell mit den eigenen Daten des Benutzers verknüpft werden. Dadurch werden Halluzinationen reduziert, indem die vom Sprachmodell erzeugte Information mit externen Quellen kombiniert wird. Dieser Ansatz wird RAG-Methode (Retrieval-Augmented Generation) genannt. Die Methode verbessert die Leistung der KI, indem sie in ihren Antworten sowohl die interne Wissensstruktur des Modells als auch aktuelle oder genaue Informationen aus externen Quellen nutzen kann.

KI denkt nicht. Nutz also deine eigenen Gehirnzellen

Ein großes Sprachmodell ist keine Datenbank, sondern ein auf Wahrscheinlichkeitsberechnung basierendes Modell, das den nächsten Token anhand des vorherigen Kontexts bzw. der Hintergrundinformationen vorhersagt. Es garantiert keine faktische Richtigkeit, obwohl es viele parametrisch gelernte Informationen (parametrisches Gedächtnis) enthält. Mit anderen Worten, das Modell kann korrekte Fakten produzieren, unterscheidet aber Wahrheit und Lüge nicht wie ein Mensch. Die KI ist eine Art statistische Maschine, die mithilfe von mathematischen Modellen, Embedding-Vektoren und Tokens funktioniert.

An sich musst du nicht alle hier genannten Konzepte gründlich verstehen, aber wenn du weißt, was unter der Motorhaube der KI passiert, kannst du die Vorteile, Schwächen und Stärken der KI realistisch einschätzen. Auf diese Weise vertraust du der KI niemals blind, erwartest nicht, dass sie alle möglichen Aufgaben fehlerfrei erledigt, und teilst ihr auch nicht enttäuscht „direkt ins Gesicht“ mit, dass sie lügt, wie es der anonyme Autor zu Beginn des Blogbeitrags getan hat.

Ein Blick unter die Motorhaube der KI

Gehe in den OpenAI Playground, die Claude Projects von Anthropic oder die Gemini-Testumgebung. Spiele mit verschiedenen Prompts, pass die Einstellungen an und beobachte, wie kleine Änderungen das Endergebnis beeinflussen.

Klick hier und lies, was KI NICHT ist!

Bei der Erstellung wurden folgende KI-Anwendungen als Hilfsmittel verwendet: ChatGPT 4o und 5, CustomGPT, Gemini 3.0 und Perplexity Pro. Der Text wurde anschließend überarbeitet, editiert und kuratiert.