Skip to main content
Das Kontextfenster ist das “Arbeitsgedächtnis” eines KI-Modells. Es bestimmt, wie viel Information das Modell gleichzeitig verarbeiten kann – und ist einer der wichtigsten Faktoren für die Qualität der Ergebnisse.

Was sind Tokens?

Ein Token ist die kleinste Einheit, in der ein KI-Modell Text verarbeitet. Ein Token ist NICHT gleich ein Wort – die Umrechnung variiert je nach Sprache:
SpracheDurchschnittliche Tokens pro Wort1000 Tokens ≈
Englisch~1,3 Tokens/Wort~750 Wörter
Deutsch~1,5 Tokens/Wort~650 Wörter
Code~2–3 Tokens/Wort~400 Wörter
Faustregel für Deutsch: 1 Seite Text ≈ 400–500 Tokens. Ein 50-Seiten-Dokument verbraucht also ca. 20.000–25.000 Tokens.

Was ist ein Kontextfenster?

Das Kontextfenster definiert die maximale Anzahl an Tokens, die ein Modell in einer einzelnen Interaktion verarbeiten kann – Input (Ihre Nachricht + System-Prompt + Konversationsverlauf) UND Output (die Antwort) zusammen.
Kontextfenster = System-Prompt + Konversationsverlauf + Ihr Prompt + Dokumente + Antwort des Modells
Wenn der gesamte Kontext das Fenster überschreitet, wird älterer Kontext abgeschnitten – oft ohne Warnung. Das kann zu inkonsistenten oder falschen Antworten führen.

Typische Kontextfenster-Größen

KategorieGrößeEntspricht ungefähr
Klein4k–8k Tokens5–10 Seiten Text
Mittel32k–128k Tokens40–160 Seiten Text
Groß200k–500k Tokens250–600 Seiten Text
Sehr groß1M–2M+ Tokens1.250+ Seiten Text

Das “Lost in the Middle” Problem

Forschungsergebnisse zeigen: Informationen am Anfang und Ende des Kontextfensters werden besser verarbeitet als Informationen in der Mitte. Das bedeutet:
Wichtige Informationen gehören an den Anfang oder das Ende Ihres Prompts – nicht in die Mitte. Bei sehr langen Kontexten kann das Modell Informationen in der Mitte “übersehen”.

Praktische Konsequenzen

  • System-Prompt: Steht immer am Anfang – gut, die wichtigsten Regeln werden zuverlässig befolgt
  • Lange Dokumente: Wenn möglich, die relevantesten Abschnitte am Anfang platzieren
  • Konversationsverlauf: Ältere Nachrichten landen in der “Mitte” und können weniger Einfluss haben

Kontextfenster effizient nutzen

Nur relevanten Kontext einfügen

Mehr Kontext = nicht automatisch bessere Ergebnisse. Irrelevanter Kontext kann die Qualität sogar verschlechtern:
AnsatzBeschreibungEffekt
Ganzes Dokument einfügen50-Seiten-Handbuch als KontextSchlecht – das Modell muss die Nadel im Heuhaufen finden
Relevante Abschnitte vorselektierenNur die 3 relevanten KapitelGut – fokussierter Kontext, bessere Antworten
RAG / Hybrid Search nutzenAutomatische Vorauswahl relevanter PassagenOptimal – skaliert und ist präzise

Bei langen Konversationen

In langen Chat-Verläufen wächst der Token-Verbrauch mit jeder Nachricht. Strategien:
  • Neue Konversation starten: Wenn das Thema wechselt, starten Sie einen neuen Chat
  • Zusammenfassung einfügen: “Fassen Sie unsere bisherige Diskussion zusammen” – und starten Sie dann einen neuen Chat mit dieser Zusammenfassung als Kontext
  • System-Prompt kompakt halten: Ein langer System-Prompt verbraucht bei JEDER Nachricht Tokens
Token-Budget planen: Wenn Ihr Kontextfenster 128k Tokens groß ist und Sie ein 50-Seiten-Dokument (~25k Tokens) einfügen, bleiben noch ~100k Tokens für System-Prompt, Konversationsverlauf und Antwort. Bei Reasoning-Modellen kann der Denkprozess allein 10–30k Tokens verbrauchen.

Nächste Schritte