Das Kontextfenster ist das “Arbeitsgedächtnis” eines KI-Modells. Es bestimmt, wie viel Information das Modell gleichzeitig verarbeiten kann – und ist einer der wichtigsten Faktoren für die Qualität der Ergebnisse.
Was sind Tokens?
Ein Token ist die kleinste Einheit, in der ein KI-Modell Text verarbeitet. Ein Token ist NICHT gleich ein Wort – die Umrechnung variiert je nach Sprache:
| Sprache | Durchschnittliche Tokens pro Wort | 1000 Tokens ≈ |
|---|
| Englisch | ~1,3 Tokens/Wort | ~750 Wörter |
| Deutsch | ~1,5 Tokens/Wort | ~650 Wörter |
| Code | ~2–3 Tokens/Wort | ~400 Wörter |
Faustregel für Deutsch: 1 Seite Text ≈ 400–500 Tokens. Ein 50-Seiten-Dokument verbraucht also ca. 20.000–25.000 Tokens.
Was ist ein Kontextfenster?
Das Kontextfenster definiert die maximale Anzahl an Tokens, die ein Modell in einer einzelnen Interaktion verarbeiten kann – Input (Ihre Nachricht + System-Prompt + Konversationsverlauf) UND Output (die Antwort) zusammen.
Kontextfenster = System-Prompt + Konversationsverlauf + Ihr Prompt + Dokumente + Antwort des Modells
Wenn der gesamte Kontext das Fenster überschreitet, wird älterer Kontext abgeschnitten – oft ohne Warnung. Das kann zu inkonsistenten oder falschen Antworten führen.
Typische Kontextfenster-Größen
| Kategorie | Größe | Entspricht ungefähr |
|---|
| Klein | 4k–8k Tokens | 5–10 Seiten Text |
| Mittel | 32k–128k Tokens | 40–160 Seiten Text |
| Groß | 200k–500k Tokens | 250–600 Seiten Text |
| Sehr groß | 1M–2M+ Tokens | 1.250+ Seiten Text |
Das “Lost in the Middle” Problem
Forschungsergebnisse zeigen: Informationen am Anfang und Ende des Kontextfensters werden besser verarbeitet als Informationen in der Mitte. Das bedeutet:
Wichtige Informationen gehören an den Anfang oder das Ende Ihres Prompts – nicht in die Mitte. Bei sehr langen Kontexten kann das Modell Informationen in der Mitte “übersehen”.
Praktische Konsequenzen
- System-Prompt: Steht immer am Anfang – gut, die wichtigsten Regeln werden zuverlässig befolgt
- Lange Dokumente: Wenn möglich, die relevantesten Abschnitte am Anfang platzieren
- Konversationsverlauf: Ältere Nachrichten landen in der “Mitte” und können weniger Einfluss haben
Kontextfenster effizient nutzen
Nur relevanten Kontext einfügen
Mehr Kontext = nicht automatisch bessere Ergebnisse. Irrelevanter Kontext kann die Qualität sogar verschlechtern:
| Ansatz | Beschreibung | Effekt |
|---|
| Ganzes Dokument einfügen | 50-Seiten-Handbuch als Kontext | Schlecht – das Modell muss die Nadel im Heuhaufen finden |
| Relevante Abschnitte vorselektieren | Nur die 3 relevanten Kapitel | Gut – fokussierter Kontext, bessere Antworten |
| RAG / Hybrid Search nutzen | Automatische Vorauswahl relevanter Passagen | Optimal – skaliert und ist präzise |
Bei langen Konversationen
In langen Chat-Verläufen wächst der Token-Verbrauch mit jeder Nachricht. Strategien:
- Neue Konversation starten: Wenn das Thema wechselt, starten Sie einen neuen Chat
- Zusammenfassung einfügen: “Fassen Sie unsere bisherige Diskussion zusammen” – und starten Sie dann einen neuen Chat mit dieser Zusammenfassung als Kontext
- System-Prompt kompakt halten: Ein langer System-Prompt verbraucht bei JEDER Nachricht Tokens
Token-Budget planen: Wenn Ihr Kontextfenster 128k Tokens groß ist und Sie ein 50-Seiten-Dokument (~25k Tokens) einfügen, bleiben noch ~100k Tokens für System-Prompt, Konversationsverlauf und Antwort. Bei Reasoning-Modellen kann der Denkprozess allein 10–30k Tokens verbrauchen.
Nächste Schritte