Skip to main content
Das Kontextfenster ist das “Arbeitsgedächtnis” eines KI-Modells. Es bestimmt, wie viel Information das Modell gleichzeitig verarbeiten kann – und ist einer der wichtigsten Faktoren für die Qualität der Ergebnisse.

Was sind Tokens?

Ein Token ist die kleinste Einheit, in der ein KI-Modell Text verarbeitet. Ein Token ist NICHT gleich ein Wort – die Umrechnung variiert je nach Sprache:
SpracheDurchschnittliche Tokens pro Wort1000 Tokens ≈
Englisch~1,3 Tokens/Wort~750 Wörter
Deutsch~1,5 Tokens/Wort~650 Wörter
Code~2–3 Tokens/Wort~400 Wörter
Faustregel für Deutsch: 1 Seite Text ≈ 400–500 Tokens. Ein 50-Seiten-Dokument verbraucht also ca. 20.000–25.000 Tokens.

Was ist ein Kontextfenster?

Das Kontextfenster definiert die maximale Anzahl an Tokens, die ein Modell in einer einzelnen Interaktion verarbeiten kann – Input (deine Nachricht + System-Prompt + Konversationsverlauf) UND Output (die Antwort) zusammen.
Kontextfenster = System-Prompt + Konversationsverlauf + dein Prompt + Dokumente + Antwort des Modells
Wenn der gesamte Kontext das Fenster überschreitet, wird älterer Kontext abgeschnitten – oft ohne Warnung. Das kann zu inkonsistenten oder falschen Antworten führen.

Typische Kontextfenster-Größen

KategorieGrößeEntspricht ungefähr
Klein4k–8k Tokens5–10 Seiten Text
Mittel32k–128k Tokens40–160 Seiten Text
Groß200k–500k Tokens250–600 Seiten Text
Sehr groß1M–2M+ Tokens1.250+ Seiten Text

Das “Lost in the Middle” Problem

Forschungsergebnisse zeigen: Informationen am Anfang und Ende des Kontextfensters werden besser verarbeitet als Informationen in der Mitte. Das bedeutet:
Wichtige Informationen gehören an den Anfang oder das Ende deines Prompts – nicht in die Mitte. Bei sehr langen Kontexten kann das Modell Informationen in der Mitte “übersehen”.

Praktische Konsequenzen

  • System-Prompt: Steht immer am Anfang – gut, die wichtigsten Regeln werden zuverlässig befolgt
  • Lange Dokumente: Wenn möglich, die relevantesten Abschnitte am Anfang platzieren
  • Konversationsverlauf: Ältere Nachrichten landen in der “Mitte” und können weniger Einfluss haben

Kontextfenster effizient nutzen

Nur relevanten Kontext einfügen

Mehr Kontext = nicht automatisch bessere Ergebnisse. Irrelevanter Kontext kann die Qualität sogar verschlechtern:
AnsatzBeschreibungEffekt
Ganzes Dokument einfügen50-Seiten-Handbuch als KontextSchlecht – das Modell muss die Nadel im Heuhaufen finden
Relevante Abschnitte vorselektierenNur die 3 relevanten KapitelGut – fokussierter Kontext, bessere Antworten
RAG / Hybrid Search nutzenAutomatische Vorauswahl relevanter PassagenOptimal – skaliert und ist präzise

Bei langen Konversationen

In langen Chat-Verläufen wächst der Token-Verbrauch mit jeder Nachricht. Strategien:
  • Neue Konversation starten: Wenn das Thema wechselt, starte einen neuen Chat
  • Zusammenfassung einfügen: “Fasse unsere bisherige Diskussion zusammen” – und starte dann einen neuen Chat mit dieser Zusammenfassung als Kontext
  • System-Prompt kompakt halten: Ein langer System-Prompt verbraucht bei JEDER Nachricht Tokens

Automatische Chat-Zusammenfassung

Seit v1.0.0-beta.4 fasst Localmind lange Konversationen automatisch zusammen, sobald du dich dem Kontextlimit des gewählten Modells näherst. Ältere Nachrichten werden im Hintergrund verdichtet, die wesentlichen Fakten und der Gesprächsfaden bleiben erhalten — du chattest weiter, ohne dass der Verlauf abgeschnitten wird.
Die Zusammenfassung ersetzt ältere Originalnachrichten im Kontext, nicht in der Chat History. Du kannst jederzeit nach oben scrollen und die Originalnachrichten weiter lesen.
Bei einem klaren Themenwechsel ist ein neuer Chat trotzdem oft die bessere Wahl — die automatische Zusammenfassung verdichtet, vermischt aber unter Umständen Themen, die du sauber getrennt halten möchtest.
Token-Budget planen: Wenn dein Kontextfenster 128k Tokens groß ist und du ein 50-Seiten-Dokument (~25k Tokens) einfügst, bleiben noch ~100k Tokens für System-Prompt, Konversationsverlauf und Antwort. Bei Reasoning-Modellen kann der Denkprozess allein 10–30k Tokens verbrauchen.

Nächste Schritte

Modellauswahl

Finde das Modell mit dem passenden Kontextfenster.

Output-Qualität

Temperature, Top-P und andere Parameter verstehen.