Was sind Tokens?
Ein Token ist die kleinste Einheit, in der ein KI-Modell Text verarbeitet. Ein Token ist NICHT gleich ein Wort – die Umrechnung variiert je nach Sprache:| Sprache | Durchschnittliche Tokens pro Wort | 1000 Tokens ≈ |
|---|---|---|
| Englisch | ~1,3 Tokens/Wort | ~750 Wörter |
| Deutsch | ~1,5 Tokens/Wort | ~650 Wörter |
| Code | ~2–3 Tokens/Wort | ~400 Wörter |
Faustregel für Deutsch: 1 Seite Text ≈ 400–500 Tokens. Ein 50-Seiten-Dokument verbraucht also ca. 20.000–25.000 Tokens.
Was ist ein Kontextfenster?
Das Kontextfenster definiert die maximale Anzahl an Tokens, die ein Modell in einer einzelnen Interaktion verarbeiten kann – Input (deine Nachricht + System-Prompt + Konversationsverlauf) UND Output (die Antwort) zusammen.Typische Kontextfenster-Größen
| Kategorie | Größe | Entspricht ungefähr |
|---|---|---|
| Klein | 4k–8k Tokens | 5–10 Seiten Text |
| Mittel | 32k–128k Tokens | 40–160 Seiten Text |
| Groß | 200k–500k Tokens | 250–600 Seiten Text |
| Sehr groß | 1M–2M+ Tokens | 1.250+ Seiten Text |
Das “Lost in the Middle” Problem
Forschungsergebnisse zeigen: Informationen am Anfang und Ende des Kontextfensters werden besser verarbeitet als Informationen in der Mitte. Das bedeutet:Wichtige Informationen gehören an den Anfang oder das Ende deines Prompts – nicht in die Mitte. Bei sehr langen Kontexten kann das Modell Informationen in der Mitte “übersehen”.
Praktische Konsequenzen
- System-Prompt: Steht immer am Anfang – gut, die wichtigsten Regeln werden zuverlässig befolgt
- Lange Dokumente: Wenn möglich, die relevantesten Abschnitte am Anfang platzieren
- Konversationsverlauf: Ältere Nachrichten landen in der “Mitte” und können weniger Einfluss haben
Kontextfenster effizient nutzen
Nur relevanten Kontext einfügen
Mehr Kontext = nicht automatisch bessere Ergebnisse. Irrelevanter Kontext kann die Qualität sogar verschlechtern:| Ansatz | Beschreibung | Effekt |
|---|---|---|
| Ganzes Dokument einfügen | 50-Seiten-Handbuch als Kontext | Schlecht – das Modell muss die Nadel im Heuhaufen finden |
| Relevante Abschnitte vorselektieren | Nur die 3 relevanten Kapitel | Gut – fokussierter Kontext, bessere Antworten |
| RAG / Hybrid Search nutzen | Automatische Vorauswahl relevanter Passagen | Optimal – skaliert und ist präzise |
Bei langen Konversationen
In langen Chat-Verläufen wächst der Token-Verbrauch mit jeder Nachricht. Strategien:- Neue Konversation starten: Wenn das Thema wechselt, starte einen neuen Chat
- Zusammenfassung einfügen: “Fasse unsere bisherige Diskussion zusammen” – und starte dann einen neuen Chat mit dieser Zusammenfassung als Kontext
- System-Prompt kompakt halten: Ein langer System-Prompt verbraucht bei JEDER Nachricht Tokens
Automatische Chat-Zusammenfassung
Seit v1.0.0-beta.4 fasst Localmind lange Konversationen automatisch zusammen, sobald du dich dem Kontextlimit des gewählten Modells näherst. Ältere Nachrichten werden im Hintergrund verdichtet, die wesentlichen Fakten und der Gesprächsfaden bleiben erhalten — du chattest weiter, ohne dass der Verlauf abgeschnitten wird.Die Zusammenfassung ersetzt ältere Originalnachrichten im Kontext, nicht in der Chat History. Du kannst jederzeit nach oben scrollen und die Originalnachrichten weiter lesen.
Nächste Schritte
Modellauswahl
Finde das Modell mit dem passenden Kontextfenster.
Output-Qualität
Temperature, Top-P und andere Parameter verstehen.
