Chain-of-Thought (CoT)
Chain-of-Thought (CoT)
Das Modell wird angewiesen, seinen Denkprozess offenzulegen – Schritt für Schritt.Trigger-Phrase: “Denke Schritt für Schritt” oder “Erkläre deinen Denkweg”
Embeddings
Embeddings
Numerische Repräsentationen von Text als Vektoren (Listen von Zahlen). Ähnliche Texte haben ähnliche Vektoren.Verwendet für:
- Semantische Suche
- Dokumenten-Ähnlichkeit
- RAG-Systeme
Few-Shot Prompting
Few-Shot Prompting
Dem Modell werden Beispiele gezeigt, bevor es die eigentliche Aufgabe löst.Vorteil: Modell versteht das gewünschte Format besser.
Halluzinationen
Halluzinationen
Wenn ein Modell falsche Informationen überzeugend präsentiert – Fakten erfindet, die nicht existieren.Ursachen:
- Frage liegt außerhalb des Trainingswissens
- Modell “füllt Lücken” mit plausibel klingendem Text
- RAG verwenden (Dokumente als Quelle)
- Modell anweisen: “Sage wenn du unsicher bist”
- Quellen/Zitate einfordern
Hybrid Search
Hybrid Search
Kombination aus semantischer Suche (Bedeutung) und Keyword-Suche (exakte Wörter) für beste Ergebnisse.In Localmind als Hybrid Search Tool verfügbar.
Kontextfenster (Context Window)
Kontextfenster (Context Window)
Die maximale Textmenge, die ein Modell gleichzeitig verarbeiten kann – gemessen in Tokens.
Wichtig: Das Kontextfenster umfasst sowohl Ihre Eingabe als auch die Antwort des Modells.
| Größe | Entspricht ca. |
|---|---|
| 8k Tokens | 12 Seiten Text |
| 32k Tokens | 50 Seiten Text |
| 128k Tokens | 200 Seiten Text |
| 1M+ Tokens | 1.500+ Seiten Text |
Multimodal
Multimodal
Modelle, die verschiedene Medientypen verarbeiten können:
- Text
- Bilder
- Audio
- Video (bei einigen Modellen)
RAG (Retrieval-Augmented Generation)
RAG (Retrieval-Augmented Generation)
Eine Technik, bei der das Modell zuerst relevante Dokumente abruft und dann basierend auf diesen antwortet.Vorteile:
- Antworten basieren auf Ihren Daten
- Reduziert Halluzinationen
- Aktuellere Informationen als das Trainings-Cutoff
Reasoning (Denken)
Reasoning (Denken)
Modelle mit Reasoning denken schrittweise nach, bevor sie antworten. Sie zerlegen komplexe Probleme in Teilschritte.Ideal für:
- Mathematische Berechnungen
- Logische Schlussfolgerungen
- Mehrstufige Analysen
- Wissenschaftliche Probleme
System Prompt
System Prompt
Die grundlegende Anweisung, die das Verhalten des Agenten definiert. Wird vor jeder Konversation geladen.Enthält typischerweise:
- Rolle des Agenten
- Verhaltensregeln
- Ausgabeformat
- Einschränkungen
Temperature
Temperature
Steuert die Kreativität der Antworten.
Empfehlung: 0.3–0.5 für sachliche Aufgaben, 0.7–1.0 für kreatives Schreiben.
| Wert | Verhalten |
|---|---|
| 0.0 | Deterministisch – immer die gleiche Antwort |
| 0.3–0.7 | Ausgewogen – leichte Variation |
| 1.0+ | Kreativ – unvorhersehbare, diverse Antworten |
Tokens
Tokens
Die Grundeinheit, in der KI-Modelle Text verarbeiten. Ein Token ist ungefähr:
- 4 Zeichen im Englischen
- 3 Zeichen im Deutschen
- 1 häufiges Wort oder Wortteil
Top K
Top K
Begrenzt die Auswahl auf die K wahrscheinlichsten nächsten Wörter.
Empfehlung: 40–50 als Standard. Niedriger für fokussierte Antworten.
| Wert | Verhalten |
|---|---|
| 1 | Nur das wahrscheinlichste Wort |
| 40 | Auswahl aus den Top 40 Optionen |
| 100+ | Sehr breite Auswahl |
Top P (Nucleus Sampling)
Top P (Nucleus Sampling)
Begrenzt die Auswahl auf die wahrscheinlichsten Wörter, deren kumulierte Wahrscheinlichkeit den Wert P erreicht.
Empfehlung: 0.9 als Standard. Reduzieren für präzisere Antworten.
| Wert | Verhalten |
|---|---|
| 0.1 | Sehr fokussiert – nur die sichersten Optionen |
| 0.9 | Breite Auswahl – mehr Variation |
| 1.0 | Keine Einschränkung |
Vector Database
Vector Database
Eine Datenbank, die Embeddings speichert und schnelle Ähnlichkeitssuchen ermöglicht.Localmind verwaltet dies automatisch im Hintergrund.
Zero-Shot
Zero-Shot
Das Modell löst eine Aufgabe ohne Beispiele – nur basierend auf der Anweisung.
