base_url auf Ihre Instanz, api_key auf Ihren persönlichen API-Key und model auf eine Agent-UUID statt eines Modellnamens.
In Localmind wählt der
model-Parameter keinen Modellnamen wie gpt-4, sondern einen Agent über dessen UUID. Welches Sprachmodell der Agent nutzt, ist in der Library am Agent hinterlegt und läuft hinter einem LiteLLM-Proxy. Die UUIDs der für Sie zugänglichen Agenten liefert GET /v1/models.GET /v1/models
Listet alle Agenten, auf die Ihr API-Key Zugriff hat (nicht gelöscht, keine System-Agenten), im OpenAI-/models-Format. Das Feld name spart einen zusätzlichen Lookup; owned_by ist die Org-ID.
Bearer sk-… — Ihr persönlicher API-Key.Immer
"list".Die zugänglichen Agenten. Jeder Eintrag hat die folgenden Felder.
Die Agent-UUID. Diesen Wert verwenden Sie als
model in POST /v1/chat/completions.Anzeigename des Agents (nur zur Lesbarkeit, nicht zum Routing).
Immer
"model".Erstellungszeitpunkt als Unix-Timestamp.
Die Organisation, der der Agent gehört (Org-ID).
Die Liste ist auf das verengt, was Ihr Key erreicht: Ein Key mit dem Scope „ausgewählte Spaces” zeigt nur Agenten aus diesen Spaces. Wie der Key Rollen und Spaces einschränkt, beschreibt Authentifizierung und Rollen.
POST /v1/chat/completions
OpenAI-kompatibler Chat-Endpunkt — stateless und single-shot: Es gibt keinen serverseitigen Conversation-State. Den bisherigen Verlauf senden Sie bei jedem Aufruf vollständig im messages-Array mit.
Bearer sk-… — Ihr persönlicher API-Key.Die Agent-UUID aus
GET /v1/models. Kein Modellname-Routing. Eine unbekannte UUID liefert 404 {"detail":"Model '…' not found"}.Die Nachrichten der Konversation. Jede Nachricht hat ein
role (system, user oder assistant) und ein content.Bei
true wird die Antwort als Server-Sent-Events (SSE) gestreamt.Überschreibt den am Agent hinterlegten Default.
Maximale Anzahl generierter Tokens; überschreibt den Agent-Default. Das Alias
max_completion_tokens wird ebenfalls akzeptiert.JSON-Mode über
{"type": "json_object"}. Wird via LiteLLM an das Modell durchgereicht — die strikte Gültigkeit ist modellabhängig und wird nicht hart erzwungen.Mit
{"include_usage": true} enthält der Stream am Ende einen zusätzlichen Chunk mit den Usage-Zahlen.Die Parameter
top_p, stop, presence_penalty, frequency_penalty, seed, n und logit_bias werden akzeptiert, aber ignoriert — sie lösen keinen 422-Fehler aus, haben aber keine Wirkung.Hinweise zum Verhalten
- Tools laufen intern. Ruft der Agent ein Tool auf (z. B. Hybrid Search über seine Wissensquellen), geschieht das serverseitig. Im Response ist
tool_callsdeshalb immernull— es gibt keinefunction_call-Ausgabe. - Kein Conversation-State. Der Endpunkt persistiert nichts. Für mehrstufige Chats senden Sie den Verlauf im
messages-Array mit. Siehe auch Agenten.
Eindeutige ID der Antwort (
chatcmpl-…).Immer
"chat.completion" (nicht-gestreamt).Die angefragte Agent-UUID.
Die generierten Antworten.
choices[0].message.content enthält den Text des Agents; tool_calls ist immer null; finish_reason ist typischerweise "stop".Token-Verbrauch mit
prompt_tokens, completion_tokens und total_tokens.Streaming
Mit"stream": true antwortet der Endpunkt als Server-Sent-Events. Jede Zeile beginnt mit data: und enthält ein chat.completion.chunk-Objekt; der jeweilige Text-Teil steht in choices[0].delta. Mit stream_options.include_usage folgt am Ende ein Chunk mit den Usage-Zahlen. Den Abschluss markiert die Zeile data: [DONE].
Stream (gekürzt)
Fehler
model-UUID liefert 404. Listen Sie die gültigen Agenten erneut mit GET /v1/models. Alle Statuscodes und das Fehlermodell beschreibt Konventionen und Fehler.
Verwandte Seiten
Quickstart
Key erstellen, Agenten auflisten und die erste Anfrage senden.
Agenten
Agenten programmatisch finden und ihre vollständige Konfiguration lesen.
Use Cases
Fertige Rezepte: OpenAI-Drop-in, RAG, Chatbot, n8n.
Authentifizierung und Rollen
Wie Ihr Key Rollen erbt, an die Org gebunden ist und den Zugriff verengt.
