Unter Dokumente: Parser legen Sie fest, welcher Parser für welchen Dateityp verwendet wird – sowohl für die reguläre Dokumentenverarbeitung als auch für Dokumente, die direkt im Chat hochgeladen werden. Diese Einstellungen gelten als organisationsweiter Standard und können von Space-Admins in den Space-Einstellungen → Parser überschrieben werden.
Erfordert die Rolle Org Admin.
Wann sollte ich das ändern?
- Beim erstmaligen Einrichten – um konsistente Standards für alle Spaces zu setzen
- Wenn die Qualität der Dokumentenextraktion nicht zufriedenstellend ist
- Wenn neue Parser-Versionen verfügbare sind und getestet werden sollen
- Wenn bestimmte Dokumenttypen (z.B. gescannte PDFs) besser verarbeitet werden sollen
Bereiche
Die Parser-Konfiguration ist in zwei Abschnitte unterteilt:
Dokumentenverarbeitung — Parser für Dateien, die in den Bereich Daten → Dokumente hochgeladen werden. Diese werden durch die Parsing Engine verarbeitet, in Chunks zerlegt und für die Hybride Suche indexiert.
Chat-Dokumentenverarbeitung — Parser für Dateien, die direkt als Anhang in einem Chat hochgeladen werden. Diese werden für den aktuellen Chat-Kontext verarbeitet.
Parser pro Dateityp
PDF
| Parser | Beschreibung | Geeignet für |
|---|
pdf_pymupdf | Schnelle, regelbasierte Textextraktion direkt aus der PDF-Struktur. | Rein textbasierte PDFs ohne komplexes Layout |
pdf_docling | Strukturerhaltende Extraktion mit Erkennung von Überschriften, Tabellen und Listen. | PDFs mit Tabellen, Listen und mehrspaltigem Layout |
mistral_ocr | KI-gestützte Texterkennung (OCR) für gescannte Dokumente und Bilder. | Gescannte PDFs, fotografierte Dokumente |
ultraparse | Universalparser mit breiter Formatunterstützung. | Gemischte PDF-Typen als Fallback |
Word-Dokument
| Parser | Beschreibung | Geeignet für |
|---|
docx_docling | Strukturerhaltende Extraktion mit Erkennung von Formatierungen, Tabellen und Absätzen. | Alle Word-Dokumente (Standard) |
PowerPoint
| Parser | Beschreibung | Geeignet für |
|---|
pptx_python_pptx | Regelbasierte Extraktion von Folieninhalten und Notizen. | Textlastige Präsentationen |
pptx_docling | Strukturerhaltende Extraktion mit Layout- und Tabellenerkennung in Folien. | Präsentationen mit komplexem Layout (Standard) |
Excel
| Parser | Beschreibung | Geeignet für |
|---|
xlsx_openpyxl | Regelbasierte Tabellenextraktion – liest Zellen, Blätter und Formeln. | Standardmäßige Tabellen und Berichte |
xlsx_docling | Strukturerhaltende Extraktion mit besserer Erkennung von Tabellenlayouts. | Komplexe Arbeitsmappen mit verschachtelten Tabellen (Standard) |
Bild
| Parser | Beschreibung | Geeignet für |
|---|
mistral_ocr | KI-gestützte Texterkennung – extrahiert sichtbaren Text aus Bildern. | Bilder mit Text, Screenshots, Scans |
mistral_vision | KI-Bildanalyse – beschreibt Inhalte, Objekte und Kontext im Bild. | Fotos, Diagramme, Grafiken ohne reinen Text (Standard) |
Markdown
| Parser | Beschreibung | Geeignet für |
|---|
markdown | Native Markdown-Verarbeitung mit Beibehaltung der Struktur. | Alle Markdown-Dateien (Standard) |
Text
| Parser | Beschreibung | Geeignet für |
|---|
text | Direkte Textübernahme ohne Konvertierung. | Reine Textdateien (Standard) |
CSV
| Parser | Beschreibung | Geeignet für |
|---|
csv | Tabellarische Verarbeitung mit Spalten- und Zeilenerkennung. | Alle CSV-Dateien (Standard) |
Vererbung
Die hier gewählten Parser bilden den Org-Standard. Space-Admins können in ihren Space-Einstellungen pro Dateityp einen anderen Parser wählen. Das ist sinnvoll, wenn ein Space hauptsächlich mit einem bestimmten Dokumenttyp arbeitet (z.B. ein Space für gescannte Verträge, der durchgängig mistral_ocr benötigt).
Auswirkungen
- Änderungen am Org-Parser wirken sich auf neue Dokumente in allen Spaces aus, die keinen eigenen Parser-Override haben.
- Bereits verarbeitete Dokumente werden nicht automatisch neu geparst – dafür muss das Dokument erneut hochgeladen werden.
Org-weit standardisieren, in Spaces nur bei Bedarf abweichen. Die meisten Organisationen fahren gut mit den als „Standard” markierten Parsern. Überschreiben Sie auf Space-Ebene nur bei konkreten Qualitätsproblemen – z.B. mistral_ocr für einen Space, der ausschließlich gescannte Dokumente verarbeitet.