Skip to main content
Unter Dokumente: Parser legen Sie fest, welcher Parser für welchen Dateityp verwendet wird – sowohl für die reguläre Dokumentenverarbeitung als auch für Dokumente, die direkt im Chat hochgeladen werden. Diese Einstellungen gelten als organisationsweiter Standard und können von Space-Admins in den Space-Einstellungen → Parser überschrieben werden.
Erfordert die Rolle Org Admin.

Wann sollte ich das ändern?

  • Beim erstmaligen Einrichten – um konsistente Standards für alle Spaces zu setzen
  • Wenn die Qualität der Dokumentenextraktion nicht zufriedenstellend ist
  • Wenn neue Parser-Versionen verfügbare sind und getestet werden sollen
  • Wenn bestimmte Dokumenttypen (z.B. gescannte PDFs) besser verarbeitet werden sollen

Bereiche

Die Parser-Konfiguration ist in zwei Abschnitte unterteilt: Dokumentenverarbeitung — Parser für Dateien, die in den Bereich Daten → Dokumente hochgeladen werden. Diese werden durch die Parsing Engine verarbeitet, in Chunks zerlegt und für die Hybride Suche indexiert. Chat-Dokumentenverarbeitung — Parser für Dateien, die direkt als Anhang in einem Chat hochgeladen werden. Diese werden für den aktuellen Chat-Kontext verarbeitet.

Parser pro Dateityp

PDF

ParserBeschreibungGeeignet für
pdf_pymupdfSchnelle, regelbasierte Textextraktion direkt aus der PDF-Struktur.Rein textbasierte PDFs ohne komplexes Layout
pdf_doclingStrukturerhaltende Extraktion mit Erkennung von Überschriften, Tabellen und Listen.PDFs mit Tabellen, Listen und mehrspaltigem Layout
mistral_ocrKI-gestützte Texterkennung (OCR) für gescannte Dokumente und Bilder.Gescannte PDFs, fotografierte Dokumente
ultraparseUniversalparser mit breiter Formatunterstützung.Gemischte PDF-Typen als Fallback

Word-Dokument

ParserBeschreibungGeeignet für
docx_doclingStrukturerhaltende Extraktion mit Erkennung von Formatierungen, Tabellen und Absätzen.Alle Word-Dokumente (Standard)

PowerPoint

ParserBeschreibungGeeignet für
pptx_python_pptxRegelbasierte Extraktion von Folieninhalten und Notizen.Textlastige Präsentationen
pptx_doclingStrukturerhaltende Extraktion mit Layout- und Tabellenerkennung in Folien.Präsentationen mit komplexem Layout (Standard)

Excel

ParserBeschreibungGeeignet für
xlsx_openpyxlRegelbasierte Tabellenextraktion – liest Zellen, Blätter und Formeln.Standardmäßige Tabellen und Berichte
xlsx_doclingStrukturerhaltende Extraktion mit besserer Erkennung von Tabellenlayouts.Komplexe Arbeitsmappen mit verschachtelten Tabellen (Standard)

Bild

ParserBeschreibungGeeignet für
mistral_ocrKI-gestützte Texterkennung – extrahiert sichtbaren Text aus Bildern.Bilder mit Text, Screenshots, Scans
mistral_visionKI-Bildanalyse – beschreibt Inhalte, Objekte und Kontext im Bild.Fotos, Diagramme, Grafiken ohne reinen Text (Standard)

Markdown

ParserBeschreibungGeeignet für
markdownNative Markdown-Verarbeitung mit Beibehaltung der Struktur.Alle Markdown-Dateien (Standard)

Text

ParserBeschreibungGeeignet für
textDirekte Textübernahme ohne Konvertierung.Reine Textdateien (Standard)

CSV

ParserBeschreibungGeeignet für
csvTabellarische Verarbeitung mit Spalten- und Zeilenerkennung.Alle CSV-Dateien (Standard)

Vererbung

Die hier gewählten Parser bilden den Org-Standard. Space-Admins können in ihren Space-Einstellungen pro Dateityp einen anderen Parser wählen. Das ist sinnvoll, wenn ein Space hauptsächlich mit einem bestimmten Dokumenttyp arbeitet (z.B. ein Space für gescannte Verträge, der durchgängig mistral_ocr benötigt).

Auswirkungen

  • Änderungen am Org-Parser wirken sich auf neue Dokumente in allen Spaces aus, die keinen eigenen Parser-Override haben.
  • Bereits verarbeitete Dokumente werden nicht automatisch neu geparst – dafür muss das Dokument erneut hochgeladen werden.
Org-weit standardisieren, in Spaces nur bei Bedarf abweichen. Die meisten Organisationen fahren gut mit den als „Standard” markierten Parsern. Überschreiben Sie auf Space-Ebene nur bei konkreten Qualitätsproblemen – z.B. mistral_ocr für einen Space, der ausschließlich gescannte Dokumente verarbeitet.
Detaillierte Beschreibungen der einzelnen Parser und ihrer Eignung finden Sie auch in den Space-Einstellungen → Parser.