Skip to main content
Unter Dokumente: Parser legen Sie fest, welcher Parser für welchen Dateityp verwendet wird – sowohl für die reguläre Dokumentenverarbeitung als auch für Dokumente, die direkt im Chat hochgeladen werden. Diese Einstellungen gelten als organisationsweiter Standard und können von Space-Admins in den Space-Einstellungen → Parser überschrieben werden.
Erfordert die Rolle Org Admin.

Wann sollte ich das ändern?

  • Beim erstmaligen Einrichten – um konsistente Standards für alle Spaces zu setzen
  • Wenn die Qualität der Dokumentenextraktion nicht zufriedenstellend ist
  • Wenn neue Parser-Versionen verfügbare sind und getestet werden sollen
  • Wenn bestimmte Dokumenttypen (z.B. gescannte PDFs) besser verarbeitet werden sollen

Bereiche

Die Parser-Konfiguration ist in zwei Abschnitte unterteilt: Dokumentenverarbeitung — Parser für Dateien, die in den Bereich Daten → Dokumente hochgeladen werden. Diese werden durch die Parsing Engine verarbeitet, in Chunks zerlegt und für die Hybride Suche indexiert. Chat-Dokumentenverarbeitung — Parser für Dateien, die direkt als Anhang in einem Chat hochgeladen werden. Diese werden für den aktuellen Chat-Kontext verarbeitet.

Parser pro Dateityp

PDF

ParserBeschreibungGeeignet für
pdf_pymupdfSchnelle, regelbasierte Textextraktion direkt aus der PDF-Struktur.Rein textbasierte PDFs ohne komplexes Layout
pdf_doclingStrukturerhaltende Extraktion mit Erkennung von Überschriften, Tabellen und Listen.PDFs mit Tabellen, Listen und mehrspaltigem Layout
mistral_ocrKI-gestützte Texterkennung (OCR) für gescannte Dokumente und Bilder.Gescannte PDFs, fotografierte Dokumente
ultraparseLocalmind Multiparser für Mischtypen. Erkennt eingebettete Bilder im Dokument, schneidet sie aus und generiert per LLM eine Beschreibung. Die Beschreibung wird zusammen mit der Bild-URL den Chunks angefügt und ist so per Hybrid Search im Chat retrievebar.PDFs mit gemischten Inhalten aus Text, Tabellen und Bildern

Word-Dokument

ParserBeschreibungGeeignet für
docx_doclingStrukturerhaltende Extraktion mit Erkennung von Formatierungen, Tabellen und Absätzen.Alle Word-Dokumente (Standard)

PowerPoint

ParserBeschreibungGeeignet für
pptx_python_pptxRegelbasierte Extraktion von Folieninhalten und Notizen.Textlastige Präsentationen
pptx_doclingStrukturerhaltende Extraktion mit Layout- und Tabellenerkennung in Folien.Präsentationen mit komplexem Layout (Standard)

Excel

ParserBeschreibungGeeignet für
xlsx_openpyxlRegelbasierte Tabellenextraktion – liest Zellen, Blätter und Formeln.Standardmäßige Tabellen und Berichte
xlsx_doclingStrukturerhaltende Extraktion mit besserer Erkennung von Tabellenlayouts.Komplexe Arbeitsmappen mit verschachtelten Tabellen (Standard)

Bild

ParserBeschreibungGeeignet für
mistral_ocrKI-gestützte Texterkennung – extrahiert sichtbaren Text aus Bildern.Bilder mit Text, Screenshots, Scans
mistral_visionKI-Bildanalyse – beschreibt Inhalte, Objekte und Kontext im Bild.Fotos, Diagramme, Grafiken ohne reinen Text (Standard)

Markdown

ParserBeschreibungGeeignet für
markdownNative Markdown-Verarbeitung mit Beibehaltung der Struktur.Alle Markdown-Dateien (Standard)

Text

ParserBeschreibungGeeignet für
textDirekte Textübernahme ohne Konvertierung.Reine Textdateien (Standard)

CSV

ParserBeschreibungGeeignet für
csvTabellarische Verarbeitung mit Spalten- und Zeilenerkennung.Alle CSV-Dateien (Standard)

Vererbung

Die hier gewählten Parser bilden den Org-Standard. Space-Admins können in ihren Space-Einstellungen pro Dateityp einen anderen Parser wählen. Das ist sinnvoll, wenn ein Space hauptsächlich mit einem bestimmten Dokumenttyp arbeitet (z.B. ein Space für gescannte Verträge, der durchgängig mistral_ocr benötigt).

Auswirkungen

  • Änderungen am Org-Parser wirken sich auf neue Dokumente in allen Spaces aus, die keinen eigenen Parser-Override haben.
  • Bereits verarbeitete Dokumente werden nicht automatisch neu geparst – dafür muss das Dokument erneut hochgeladen werden.
Org-weit standardisieren, in Spaces nur bei Bedarf abweichen. Die meisten Organisationen fahren gut mit den als „Standard” markierten Parsern. Überschreiben Sie auf Space-Ebene nur bei konkreten Qualitätsproblemen – z.B. mistral_ocr für einen Space, der ausschließlich gescannte Dokumente verarbeitet.
Detaillierte Beschreibungen der einzelnen Parser und ihrer Eignung finden Sie auch in den Space-Einstellungen → Parser.