Dokumente: Parser

Unter Dokumente: Parser legen Sie fest, welcher Parser für welchen Dateityp verwendet wird – sowohl für die reguläre Dokumentenverarbeitung als auch für Dokumente, die direkt im Chat hochgeladen werden. Diese Einstellungen gelten als organisationsweiter Standard und können von Space-Admins in den Space-Einstellungen → Parser überschrieben werden.

Erfordert die Rolle Org Admin.

Wann sollte ich das ändern?

Beim erstmaligen Einrichten – um konsistente Standards für alle Spaces zu setzen
Wenn die Qualität der Dokumentenextraktion nicht zufriedenstellend ist
Wenn neue Parser-Versionen verfügbar sind und getestet werden sollen
Wenn bestimmte Dokumenttypen (z.B. gescannte PDFs) besser verarbeitet werden sollen

Bereiche

Die Parser-Konfiguration ist in zwei Abschnitte unterteilt: Dokumentenverarbeitung — Parser für Dateien, die in den Bereich Daten → Dokumente hochgeladen werden. Diese werden durch die Parsing Engine verarbeitet, in Chunks zerlegt und für die Hybrid Search indexiert. Chat-Dokumentenverarbeitung — Parser für Dateien, die direkt als Anhang in einem Chat hochgeladen werden. Diese werden für den aktuellen Chat-Kontext verarbeitet.

Parser pro Dateityp

PDF

Parser	Beschreibung	Geeignet für
`pdf_pymupdf`	Schnelle, regelbasierte Textextraktion direkt aus der PDF-Struktur.	Rein textbasierte PDFs ohne komplexes Layout
`pdf_docling`	Strukturerhaltende Extraktion mit Erkennung von Überschriften, Tabellen und Listen.	PDFs mit Tabellen, Listen und mehrspaltigem Layout
`mistral_ocr`	KI-gestützte Texterkennung (OCR) für gescannte Dokumente und Bilder.	Gescannte PDFs, fotografierte Dokumente (Standard)
`ultraparse`	Localmind Multiparser für Mischtypen. Erkennt eingebettete Bilder im Dokument, schneidet sie aus und generiert per LLM eine Beschreibung. Die Beschreibung wird zusammen mit der Bild-URL den Chunks angefügt und ist so per Hybrid Search im Chat retrievebar.	PDFs mit gemischten Inhalten aus Text, Tabellen und Bildern

Word-Dokument

Parser	Beschreibung	Geeignet für
`docx_docling`	Strukturerhaltende Extraktion mit Erkennung von Formatierungen, Tabellen und Absätzen.	Alle Word-Dokumente (Standard)

PowerPoint

Parser	Beschreibung	Geeignet für
`pptx_python_pptx`	Regelbasierte Extraktion von Folieninhalten und Notizen.	Textlastige Präsentationen
`pptx_docling`	Strukturerhaltende Extraktion mit Layout- und Tabellenerkennung in Folien.	Präsentationen mit komplexem Layout (Standard)

Excel

Parser	Beschreibung	Geeignet für
`xlsx_openpyxl`	Regelbasierte Tabellenextraktion – liest Zellen, Blätter und Formeln.	Standardmäßige Tabellen und Berichte
`xlsx_docling`	Strukturerhaltende Extraktion mit besserer Erkennung von Tabellenlayouts.	Komplexe Arbeitsmappen mit verschachtelten Tabellen (Standard)

Bild

Parser	Beschreibung	Geeignet für
`mistral_ocr`	KI-gestützte Texterkennung – extrahiert sichtbaren Text aus Bildern.	Bilder mit Text, Screenshots, Scans
`mistral_vision`	KI-Bildanalyse – beschreibt Inhalte, Objekte und Kontext im Bild.	Fotos, Diagramme, Grafiken ohne reinen Text (Standard)

Markdown

Parser	Beschreibung	Geeignet für
`markdown`	Native Markdown-Verarbeitung mit Beibehaltung der Struktur.	Alle Markdown-Dateien (Standard)

Text

Parser	Beschreibung	Geeignet für
`text`	Direkte Textübernahme ohne Konvertierung.	Reine Textdateien (Standard)

CSV

Parser	Beschreibung	Geeignet für
`csv`	Tabellarische Verarbeitung mit Spalten- und Zeilenerkennung.	Alle CSV-Dateien (Standard)

Vererbung

Die hier gewählten Parser bilden den Org-Standard. Space-Admins können in ihren Space-Einstellungen pro Dateityp einen anderen Parser wählen. Das ist sinnvoll, wenn ein Space hauptsächlich mit einem bestimmten Dokumenttyp arbeitet (z.B. ein Space für gescannte Verträge, der durchgängig mistral_ocr benötigt).

Auswirkungen

Änderungen am Org-Parser wirken sich auf neue Dokumente in allen Spaces aus, die keinen eigenen Parser-Override haben.
Bereits verarbeitete Dokumente werden nicht automatisch neu geparst – dafür muss das Dokument erneut hochgeladen werden.

Org-weit standardisieren, in Spaces nur bei Bedarf abweichen. Die meisten Organisationen fahren gut mit den als „Standard” markierten Parsern. Überschreiben Sie auf Space-Ebene nur bei konkreten Qualitätsproblemen – z.B. mistral_ocr für einen Space, der ausschließlich gescannte Dokumente verarbeitet.

Detaillierte Beschreibungen der einzelnen Parser und ihrer Eignung finden Sie auch in den Space-Einstellungen → Parser.

Einstieg

Instanz-Einstellungen

Organisations-Einstellungen

Library

Einrichtung

Integrationen

Netzwerk & Sicherheit

Observability

Hosting & Preise

Wann sollte ich das ändern?

Bereiche

Parser pro Dateityp

PDF

Word-Dokument

PowerPoint

Excel

Bild

Markdown

Text

CSV

Vererbung

Auswirkungen

​Wann sollte ich das ändern?

​Bereiche

​Parser pro Dateityp

​PDF

​Word-Dokument

​PowerPoint

​Excel

​Bild

​Markdown

​Text

​CSV

​Vererbung

​Auswirkungen

Wann sollte ich das ändern?

Bereiche

Parser pro Dateityp

PDF

Word-Dokument

PowerPoint

Excel

Bild

Markdown

Text

CSV

Vererbung

Auswirkungen