Dokumentenverarbeitung

Bestellungen automatisch auslesen – Regeln, OCR oder KI

Adrian Schmid13. April 202611 Min. Lesezeit

Ein sauberes Stammkunden-PDF und ein schief fotografierter Bestellzettel sehen für Sie gleich aus. Für ein Auslesesystem liegen Welten dazwischen – und genau hier wird häufig die falsche Technologie gekauft.

OCR, KI und IDP lösen jeweils einen anderen Teil des Problems. Welche Dokumentarten liegen bei Ihnen wirklich täglich im Posteingang – und wo reichen einfache Regeln, bevor KI sinnvoll wird?

Bestellungen automatisch auslesen – Entscheidungsübersicht: Wann Regeln, OCR oder KI im Bestelleingang sinnvoll sind

Inhaltsverzeichnis

01Woran Sie merken, dass Ihre Technologiewahl nicht stimmt
02Zuerst klären: Was liegt überhaupt vor?
03Wann Regeln völlig ausreichen
04Wann OCR nötig wird
05Wann KI oder IDP sinnvoll werden
06So entscheiden Sie pragmatisch zwischen Regeln, OCR und KI
07Die typische Fehlannahme: Auslesen ist das Hauptproblem
08So sieht ein belastbarer Ablauf in der Praxis aus
09Typische Fehler bei der Technologiewahl
10Woran Sie erkennen, dass KI bei Ihnen noch zu früh ist
11Ein realistischer Pilot startet nicht mit dem schwierigsten Scan
12Fazit

Woran Sie merken, dass Ihre Technologiewahl nicht stimmt

Nicht jedes Projekt hat ein Technologieproblem. In der Praxis wird die falsche Toolfrage sichtbar, wenn mehrere dieser Punkte zusammenkommen:

Regelwerk wächst mit jedem Kundenformat

Jeder neue Kunde und jede Layoutänderung braucht eigene Extraktionsregeln. Der Pflegeaufwand steigt schneller als der Nutzen.

OCR liefert Text, aber keine belastbaren Daten

Die Zeichenerkennung funktioniert technisch, aber was davon Kunde, Artikel oder Liefertermin ist, muss trotzdem jemand manuell zuordnen.

KI-Pilot trägt Standardfälle, scheitert an Sonderfällen

Das Tool erkennt Felder in einer kontrollierten Auswahl. Im Alltag scheitert es an Sonderfällen, schwankender Dokumentqualität oder fehlendem Stammdatenabgleich.

Technologiewahl ohne klare Entscheidungsgrundlage

OCR, IDP, KI, LLM – die Begriffe klingen ähnlich, aber Aufwand, Reichweite und Voraussetzungen unterscheiden sich erheblich.

Dann liegt das Problem meist nicht am Tool, sondern an der fehlenden Unterscheidung: Welche Dokumentarten liegen wirklich vor – und was braucht welche Technik?

Zuerst klären: Was liegt überhaupt vor?

Wer Bestellungen automatisieren will, sollte zuerst nicht nach Technologie sortieren, sondern nach Dokumentrealität.

Denn „Bestellung auslesen" kann sehr Unterschiedliches bedeuten:

eine E-Mail mit klarer Positionsliste
ein maschinell erzeugtes PDF
ein PDF-Scan
eine Excel-Datei
ein Foto vom handschriftlichen Bestellblock
ein weitergeleiteter E-Mail-Thread mit Änderungen und Kommentaren

Technisch betrachtet sind das nicht nur Varianten desselben Problems. Es sind unterschiedliche Klassen von Eingängen. Und genau davon hängt ab, ob Sie mit Regeln, OCR oder KI arbeiten sollten.

1. Strukturierte Eingänge

Dazu zählen zum Beispiel:

standardisierte PDFs einzelner Kunden
Excel-Dateien mit festen Spalten
E-Mails mit immer ähnlichem Aufbau
Bestellformulare mit klaren Feldpositionen

Hier sind Inhalte in der Regel gut vorhersehbar: derselbe Aufbau, dieselben Feldnamen, ähnliche Positionstabellen, bekannte Referenzen. In solchen Fällen reicht oft regelbasierte Extraktion völlig aus.

2. Halbstrukturierte Eingänge

Dazu zählen:

PDFs mit ähnlichem, aber nicht identischem Layout
Freitext-E-Mails mit Anhang
Bestellungen mit Kommentaren, Sonderwünschen oder wechselnden Positionsdarstellungen
Dokumente mit bekannten Mustern, aber variierender Formulierung

Hier stößt starres Parsing schneller an Grenzen. Diese Fälle brauchen häufig eine Kombination aus OCR und Regeln – oder KI-gestützte Extraktion mit anschließender Validierung.

3. Unstrukturierte oder schwierige Eingänge

Dazu zählen:

schlechte Scans
Fotos
handschriftliche Notizen
E-Mail-Verläufe mit mehreren Änderungen
Dokumente mit stark schwankender Qualität

Hier reicht reine Feldlogik meist nicht mehr. Selbst OCR allein löst das Problem nur teilweise. In solchen Fällen wird KI oder Human-in-the-Loop oft sinnvoll – nicht als Selbstzweck, sondern weil der Eingang technisch anders nicht stabil genug behandelbar ist.

Wann Regeln völlig ausreichen

Regelbasiert klingt oft altmodisch. In vielen Projekten ist es aber genau der wirtschaftlich sinnvollste Einstieg.

Regeln reichen oft dann, wenn:

bestimmte Kunden immer dasselbe Format schicken
Feldpositionen stabil sind
Artikelnummern klar erkennbar sind
Positionszeilen konsistent aufgebaut sind
die Zahl der Varianten überschaubar bleibt

Typische Beispiele: Ein Großkunde sendet immer dasselbe PDF-Layout. Eine Bestellung kommt als standardisierte Excel-Datei. Im Mailtext stehen immer dieselben Schlüsselwörter.

Dann brauchen Sie oft keine KI. Dann brauchen Sie:

saubere Dokumentklassifikation
zuverlässige Extraktionsregeln
Mapping auf ERP-Felder
Validierung gegen Stammdaten
eine klare Behandlung von Ausnahmen

Der Vorteil: Regelbasiert ist oft transparenter, günstiger und leichter testbar.

Gerade im Mittelstand ist das relevant. Denn nicht jede Automatisierung muss maximal intelligent sein. Sie muss zuerst stabil im Betrieb funktionieren.

Wann OCR nötig wird

OCR ist dann relevant, wenn Inhalte nicht direkt als strukturierter Text vorliegen, sondern zunächst optisch gelesen werden müssen.

Das betrifft typischerweise:

gescannte PDFs
Bilddateien
Fotos von Dokumenten
ältere Fax- oder Scan-Strecken
PDFs, die nur als Bild vorliegen

Wichtig dabei: OCR ist keine Entscheidungslogik. OCR macht aus Bildinhalt erst einmal nur maschinenlesbaren Text.

Das bedeutet:

OCR erkennt Wörter und Zahlen
aber nicht automatisch, was davon Kunde, Artikel oder Liefertermin ist
und schon gar nicht, was davon betrieblich gültig ist

Deshalb ist OCR meist nur ein Baustein in der Kette: Dokument lesen, Text erfassen, relevante Inhalte zuordnen, Daten normalisieren, gegen Stammdaten validieren, unklare Fälle aussteuern.

Sauberer Text ist nicht dasselbe wie ein belastbarer Datensatz. Tabellenstrukturen, Mengen und Einheiten gehören separat geprüft – sonst werden vertauschte Werte erst im Lager sichtbar, wenn die Korrektur teuer wird.

Wie dieser Ablauf konkret für eingehende E-Mail-, PDF- und Excel-Bestellungen aussieht, zeigt der Artikel E-Mail-Bestellungen automatisch ins ERP übernehmen.

Wann KI oder IDP sinnvoll werden

KI oder IDP werden dann interessant, wenn die Variabilität so hoch wird, dass Regeln allein unverhältnismäßig aufwendig oder unzuverlässig werden.

Das ist häufig der Fall, wenn:

viele unterschiedliche Layouts verarbeitet werden müssen
Inhalte frei formuliert sind
dieselben Informationen an sehr unterschiedlichen Stellen stehen
Tabellenstrukturen schwanken
Dokumentqualität nicht konstant ist
Kunden eigene Bezeichnungen oder Schreibweisen verwenden

Dann kann KI helfen, Positionen semantisch zu erkennen, Felder aus wechselnden Layouts zu extrahieren, Freitext besser zu interpretieren und ähnliche Inhalte trotz unterschiedlicher Formulierungen zuzuordnen.

Aber auch hier gilt: KI ersetzt keine Prozesslogik. Sie ersetzt nicht Stammdatenprüfung, Artikel-Mapping, Dublettenkontrolle, Plausibilitätsprüfung, Freigabelogik und Ausnahmebehandlung.

Der Fehler vieler Projekte ist nicht, dass sie KI einsetzen. Der Fehler ist, dass sie KI dort einsetzen, wo eigentlich fehlende Prozessklarheit das Problem ist.

So entscheiden Sie pragmatisch zwischen Regeln, OCR und KI

Entscheidungsmatrix: Wann Regeln, OCR oder KI bei Bestellungen aus PDF, E-Mail und Scan sinnvoll sind

Regeln zuerst, wenn:

Formate wiederkehrend sind
Layouts stabil bleiben
Felder klar erkennbar sind
Dokumentqualität gut ist
bekannte Kundenformate dominieren

OCR dazu, wenn:

Inhalte als Scan oder Bild vorliegen
PDFs nicht textbasiert lesbar sind
Dokumente optisch gelesen werden müssen
der Aufbau trotzdem relativ stabil bleibt

KI oder IDP ergänzen, wenn:

viele Varianten im Umlauf sind
Layouts und Formulierungen stark wechseln
Freitext eine große Rolle spielt
Tabellen und Positionsblöcke uneinheitlich sind
der Regelaufwand sonst explodiert

Human-in-the-Loop beibehalten, wenn:

Dokumentqualität stark schwankt
Sonderfälle häufig vorkommen
geschäftskritische Entscheidungen nicht sicher automatisierbar sind
wirtschaftlich nicht jeder Edge Case vollautomatisch gelöst werden muss

Das ist kein Rückschritt. Ein intelligenter Prüfprozess ist bei Bestellungen häufig wirtschaftlicher als der Versuch, jeden Sonderfall komplett zu automatisieren. Ein gutes Modell trennt eindeutige Fälle, die automatisch durchlaufen, von unklaren Fällen, die in eine Prüfung gehen. So entstehen hohe Entlastung bei Standardfällen, weniger Risiko bei Sonderfällen und ein schnellerer Projektstart.

Die entscheidende Frage lautet also nicht: „Was ist technisch am modernsten?" Sondern: „Was liefert in unserem Eingangsmix die beste Stabilität pro Aufwand?"

Audit Kit

Welcher Automatisierungsansatz passt zu Ihrem Bestelleingang?

Die typische Fehlannahme: Auslesen ist das Hauptproblem

In Wirklichkeit ist das Auslesen oft nur der sichtbare Teil. Der schwierigere Teil liegt meist danach:

Welcher Kunde ist gemeint?
Ist die Lieferadresse zulässig?
Welche interne Artikelnummer passt?
Ist die Mengeneinheit gültig?
Ist dieselbe Bestellung schon einmal eingegangen?
Fehlen Informationen, die Ihr ERP zwingend braucht?

Genau deshalb entstehen viele Fehler nicht beim OCR-Schritt, sondern beim Interpretieren und Einordnen. Eine Bestellung ist eben nicht nur Text. Sie ist ein fachlicher Vorgang.

Und deshalb braucht eine gute Lösung immer mehr als Extraktion: Klassifikation, Mapping, Validierung, Routing, Ausnahmenlogik und sichere ERP-Übergabe.

So sieht ein belastbarer Ablauf in der Praxis aus

Wenn Bestellungen aus PDF, E-Mail oder Scan verarbeitet werden sollen, besteht der eigentliche Ablauf oft aus diesen Schritten:

1. Eingang erkennen

Das System übernimmt E-Mail, PDF, Scan oder Datei aus einem definierten Kanal und legt den Eingang als Vorgang an.

2. Dokument klassifizieren

Bestellung oder nicht? Welcher Kunde? Welches Format? Welcher Verarbeitungsweg? Ohne diese Entscheidung läuft alles durch dieselbe Logik – mit unnötigen Fehlern.

3. Geeignete Extraktion wählen

Je nach Dokumentklasse: regelbasiert, OCR plus Regeln, KI-gestützte Extraktion oder direkt in die Prüfstrecke.

4. Daten normalisieren

Freitext, Schreibweisen, Datumsformate, Mengeneinheiten und Kundenreferenzen werden auf die Zielstruktur des ERP gebracht.

5. Gegen Stammdaten validieren

Kunde, Artikel, Adresse, Menge, Einheit, Terminlogik und Dubletten werden geprüft. Hier fällt die eigentliche Qualitätsentscheidung.

6. Ausnahmefälle aussteuern

Unklare oder fehlerhafte Fälle landen nachvollziehbar in einer Warteschlange oder Prüfmaske – statt still im System zu scheitern.

7. Auftrag ins ERP übergeben

Erst wenn die fachliche Qualität ausreicht, wird geschrieben – per API, Datei-Import, Middleware oder individuellem Adapter.

8. Ergebnisse messen

Durchlaufquote, Fehlerarten, häufige Ausnahmen und problematische Kundenformate zeigen, ob die Lösung wirtschaftlich trägt.

Typische Fehler bei der Technologiewahl

Fehler 1: Alles über dieselbe Logik zwingen

Nicht jeder Eingang sollte durch denselben technischen Pfad laufen. Ein textbasiertes PDF eines Stammkunden braucht andere Verarbeitung als ein schlechter Scan oder eine Freitext-Mail.

Fehler 2: Auslesen als Hauptproblem sehen

Die Extraktion von Text ist oft nur der sichtbare Teil. Der schwierigere Teil liegt in Klassifikation, Mapping, Validierung, Routing und Ausnahmebehandlung.

Fehler 3: KI einsetzen, wo Prozessklarheit fehlt

Wenn intern noch unklar ist, welche Eingangskanäle relevant sind, welche Felder das ERP braucht und wer bei Ausnahmen entscheidet, ist das Problem nicht zu wenig KI – sondern zu wenig Prozessverständnis.

Fehler 4: Mit dem schwierigsten Scan starten

Der beste Einstieg ist nicht das chaotischste Dokument, sondern der Bereich mit der besten Kombination aus Volumen, Wiederholbarkeit und technischer Beherrschbarkeit.

Woran Sie erkennen, dass KI bei Ihnen noch zu früh ist

Nicht jedes Unternehmen ist schon an dem Punkt, an dem KI den größten Hebel bringt.

Ein Warnsignal ist, wenn intern noch unklar ist:

welche Eingangskanäle überhaupt relevant sind
welche Dokumenttypen dominieren
welche Felder zwingend fürs ERP gebraucht werden
welche Stammdatenprobleme regelmäßig auftauchen
wer bei Ausnahmen entscheidet
welche Kundenformate am meisten Aufwand erzeugen

Dann ist das Problem meist noch nicht „zu wenig KI", sondern zu wenig Klarheit über den realen Prozess.

In solchen Fällen bringt ein sauber abgegrenzter Pilot mit Regeln, OCR und klarer Prüfstrecke oft deutlich mehr als ein großer KI-Ansatz mit unscharfem Scope.

Ein realistischer Pilot startet nicht mit dem schwierigsten Scan

Der beste Einstieg ist meist nicht das chaotischste Dokument. Sondern der Bereich mit der besten Kombination aus:

Volumen
Wiederholbarkeit
wirtschaftlicher Relevanz
technischer Beherrschbarkeit

Ein sinnvoller Pilot startet oft mit 1 bis 3 häufigen Kundenformaten, klaren PDF- oder E-Mail-Mustern, stabilen Stammdaten, definierter Prüfverantwortung und messbarer Durchlaufquote.

Erst danach lohnt sich der Ausbau auf wechselnde Formate, schwierigere Scans, Freitext-lastige Mails und uneinheitliche Bilddokumente.

Dann zeigt der Pilot nicht nur, ob eine Extraktion funktioniert. Er zeigt, welche Bestellungen automatisch weiterdürfen und welche bewusst in die Prüfung gehören.

Audit Kit

Welcher Automatisierungsansatz passt zu Ihrem Bestelleingang?

Ihr Dokument-Mix
Ihre Technologie-Optionen
Ihr Pilot-Scope

Fazit

Beim Auslesen von Bestellungen aus PDF, E-Mail und Scan entscheidet die Architektur. Wer sauber zwischen strukturierten, halbstrukturierten und unstrukturierten Eingängen unterscheidet, trifft fast immer bessere Entscheidungen:

Regeln dort, wo Stabilität hoch ist
OCR dort, wo Text erst sichtbar gemacht werden muss
KI dort, wo Variabilität und Interpretationsaufwand wirklich groß werden
Human-in-the-Loop dort, wo wirtschaftliche Robustheit wichtiger ist als Vollautomatisierung um jeden Preis

Ein belastbarer Prozess zeigt sich im laufenden Betrieb, wenn der dritte Scan in Folge schief liegt und das System die vertauschten Mengen meldet, bevor sie ins Lager gehen.

FAQ zu Bestellungen aus PDF, E-Mail und Scan auslesen

Wann ist OCR notwendig?

OCR ist dann nötig, wenn Inhalte nicht direkt als Text vorliegen, sondern optisch gelesen werden müssen – etwa bei Scans, Bildern oder foto-basierten Dokumenten. OCR allein reicht aber meist nicht aus, weil erkannter Text noch nicht automatisch fachlich korrekt zugeordnet ist.

Kann KI schlechte Scans zuverlässig verarbeiten?

Teilweise, aber nicht beliebig. Bei sehr schlechter Qualität, Handschrift oder unklaren Fotos bleibt oft ein Prüfprozess notwendig. KI kann helfen, die Reichweite zu erhöhen – sie ersetzt aber keine saubere Ausnahmebehandlung.

Was ist der Unterschied zwischen OCR und IDP?

OCR liest Zeichen aus einem Bild oder Scan. IDP bzw. KI-gestützte Dokumentenverarbeitung geht einen Schritt weiter und versucht, Inhalte fachlich zu erkennen, Felder zuzuordnen und variablere Dokumente besser zu verstehen. Für einen belastbaren Prozess braucht es trotzdem Validierung und Business-Logik.

Muss jeder Fall vollautomatisch laufen?

Nein. In vielen Mittelstandsprojekten ist es wirtschaftlich sinnvoller, Standardfälle automatisch zu verarbeiten und unklare Dokumente in eine Prüfstrecke zu geben. Genau das macht den Prozess robust.

Was ist meist der größte Fehler in solchen Projekten?

Der Fokus auf das Auslesen allein. Der eigentliche Projekterfolg hängt meist stärker davon ab, wie gut Klassifikation, Validierung, Mapping, Fehlerbehandlung und ERP-Übergabe gelöst sind.

Bestellungen automatisch auslesen – Regeln, OCR oder KI

Woran Sie merken, dass Ihre Technologiewahl nicht stimmt

Regelwerk wächst mit jedem Kundenformat

OCR liefert Text, aber keine belastbaren Daten

KI-Pilot trägt Standardfälle, scheitert an Sonderfällen

Technologiewahl ohne klare Entscheidungsgrundlage

Zuerst klären: Was liegt überhaupt vor?

1. Strukturierte Eingänge

2. Halbstrukturierte Eingänge

3. Unstrukturierte oder schwierige Eingänge

Wann Regeln völlig ausreichen

Wann OCR nötig wird

Wann KI oder IDP sinnvoll werden

So entscheiden Sie pragmatisch zwischen Regeln, OCR und KI

Regeln zuerst, wenn:

OCR dazu, wenn:

KI oder IDP ergänzen, wenn:

Human-in-the-Loop beibehalten, wenn:

Die typische Fehlannahme: Auslesen ist das Hauptproblem

So sieht ein belastbarer Ablauf in der Praxis aus

1. Eingang erkennen

2. Dokument klassifizieren

3. Geeignete Extraktion wählen

4. Daten normalisieren

5. Gegen Stammdaten validieren

6. Ausnahmefälle aussteuern

7. Auftrag ins ERP übergeben

8. Ergebnisse messen

Typische Fehler bei der Technologiewahl

Fehler 1: Alles über dieselbe Logik zwingen

Fehler 2: Auslesen als Hauptproblem sehen

Fehler 3: KI einsetzen, wo Prozessklarheit fehlt

Fehler 4: Mit dem schwierigsten Scan starten

Woran Sie erkennen, dass KI bei Ihnen noch zu früh ist

Ein realistischer Pilot startet nicht mit dem schwierigsten Scan

Welcher Automatisierungsansatz passt zu Ihrem Bestelleingang?

Fazit

FAQ zu Bestellungen aus PDF, E-Mail und Scan auslesen

Weiterführende Artikel