Dokumentenverarbeitung

Bestellungen automatisch auslesen – Regeln, OCR oder KI

Adrian Schmid13. April 202611 Min. Lesezeit
Bestellungen automatisch auslesen – Regeln, OCR oder KI

Ein sauberes Stammkunden-PDF und ein schief fotografierter Bestellzettel sehen für Sie gleich aus. Für ein Auslesesystem liegen Welten dazwischen – und genau hier wird häufig die falsche Technologie gekauft.

OCR, KI und IDP lösen jeweils einen anderen Teil des Problems. Welche Dokumentarten liegen bei Ihnen wirklich täglich im Posteingang – und wo reichen einfache Regeln, bevor KI sinnvoll wird?

Bestellungen automatisch auslesen – Entscheidungsübersicht: Wann Regeln, OCR oder KI im Bestelleingang sinnvoll sind
Inhaltsverzeichnis
  1. 01Woran Sie merken, dass Ihre Technologiewahl nicht stimmt
  2. 02Zuerst klären: Was liegt überhaupt vor?
  3. 03Wann Regeln völlig ausreichen
  4. 04Wann OCR nötig wird
  5. 05Wann KI oder IDP sinnvoll werden
  6. 06So entscheiden Sie pragmatisch zwischen Regeln, OCR und KI
  7. 07Die typische Fehlannahme: Auslesen ist das Hauptproblem
  8. 08So sieht ein belastbarer Ablauf in der Praxis aus
  9. 09Typische Fehler bei der Technologiewahl
  10. 10Woran Sie erkennen, dass KI bei Ihnen noch zu früh ist
  11. 11Ein realistischer Pilot startet nicht mit dem schwierigsten Scan
  12. 12Fazit

Woran Sie merken, dass Ihre Technologiewahl nicht stimmt

Nicht jedes Projekt hat ein Technologieproblem. In der Praxis wird die falsche Toolfrage sichtbar, wenn mehrere dieser Punkte zusammenkommen:

Regelwerk wächst mit jedem Kundenformat

Jeder neue Kunde und jede Layoutänderung braucht eigene Extraktionsregeln. Der Pflegeaufwand steigt schneller als der Nutzen.

OCR liefert Text, aber keine belastbaren Daten

Die Zeichenerkennung funktioniert technisch, aber was davon Kunde, Artikel oder Liefertermin ist, muss trotzdem jemand manuell zuordnen.

KI-Pilot trägt Standardfälle, scheitert an Sonderfällen

Das Tool erkennt Felder in einer kontrollierten Auswahl. Im Alltag scheitert es an Sonderfällen, schwankender Dokumentqualität oder fehlendem Stammdatenabgleich.

Technologiewahl ohne klare Entscheidungsgrundlage

OCR, IDP, KI, LLM – die Begriffe klingen ähnlich, aber Aufwand, Reichweite und Voraussetzungen unterscheiden sich erheblich.

Dann liegt das Problem meist nicht am Tool, sondern an der fehlenden Unterscheidung: Welche Dokumentarten liegen wirklich vor – und was braucht welche Technik?

Zuerst klären: Was liegt überhaupt vor?

Wer Bestellungen automatisieren will, sollte zuerst nicht nach Technologie sortieren, sondern nach Dokumentrealität.

Denn „Bestellung auslesen" kann sehr Unterschiedliches bedeuten:

  • eine E-Mail mit klarer Positionsliste
  • ein maschinell erzeugtes PDF
  • ein PDF-Scan
  • eine Excel-Datei
  • ein Foto vom handschriftlichen Bestellblock
  • ein weitergeleiteter E-Mail-Thread mit Änderungen und Kommentaren

Technisch betrachtet sind das nicht nur Varianten desselben Problems. Es sind unterschiedliche Klassen von Eingängen. Und genau davon hängt ab, ob Sie mit Regeln, OCR oder KI arbeiten sollten.

1. Strukturierte Eingänge

Dazu zählen zum Beispiel:

  • standardisierte PDFs einzelner Kunden
  • Excel-Dateien mit festen Spalten
  • E-Mails mit immer ähnlichem Aufbau
  • Bestellformulare mit klaren Feldpositionen

Hier sind Inhalte in der Regel gut vorhersehbar: derselbe Aufbau, dieselben Feldnamen, ähnliche Positionstabellen, bekannte Referenzen. In solchen Fällen reicht oft regelbasierte Extraktion völlig aus.

2. Halbstrukturierte Eingänge

Dazu zählen:

  • PDFs mit ähnlichem, aber nicht identischem Layout
  • Freitext-E-Mails mit Anhang
  • Bestellungen mit Kommentaren, Sonderwünschen oder wechselnden Positionsdarstellungen
  • Dokumente mit bekannten Mustern, aber variierender Formulierung

Hier stößt starres Parsing schneller an Grenzen. Diese Fälle brauchen häufig eine Kombination aus OCR und Regeln – oder KI-gestützte Extraktion mit anschließender Validierung.

3. Unstrukturierte oder schwierige Eingänge

Dazu zählen:

  • schlechte Scans
  • Fotos
  • handschriftliche Notizen
  • E-Mail-Verläufe mit mehreren Änderungen
  • Dokumente mit stark schwankender Qualität

Hier reicht reine Feldlogik meist nicht mehr. Selbst OCR allein löst das Problem nur teilweise. In solchen Fällen wird KI oder Human-in-the-Loop oft sinnvoll – nicht als Selbstzweck, sondern weil der Eingang technisch anders nicht stabil genug behandelbar ist.

Wann Regeln völlig ausreichen

Regelbasiert klingt oft altmodisch. In vielen Projekten ist es aber genau der wirtschaftlich sinnvollste Einstieg.

Regeln reichen oft dann, wenn:

  • bestimmte Kunden immer dasselbe Format schicken
  • Feldpositionen stabil sind
  • Artikelnummern klar erkennbar sind
  • Positionszeilen konsistent aufgebaut sind
  • die Zahl der Varianten überschaubar bleibt

Typische Beispiele: Ein Großkunde sendet immer dasselbe PDF-Layout. Eine Bestellung kommt als standardisierte Excel-Datei. Im Mailtext stehen immer dieselben Schlüsselwörter.

Dann brauchen Sie oft keine KI. Dann brauchen Sie:

  • saubere Dokumentklassifikation
  • zuverlässige Extraktionsregeln
  • Mapping auf ERP-Felder
  • Validierung gegen Stammdaten
  • eine klare Behandlung von Ausnahmen

Der Vorteil: Regelbasiert ist oft transparenter, günstiger und leichter testbar.

Gerade im Mittelstand ist das relevant. Denn nicht jede Automatisierung muss maximal intelligent sein. Sie muss zuerst stabil im Betrieb funktionieren.

Wann OCR nötig wird

OCR ist dann relevant, wenn Inhalte nicht direkt als strukturierter Text vorliegen, sondern zunächst optisch gelesen werden müssen.

Das betrifft typischerweise:

  • gescannte PDFs
  • Bilddateien
  • Fotos von Dokumenten
  • ältere Fax- oder Scan-Strecken
  • PDFs, die nur als Bild vorliegen

Wichtig dabei: OCR ist keine Entscheidungslogik. OCR macht aus Bildinhalt erst einmal nur maschinenlesbaren Text.

Das bedeutet:

  • OCR erkennt Wörter und Zahlen
  • aber nicht automatisch, was davon Kunde, Artikel oder Liefertermin ist
  • und schon gar nicht, was davon betrieblich gültig ist

Deshalb ist OCR meist nur ein Baustein in der Kette: Dokument lesen, Text erfassen, relevante Inhalte zuordnen, Daten normalisieren, gegen Stammdaten validieren, unklare Fälle aussteuern.

Sauberer Text ist nicht dasselbe wie ein belastbarer Datensatz. Tabellenstrukturen, Mengen und Einheiten gehören separat geprüft – sonst werden vertauschte Werte erst im Lager sichtbar, wenn die Korrektur teuer wird.

Wie dieser Ablauf konkret für eingehende E-Mail-, PDF- und Excel-Bestellungen aussieht, zeigt der Artikel E-Mail-Bestellungen automatisch ins ERP übernehmen.

Wann KI oder IDP sinnvoll werden

KI oder IDP werden dann interessant, wenn die Variabilität so hoch wird, dass Regeln allein unverhältnismäßig aufwendig oder unzuverlässig werden.

Das ist häufig der Fall, wenn:

  • viele unterschiedliche Layouts verarbeitet werden müssen
  • Inhalte frei formuliert sind
  • dieselben Informationen an sehr unterschiedlichen Stellen stehen
  • Tabellenstrukturen schwanken
  • Dokumentqualität nicht konstant ist
  • Kunden eigene Bezeichnungen oder Schreibweisen verwenden

Dann kann KI helfen, Positionen semantisch zu erkennen, Felder aus wechselnden Layouts zu extrahieren, Freitext besser zu interpretieren und ähnliche Inhalte trotz unterschiedlicher Formulierungen zuzuordnen.

Aber auch hier gilt: KI ersetzt keine Prozesslogik. Sie ersetzt nicht Stammdatenprüfung, Artikel-Mapping, Dublettenkontrolle, Plausibilitätsprüfung, Freigabelogik und Ausnahmebehandlung.

Der Fehler vieler Projekte ist nicht, dass sie KI einsetzen. Der Fehler ist, dass sie KI dort einsetzen, wo eigentlich fehlende Prozessklarheit das Problem ist.

So entscheiden Sie pragmatisch zwischen Regeln, OCR und KI

Entscheidungsmatrix: Wann Regeln, OCR oder KI bei Bestellungen aus PDF, E-Mail und Scan sinnvoll sind

Regeln zuerst, wenn:

  • Formate wiederkehrend sind
  • Layouts stabil bleiben
  • Felder klar erkennbar sind
  • Dokumentqualität gut ist
  • bekannte Kundenformate dominieren

OCR dazu, wenn:

  • Inhalte als Scan oder Bild vorliegen
  • PDFs nicht textbasiert lesbar sind
  • Dokumente optisch gelesen werden müssen
  • der Aufbau trotzdem relativ stabil bleibt

KI oder IDP ergänzen, wenn:

  • viele Varianten im Umlauf sind
  • Layouts und Formulierungen stark wechseln
  • Freitext eine große Rolle spielt
  • Tabellen und Positionsblöcke uneinheitlich sind
  • der Regelaufwand sonst explodiert

Human-in-the-Loop beibehalten, wenn:

  • Dokumentqualität stark schwankt
  • Sonderfälle häufig vorkommen
  • geschäftskritische Entscheidungen nicht sicher automatisierbar sind
  • wirtschaftlich nicht jeder Edge Case vollautomatisch gelöst werden muss

Das ist kein Rückschritt. Ein intelligenter Prüfprozess ist bei Bestellungen häufig wirtschaftlicher als der Versuch, jeden Sonderfall komplett zu automatisieren. Ein gutes Modell trennt eindeutige Fälle, die automatisch durchlaufen, von unklaren Fällen, die in eine Prüfung gehen. So entstehen hohe Entlastung bei Standardfällen, weniger Risiko bei Sonderfällen und ein schnellerer Projektstart.

Die entscheidende Frage lautet also nicht: „Was ist technisch am modernsten?" Sondern: „Was liefert in unserem Eingangsmix die beste Stabilität pro Aufwand?"

Audit Kit – Self-Assessment, Daten-Struktur und Kostenrechner
Audit Kit

Welcher Automatisierungsansatz passt zu Ihrem Bestelleingang?

Die typische Fehlannahme: Auslesen ist das Hauptproblem

In Wirklichkeit ist das Auslesen oft nur der sichtbare Teil. Der schwierigere Teil liegt meist danach:

  • Welcher Kunde ist gemeint?
  • Ist die Lieferadresse zulässig?
  • Welche interne Artikelnummer passt?
  • Ist die Mengeneinheit gültig?
  • Ist dieselbe Bestellung schon einmal eingegangen?
  • Fehlen Informationen, die Ihr ERP zwingend braucht?

Genau deshalb entstehen viele Fehler nicht beim OCR-Schritt, sondern beim Interpretieren und Einordnen. Eine Bestellung ist eben nicht nur Text. Sie ist ein fachlicher Vorgang.

Und deshalb braucht eine gute Lösung immer mehr als Extraktion: Klassifikation, Mapping, Validierung, Routing, Ausnahmenlogik und sichere ERP-Übergabe.

So sieht ein belastbarer Ablauf in der Praxis aus

Wenn Bestellungen aus PDF, E-Mail oder Scan verarbeitet werden sollen, besteht der eigentliche Ablauf oft aus diesen Schritten:

1. Eingang erkennen

Das System übernimmt E-Mail, PDF, Scan oder Datei aus einem definierten Kanal und legt den Eingang als Vorgang an.

2. Dokument klassifizieren

Bestellung oder nicht? Welcher Kunde? Welches Format? Welcher Verarbeitungsweg? Ohne diese Entscheidung läuft alles durch dieselbe Logik – mit unnötigen Fehlern.

3. Geeignete Extraktion wählen

Je nach Dokumentklasse: regelbasiert, OCR plus Regeln, KI-gestützte Extraktion oder direkt in die Prüfstrecke.

4. Daten normalisieren

Freitext, Schreibweisen, Datumsformate, Mengeneinheiten und Kundenreferenzen werden auf die Zielstruktur des ERP gebracht.

5. Gegen Stammdaten validieren

Kunde, Artikel, Adresse, Menge, Einheit, Terminlogik und Dubletten werden geprüft. Hier fällt die eigentliche Qualitätsentscheidung.

6. Ausnahmefälle aussteuern

Unklare oder fehlerhafte Fälle landen nachvollziehbar in einer Warteschlange oder Prüfmaske – statt still im System zu scheitern.

7. Auftrag ins ERP übergeben

Erst wenn die fachliche Qualität ausreicht, wird geschrieben – per API, Datei-Import, Middleware oder individuellem Adapter.

8. Ergebnisse messen

Durchlaufquote, Fehlerarten, häufige Ausnahmen und problematische Kundenformate zeigen, ob die Lösung wirtschaftlich trägt.

Typische Fehler bei der Technologiewahl

Fehler 1: Alles über dieselbe Logik zwingen

Nicht jeder Eingang sollte durch denselben technischen Pfad laufen. Ein textbasiertes PDF eines Stammkunden braucht andere Verarbeitung als ein schlechter Scan oder eine Freitext-Mail.

Fehler 2: Auslesen als Hauptproblem sehen

Die Extraktion von Text ist oft nur der sichtbare Teil. Der schwierigere Teil liegt in Klassifikation, Mapping, Validierung, Routing und Ausnahmebehandlung.

Fehler 3: KI einsetzen, wo Prozessklarheit fehlt

Wenn intern noch unklar ist, welche Eingangskanäle relevant sind, welche Felder das ERP braucht und wer bei Ausnahmen entscheidet, ist das Problem nicht zu wenig KI – sondern zu wenig Prozessverständnis.

Fehler 4: Mit dem schwierigsten Scan starten

Der beste Einstieg ist nicht das chaotischste Dokument, sondern der Bereich mit der besten Kombination aus Volumen, Wiederholbarkeit und technischer Beherrschbarkeit.

Woran Sie erkennen, dass KI bei Ihnen noch zu früh ist

Nicht jedes Unternehmen ist schon an dem Punkt, an dem KI den größten Hebel bringt.

Ein Warnsignal ist, wenn intern noch unklar ist:

  • welche Eingangskanäle überhaupt relevant sind
  • welche Dokumenttypen dominieren
  • welche Felder zwingend fürs ERP gebraucht werden
  • welche Stammdatenprobleme regelmäßig auftauchen
  • wer bei Ausnahmen entscheidet
  • welche Kundenformate am meisten Aufwand erzeugen

Dann ist das Problem meist noch nicht „zu wenig KI", sondern zu wenig Klarheit über den realen Prozess.

In solchen Fällen bringt ein sauber abgegrenzter Pilot mit Regeln, OCR und klarer Prüfstrecke oft deutlich mehr als ein großer KI-Ansatz mit unscharfem Scope.

Ein realistischer Pilot startet nicht mit dem schwierigsten Scan

Der beste Einstieg ist meist nicht das chaotischste Dokument. Sondern der Bereich mit der besten Kombination aus:

  • Volumen
  • Wiederholbarkeit
  • wirtschaftlicher Relevanz
  • technischer Beherrschbarkeit

Ein sinnvoller Pilot startet oft mit 1 bis 3 häufigen Kundenformaten, klaren PDF- oder E-Mail-Mustern, stabilen Stammdaten, definierter Prüfverantwortung und messbarer Durchlaufquote.

Erst danach lohnt sich der Ausbau auf wechselnde Formate, schwierigere Scans, Freitext-lastige Mails und uneinheitliche Bilddokumente.

Dann zeigt der Pilot nicht nur, ob eine Extraktion funktioniert. Er zeigt, welche Bestellungen automatisch weiterdürfen und welche bewusst in die Prüfung gehören.

Audit Kit

Welcher Automatisierungsansatz passt zu Ihrem Bestelleingang?

  • Ihr Dokument-Mix
  • Ihre Technologie-Optionen
  • Ihr Pilot-Scope
Audit Kit – Self-Assessment, Daten-Struktur und Kostenrechner

Fazit

Beim Auslesen von Bestellungen aus PDF, E-Mail und Scan entscheidet die Architektur. Wer sauber zwischen strukturierten, halbstrukturierten und unstrukturierten Eingängen unterscheidet, trifft fast immer bessere Entscheidungen:

  • Regeln dort, wo Stabilität hoch ist
  • OCR dort, wo Text erst sichtbar gemacht werden muss
  • KI dort, wo Variabilität und Interpretationsaufwand wirklich groß werden
  • Human-in-the-Loop dort, wo wirtschaftliche Robustheit wichtiger ist als Vollautomatisierung um jeden Preis

Ein belastbarer Prozess zeigt sich im laufenden Betrieb, wenn der dritte Scan in Folge schief liegt und das System die vertauschten Mengen meldet, bevor sie ins Lager gehen.

FAQ zu Bestellungen aus PDF, E-Mail und Scan auslesen

Wann ist OCR notwendig?

OCR ist dann nötig, wenn Inhalte nicht direkt als Text vorliegen, sondern optisch gelesen werden müssen – etwa bei Scans, Bildern oder foto-basierten Dokumenten. OCR allein reicht aber meist nicht aus, weil erkannter Text noch nicht automatisch fachlich korrekt zugeordnet ist.

Kann KI schlechte Scans zuverlässig verarbeiten?

Teilweise, aber nicht beliebig. Bei sehr schlechter Qualität, Handschrift oder unklaren Fotos bleibt oft ein Prüfprozess notwendig. KI kann helfen, die Reichweite zu erhöhen – sie ersetzt aber keine saubere Ausnahmebehandlung.

Was ist der Unterschied zwischen OCR und IDP?

OCR liest Zeichen aus einem Bild oder Scan. IDP bzw. KI-gestützte Dokumentenverarbeitung geht einen Schritt weiter und versucht, Inhalte fachlich zu erkennen, Felder zuzuordnen und variablere Dokumente besser zu verstehen. Für einen belastbaren Prozess braucht es trotzdem Validierung und Business-Logik.

Muss jeder Fall vollautomatisch laufen?

Nein. In vielen Mittelstandsprojekten ist es wirtschaftlich sinnvoller, Standardfälle automatisch zu verarbeiten und unklare Dokumente in eine Prüfstrecke zu geben. Genau das macht den Prozess robust.

Was ist meist der größte Fehler in solchen Projekten?

Der Fokus auf das Auslesen allein. Der eigentliche Projekterfolg hängt meist stärker davon ab, wie gut Klassifikation, Validierung, Mapping, Fehlerbehandlung und ERP-Übergabe gelöst sind.