Wie funktioniert PDF-Rechnungsextraktion wirklich?

BillyBox parst die Textebene des PDFs (eingebetteten Text, den die meisten modernen PDFs enthalten) und extrahiert Anbieter, Betrag, Währung, Datum, Rechnungsnummer und weitere Felder. Wenn die Textebene zu spärlich ist — gescannte PDFs, reine Bilddokumente — greift es auf KI-Vision zurück, indem es die erste Seite als Bild rendert und einen OCR-ähnlichen Pass ausführt.

Welche Felder werden extrahiert?

Das v3.5-Schema (Mai 2026) extrahiert 14 Felder pro Dokument: Anbieter, Betrag, Währung, Datum, Rechnungsnummer, Fälligkeit, MwSt-Satz %, Anbieterland, USt-ID, Service-Kategorie, Ausgabekategorie, Abrechnungsperiode Start/Ende, Produktname, plus Abo-Signale (is_recurring_self_claim, next_billing_date, is_trial, cancellation_event).

Verarbeitet es mehrseitige Rechnungen?

Ja. BillyBox nutzt pdfjs-dist 5.6 (Legacy-Build für Safari-Kompatibilität) mit pro-Instanz-PagesMapper, sodass mehrseitige Dokumente korrekt gerendert und KI relevante Seiten liest. Eine Regression in 5.4, die Seite 2 brach, wurde im 5.6-Upgrade behoben.

Was, wenn die Extraktion einen Betrag verfehlt?

Sie können jedes extrahierte Feld inline in der Prüfwarteschlange editieren. Die Änderung überschreibt den KI-Wert und geht so in den Export. Der KI-Vorschlag bleibt daneben in ai_suggested_classification für Telemetrie erhalten, aber Ihr bearbeiteter Wert ist das, was der Steuerberater sieht.

PDF-Rechnungsextraktion: So extrahierst du automatisch Daten aus Rechnungs-PDFs

März 2026

Daten aus PDF-Rechnungen zu extrahieren ist eine der mühsamsten Aufgaben in der Buchhaltung. Jeder Anbieter erstellt PDFs anders — verschiedene Layouts, Schriften, Sprachen und Strukturen. Was für das menschliche Auge einfach aussieht (den Gesamtbetrag lesen, den Anbieternamen finden) ist überraschend schwer zu automatisieren. Dieser Artikel erklärt, wie PDF-Rechnungsextraktion funktioniert, warum sie schwierig ist und wie moderne Tools sie lösen.

Warum PDF-Rechnungsextraktion schwer ist

PDFs wurden für die visuelle Darstellung konzipiert, nicht für Datenextraktion. Anders als eine Tabelle oder JSON-Datei beschriftet ein PDF seine Felder nicht. Der „Gesamtbetrag" ist nur Text an bestimmten Koordinaten auf der Seite. Es gibt kein semantisches Tag, das sagt „das ist der Rechnungsbetrag."

Kein einheitliches Layout — jeder Anbieter platziert Beträge, Daten und Summen an verschiedenen Stellen
Gescannt vs. digital — gescannte Rechnungen sind Bilder, kein Text. Du brauchst OCR vor jeder Extraktion
Mehrsprachige Rechnungen — „Total", „Gesamt", „Toplam", „Total de plată" bedeuten alle dasselbe
Währungsmehrdeutigkeit — „1.234,56" bedeutet 1234,56 EUR in Deutschland, aber etwas anderes in den USA
Mehrere Beträge — Zwischensumme, Steuer, Versand, Rabatt, Gesamt, fälliger Betrag — welcher ist relevant?
Eingebettete Schriften und Codierungen — manche PDFs nutzen benutzerdefinierte Schriften, die Standard-Textextraktion brechen

Wie PDF-Textextraktion funktioniert

Der erste Schritt in jedem PDF-Rechnungsparser ist das Gewinnen des Rohtexts. Digitale PDFs (von Rechnungssoftware erstellt) haben eine eingebettete Textschicht. Tools wie pdfplumber oder PyMuPDF können diesen Text samt Position extrahieren.

Für gescannte Rechnungen (Fotos oder gescannte Papierdokumente) konvertieren traditionelle OCR-Tools wie Tesseract oder Cloud-APIs von Google/AWS das Bild zuerst in Text. Ein neuerer Ansatz hat sich jedoch etabliert: KI-Vision-Modelle. Statt eines separaten OCR-Schritts gefolgt von Textparsing können KI-Vision-Modelle ein gescanntes PDF oder Foto direkt betrachten und strukturierte Daten extrahieren — Anbietername, Betrag, Währung, Datum — in einem einzigen Durchgang. Das ist oft genauer als getrennte OCR-dann-Parsing-Pipelines, weil das Modell das Dokumentenlayout versteht, nicht nur Zeichenformen. Dieselbe KI-Vision-Fähigkeit verarbeitet auch handschriftliche Quittungen — fotografierte Notizen von lokalen Händlern, handgeschriebene Summen auf Papierquittungen.

Die gute Nachricht: Die meisten Rechnungen von SaaS-Anbietern, Cloud-Providern und Online-Diensten sind digital erstellt. Sie haben saubere Textschichten, die sofort und präzise extrahiert werden können — kein OCR nötig.

Die richtigen Zahlen finden: Betrags- und Währungserkennung

Sobald du den Rohtext hast, beginnt die eigentliche Herausforderung: herauszufinden, welche Zahl der Rechnungsgesamtbetrag ist. Ein typisches Rechnungs-PDF enthält Dutzende Zahlen — Daten, Mengen, Stückpreise, Steuerprozentsätze, Zwischensummen und den Endbetrag.

Intelligente Extraktion nutzt eine Kombination von Techniken:

Schlüsselwort-Nähe — nach Zahlen in der Nähe von „Gesamt", „Fälliger Betrag", „Gesamtbetrag" in mehreren Sprachen suchen
Regex-Muster — währungsspezifische Formate wie 1.234,56 EUR, $500.00 oder 2.500,00 RON erkennen
Positionsheuristiken — Gesamtbeträge stehen tendenziell im unteren Drittel der Seite, rechtsbündig
Währungssymbolerkennung — Symbole wie EUR, $, GBP, RON in der Nähe von Beträgen identifizieren
Formatbewusstes Parsing — europäisches (1.234,56) vs. US-amerikanisches (1,234.56) Zahlenformat korrekt interpretieren

Anbieteridentifikation

Zu wissen, welcher Anbieter die Rechnung ausgestellt hat, macht die Extraktion dramatisch einfacher. Wenn du weißt, dass es eine Hetzner-Rechnung ist, weißt du genau, wo du den Gesamtbetrag findest und in welchem Format du ihn erwarten kannst. Deshalb sind Anbieterverzeichnisse so wertvoll.

Anbieteridentifikation funktioniert durch Abgleich der Absenderdomain (billing@stripe.com), der PDF-Metadaten oder erkennbarer Textmuster im Dokument selbst (Firmennamen, USt-IdNr., bekannte Layouts). Sobald der Anbieter identifiziert ist, kann ein anbieterspezifisches Extraktionsprofil für höhere Genauigkeit angewendet werden.

Ansätze zur Rechnungsdatenextraktion im Vergleich

Manuelle Tools: Tabula, Camelot, pdfplumber

Open-Source-Bibliotheken, die Tabellen aus PDFs extrahieren. Sie funktionieren gut für strukturierte, tabellenreiche Rechnungen, erfordern aber manuelle Konfiguration pro Anbieter. Großartig für Einzelskripte, unpraktisch sobald Rechnungen von dutzenden Anbietern mit unterschiedlichen Layouts ins Spiel kommen.

Am besten für: Entwickler, die eigene Pipelines für ein einzelnes Anbieterformat bauen.

Enterprise-OCR: ABBYY, Kofax, Rossum

Enterprise-Lösungen mit KI-gestützter Extraktion. Sie verarbeiten gescannte Dokumente, Handschrift und komplexe Layouts. Aber sie sind für Kreditorenabteilungen von Unternehmen kalkuliert — in der Regel mit individuellen Angeboten, inklusive Einrichtung und Schulung.

Am besten für: große Unternehmen mit Kreditorenabteilungen und hohem Volumen.

Cloud-KI-APIs: Google Document AI, AWS Textract

Pay-per-Page-APIs, die strukturierte Daten aus Dokumenten extrahieren. Zugänglicher als Enterprise-Lösungen, aber erfordern Integrationsarbeit — du musst die Pipeline bauen, die PDFs an die API sendet, Antworten verarbeitet, Felder zuordnet und Ergebnisse speichert.

Am besten für: Entwickler, die mit API-Integration vertraut sind.

BillyBox: Automatisierte Extraktion aus E-Mail

BillyBox verfolgt einen anderen Ansatz: Statt dir ein Extraktionswerkzeug zu geben, übernimmt es die gesamte Pipeline. Verbinde dein Gmail, Outlook, Zoho oder jedes IMAP-E-Mail-Konto, und BillyBox holt Rechnungen, nutzt KI zum Filtern von Nicht-Rechnungen, extrahiert Daten aus digitalen und gescannten PDFs (per KI-Vision-OCR), lädt Rechnungen von in E-Mails verlinkten Portalen herunter und erstellt PDF-Quittungen aus E-Mail-Inhalten. Keine Konfiguration pro Anbieter. Keine API-Integration.

Am besten für: Freelancer und Kleinunternehmer, die Ergebnisse wollen, nicht ein Tool zum Konfigurieren.

Was extrahiert wird

Für jede Rechnung extrahiert und zeigt BillyBox:

Aussteller / Anbietername— z.B. Hetzner, AWS, Notion

Rechnungsbetrag— z.B. 49,90 EUR, $127,00

Währung— EUR, USD, RON, GBP

Rechnungsnummer— z.B. INV-2026-0384

Rechnungsdatum— aus PDF oder E-Mail-Datum

Ausgestellt an— Empfängername oder Firma

Beschreibung— Zusammenfassung der Positionen

Steuerbetrag— USt. / MwSt. separat extrahiert

Zwischensumme— Nettobetrag wenn verfügbar

Absender-E-Mail— Original-E-Mail-Adresse

Alle extrahierten Daten werden neben einer PDF-Vorschau angezeigt, damit du auf einen Blick verifizieren kannst. Wenn die Extraktion etwas übersieht oder falsch liest, kannst du jedes Feld inline bearbeiten — Aussteller, Betrag, Währung und Datum sind direkt in der Überprüfungsoberfläche editierbar.

Kostenlos testen

Der kostenlose Tarif von BillyBox lässt dich 2 Monate Rechnungen mit 2 E-Mail-Verbindungen verarbeiten. Verbinde dein Gmail, Outlook oder jede IMAP-E-Mail, rufe einen Monat ab und sieh die Extraktionsergebnisse in Minuten — einschließlich KI-gestütztem OCR für gescannte Dokumente. Keine Kreditkarte, keine Setup-Skripte, keine anbieterspezifische Konfiguration nötig.

BillyBox kostenlos testen Preise ansehen