Înapoi la blog
Scris de Andrei BiroUltima actualizare

Extragere Date din Facturi PDF: Cum Citești Facturile Automat

Martie 2026

Extragerea datelor din facturi PDF e una dintre cele mai consumatoare de timp sarcini din contabilitate. Fiecare furnizor generează PDF-uri diferit — alt layout, alte fonturi, altă limbă, altă structură. Ce pare simplu pentru ochiul uman (citește totalul, găsește numele furnizorului) e surprinzător de greu de automatizat. Acest articol explică cum funcționează un parser de facturi PDF, de ce e complicat, și cum rezolvă problema uneltele moderne.

De ce e greu să extragi date din PDF

PDF-urile au fost concepute pentru afișare vizuală, nu pentru extracție de date. Spre deosebire de un spreadsheet sau un fișier JSON, un PDF nu își etichetează câmpurile. „Totalul" e pur și simplu text poziționat la anumite coordonate pe pagină. Nu există niciun tag semantic care să spună „aceasta este suma facturii."

  • Layout inconsistent — fiecare furnizor pune sumele, datele și totalurile în locuri diferite
  • Scanate vs. digitale — facturile scanate sunt imagini, nu text. Ai nevoie de OCR înainte de orice extracție
  • Facturi multilingve — „Total", „Gesamt", „Toplam", „Total de plată" înseamnă același lucru
  • Ambiguitate de valută — „1.234,56" înseamnă 1234.56 EUR în Europa, dar altceva în SUA
  • Sume multiple — subtotal, TVA, transport, discount, total, de plată — care contează?
  • Fonturi și codificări speciale — unele PDF-uri folosesc fonturi custom care sparg extractorul standard de text

Cum funcționează citirea textului din PDF

Primul pas al oricărui parser de facturi PDF e obținerea textului brut. PDF-urile digitale (cele generate de software-ul de facturare) au un strat de text încorporat. Instrumente ca pdfplumber sau PyMuPDF pot extrage textul împreună cu poziția lui pe pagină.

Pentru facturile scanate (poze sau documente scanate pe hârtie), OCR-ul tradițional (Tesseract, API-uri cloud de la Google/AWS) convertește imaginea în text mai întâi. Dar o abordare mai nouă a apărut: modele AI vision. În loc de un pas separat de OCR urmat de parsarea textului, modele AI vision precum AI pot analiza un PDF scanat sau o fotografie direct și extrag date structurate — furnizor, sumă, monedă, dată — într-un singur pas. Acest lucru e semnificativ mai precis decât pipeline-urile tradiționale de OCR, deoarece modelul înțelege layout-ul documentului, nu doar formele caracterelor. Aceeași capabilitate AI vision procesează și chitanțe scrise de mână — note fotografiate de la furnizori locali, totaluri scrise de mână pe bonuri — extrăgând câmpurile cheie cu precizie rezonabilă pentru majoritatea stilurilor de scriere obișnuite.

Vestea bună: majoritatea facturilor de la furnizori SaaS, provideri de cloud și servicii online sunt generate digital. Au straturi de text curate care pot fi extrase instant și precis — fără OCR. Iar pentru restul (chitanțe scanate, facturi fotografiate), AI vision le gestionează cu precizie ridicată.

Detectarea sumelor și a valutei

Odată ce ai textul brut, începe adevărata provocare: să determini care număr e totalul facturii. Un PDF tipic de factură conține zeci de numere — date, cantități, prețuri unitare, procente de TVA, subtotaluri și suma finală.

Extracția inteligentă folosește o combinație de tehnici:

  • Proximitate de cuvinte-cheie — caută numere lângă „Total", „De plată", „Sumă totală" în mai multe limbi
  • Tipare regex — recunoaște formate specifice monedelor: €1.234,56, 1,234.56 USD, 2.500,00 RON, £500.00
  • Euristici de poziție — totalurile tind să apară în treimea inferioară a paginii, aliniate la dreapta
  • Detectarea simbolurilor valutare — identifică €, $, £, RON, lei și alți markeri de valută
  • Parsare conștientă de format — interpretează corect formatul european (1.234,56) vs. cel american (1,234.56)

BillyBox suportă nativ RON, EUR, USD și GBP — inclusiv formatele de numere specifice fiecărei regiuni. O factură românească cu „2.500,00 lei" e interpretată la fel de corect ca una americană cu „$2,500.00".

Identificarea furnizorului

Dacă știi de la cine e factura, extracția devine dramatic mai ușoară. Dacă știi că e o factură Hetzner, știi exact unde să cauți totalul și în ce format să-l aștepți. De aceea registrele de furnizori sunt atât de valoroase.

Identificarea funcționează prin potrivirea domeniului expeditorului (billing@stripe.com), a metadatelor PDF-ului, sau a tiparelor de text recognoscibile din document (nume de companie, coduri fiscale, layout-uri cunoscute). Odată identificat furnizorul, se aplică un profil specific de extracție pentru acuratețe maximă.

Comparație: metode de extracție a facturilor

Manual: deschizi fiecare PDF

Abordarea clasică. Deschizi fiecare email, descarci PDF-ul, îl deschizi, copiezi suma și furnizorul într-un spreadsheet. Funcționează cu 5 facturi, dar la 30-50 pe lună devine o corvoadă. Risc mare de erori și omisiuni.

Potrivit pentru: cine are sub 10 facturi pe lună și multă răbdare.

OCR Enterprise: ABBYY, Kofax, Rossum

Soluții enterprise cu extracție bazată pe AI. Gestionează documente scanate, scris de mână și layout-uri complexe. Dar prețurile sunt pentru companii care procesează mii de facturi lunar — de obicei $500-2000+/lună, plus setup și configurare.

Potrivit pentru: corporații mari cu departamente de conturi de plătit.

API-uri Cloud: Google Document AI, AWS Textract

API-uri cu plată per pagină care extrag date structurate din documente. Mai accesibile decât soluțiile enterprise, dar necesită integrare — trebuie să construiești pipeline-ul care trimite PDF-urile la API, procesează răspunsurile, mapează câmpurile și stochează rezultatele.

Potrivit pentru: dezvoltatori care vor o soluție generică și sunt OK cu integrarea.

BillyBox: Extracție automată din email

BillyBox are o abordare diferită: în loc să-ți dea o unealtă de extracție, gestionează întregul pipeline. Conectează-ți Gmail-ul, Outlook-ul, Zoho sau orice email IMAP, iar BillyBox preia facturile cu trei moduri de captare: PDF-uri atașate direct (Railway, Anthropic, GitHub, Resend, eMAG); facturi cu link de descărcare în email — Bolt (receipts@bolt.eu) trimite un link, nu PDF atașat, iar BillyBox urmărește automat linkul; și PDF-uri generate din notificări — Cloudflare, OVH, OpenAI, Orange, Vodafone trimit doar text fără atașament, iar BillyBox generează un PDF din conținut. AI-ul filtrează non-facturile, iar documentele scanate sunt procesate prin AI vision OCR. Poți și să încarci manual PDF-uri, fișiere XML sau fotografii. Fără configurare per furnizor. Fără integrare de API.

Potrivit pentru: freelanceri și firme mici care vor rezultate, nu o unealtă de configurat.

Cum extrage BillyBox datele din facturi

BillyBox combină mai multe strategii de extracție pentru a gestiona diversitatea facturilor din lumea reală:

  • Poartă de clasificare AI — înainte ca extracția să înceapă, un model AI analizează fiecare atașament pentru a determina dacă este o factură reală. Logo-urile, PDF-urile de marketing, etichetele de livrare și alte non-facturi sunt filtrate automat. Doar facturile reale ajung la extracția de date.
  • OCR bazat pe AI pentru documente scanate — când un PDF conține imagini scanate în loc de text (sau când încarci o poză a unei chitanțe), BillyBox folosește AI vision pentru a extrage date direct din imagine. Fără pas separat de OCR — modelul AI citește documentul vizual și returnează câmpuri structurate cu scoruri de încredere.
  • 50+ modele de furnizori recunoscuți — pentru furnizori comuni precum AWS, Stripe, DigitalOcean, Hetzner, Google Cloud și Anthropic, BillyBox știe exact unde să găsească totalul și în ce format să-l aștepte.
  • Detectare inteligentă a sumelor — pentru furnizori necunoscuți, BillyBox scanează întregul strat de text folosind tipare regex care gestionează formatele europene, americane și mixte. Clasifică sumele candidate după proximitatea față de cuvinte-cheie ca „Total" și „De plată" în peste 10 limbi.
  • Suport multi-valută — EUR, USD, RON, GBP și alte valute sunt detectate din simboluri, coduri ISO și text contextual. Formatele europene cu virgulă-zecimală sunt interpretate corect.
  • Parsare e-facturi XML — multe facturi europene folosesc formate XML structurate (UBL, CII). BillyBox le parsează direct pentru acuratețe perfectă — fără ghiceli.
  • Context din email — domeniul expeditorului, subiectul și corpul emailului oferă semnale suplimentare pentru identificarea furnizorului și verificarea sumei.
  • Facturi cu link de descărcare în email — Bolt (de la receipts@bolt.eu / receipts-romania@bolt.eu) trimite un link, nu PDF atașat. BillyBox urmărește automat linkul și descarcă factura. Dacă descărcarea automată nu e posibilă, link-ul este afișat pentru descărcare manuală.
  • PDF-uri generate din notificări — Cloudflare, OVH, OpenAI, Orange, Vodafone trimit doar text fără atașament. BillyBox generează automat un PDF din conținutul emailului, extrăgând furnizorul, suma, data și formatându-le ca document propriu-zis.

Ce date sunt extrase

Pentru fiecare factură, BillyBox extrage și afișează:

Emitent / furnizor— ex: Hetzner, AWS, Notion
Suma facturii— ex: €49,90, $127,00, 500 RON
Valuta— EUR, USD, RON, GBP
Număr factură— ex: INV-2026-0384
Data facturii— din PDF sau data emailului
Destinatar— numele sau firma destinatarului
Descriere— sumar linii de produse
Sumă TVA— TVA extrasă separat
Subtotal— suma înainte de taxe, când e disponibilă
Email expeditor— adresa originală de email

Toate datele extrase sunt afișate alături de o previzualizare PDF, pentru a putea verifica dintr-o privire. Dacă extracția ratează sau citește greșit ceva, poți edita orice câmp inline — emitent, sumă, monedă și dată sunt editabile direct din interfața de review.

Facturi digitale vs. scanate

BillyBox le gestionează pe amândouă. Pentru facturile generate digital — cele trimise de furnizori SaaS, provideri de cloud și servicii online prin email — extrage stratul de text încorporat instant și precis. Fără OCR necesar, fără cost AI.

Pentru facturi scanate și fotografii (chitanțe fotografiate cu telefonul, facturi de utilități scanate sau imagini încărcate prin drag-and-drop), BillyBox folosește AI vision pentru a citi documentul direct. Modelul AI analizează imaginea, identifică layout-ul și extrage date structurate — emitent, sumă, monedă, dată, număr factură — într-un singur pas. Fiecare câmp extras include un scor de încredere AI pentru a vedea dintr-o privire ce valori ar putea necesita verificare.

Poți și să încarci manual documente (PDF, XML, JPG, PNG) prin drag-and-drop dacă ai facturi care nu au venit prin email — chitanțe pe hârtie, fișiere descărcate sau facturi de pe portaluri care nu trimit notificări prin email.

Articole similare

Încearcă gratuit

Planul gratuit BillyBox îți permite să procesezi 2 luni de facturi cu 2 conexiuni de email. Conectează-ți Gmail-ul, Outlook-ul sau orice email IMAP, preia o lună și vezi rezultatele extracției în câteva minute — inclusiv OCR bazat pe AI pentru documente scanate. Fără card bancar, fără scripturi de configurare, fără setări per furnizor.