Înapoi la blog
Scris de Andrei BiroUltima actualizare

Extragere Date din Facturi PDF: Cum Citești Facturile Automat

Martie 2026

Extragerea datelor din facturi PDF e una dintre cele mai consumatoare de timp sarcini din contabilitate. Fiecare furnizor generează PDF-uri diferit — alt layout, alte fonturi, altă limbă, altă structură. Ce pare simplu pentru ochiul uman (citește totalul, găsește numele furnizorului) e surprinzător de greu de automatizat. Acest articol explică cum funcționează un parser de facturi PDF, de ce e complicat, și cum rezolvă problema uneltele moderne.

De Ce E Greu Să Extragi Date din PDF

PDF-urile au fost concepute pentru afișare vizuală, nu pentru extracție de date. Spre deosebire de un spreadsheet sau un fișier JSON, un PDF nu își etichetează câmpurile. „Totalul" e pur și simplu text poziționat la anumite coordonate pe pagină. Nu există niciun tag semantic care să spună „aceasta este suma facturii."

  • Layout inconsistent — fiecare furnizor pune sumele, datele și totalurile în locuri diferite
  • Scanate vs. digitale — facturile scanate sunt imagini, nu text. Ai nevoie de OCR înainte de orice extracție
  • Facturi multilingve — „Total", „Gesamt", „Toplam", „Total de plată" înseamnă același lucru
  • Ambiguitate de valută — „1.234,56" înseamnă 1234.56 EUR în Europa, dar altceva în SUA
  • Sume multiple — subtotal, TVA, transport, discount, total, de plată — care contează?
  • Fonturi și codificări speciale — unele PDF-uri folosesc fonturi custom care sparg extractorul standard de text

Cum Funcționează Citirea Textului din PDF

Primul pas al oricărui parser de facturi PDF e obținerea textului brut. PDF-urile digitale (cele generate de software-ul de facturare) au un strat de text încorporat. Instrumente ca pdfplumber sau PyMuPDF pot extrage textul împreună cu poziția lui pe pagină.

Pentru facturile scanate (poze sau documente scanate pe hârtie), ai nevoie de OCR (Optical Character Recognition) — instrumente ca Tesseract sau API-uri cloud de la Google/AWS care convertesc imaginea în text. OCR-ul adaugă timp de procesare, cost și potențial de eroare.

Vestea bună: majoritatea facturilor de la furnizori SaaS, provideri de cloud și servicii online sunt generate digital. Au straturi de text curate care pot fi extrase instant și precis — fără OCR.

Detectarea Sumelor și a Valutei

Odată ce ai textul brut, începe adevărata provocare: să determini care număr e totalul facturii. Un PDF tipic de factură conține zeci de numere — date, cantități, prețuri unitare, procente de TVA, subtotaluri și suma finală.

Extracția inteligentă folosește o combinație de tehnici:

  • Proximitate de cuvinte-cheie — caută numere lângă „Total", „De plată", „Sumă totală" în mai multe limbi
  • Paternuri regex — recunoaște formate specifice monedelor: €1.234,56, 1,234.56 USD, 2.500,00 RON, £500.00
  • Euristici de poziție — totalurile tind să apară în treimea inferioară a paginii, aliniate la dreapta
  • Detectarea simbolurilor valutare — identifică €, $, £, RON, lei și alți markeri de valută
  • Parsare conștientă de format — interpretează corect formatul european (1.234,56) vs. cel american (1,234.56)

BillyBox suportă nativ RON, EUR, USD și GBP — inclusiv formatele de numere specifice fiecărei regiuni. O factură românească cu „2.500,00 lei" e interpretată la fel de corect ca una americană cu „$2,500.00".

Identificarea Furnizorului

Dacă știi de la cine e factura, extracția devine dramatic mai ușoară. Dacă știi că e o factură Hetzner, știi exact unde să cauți totalul și în ce format să-l aștepți. De aceea registrele de furnizori sunt atât de valoroase.

Identificarea funcționează prin potrivirea domeniului expeditorului (billing@stripe.com), a metadatelor PDF-ului, sau a tiparelor de text recognoscibile din document (nume de companie, coduri fiscale, layout-uri cunoscute). Odată identificat furnizorul, se aplică un profil specific de extracție pentru acuratețe maximă.

Comparație: Metode de Extracție a Facturilor

Manual: deschizi fiecare PDF

Abordarea clasică. Deschizi fiecare email, descarci PDF-ul, îl deschizi, copiezi suma și furnizorul într-un spreadsheet. Funcționează cu 5 facturi, dar la 30-50 pe lună devine o corvoadă. Risc mare de erori și omisiuni.

Potrivit pentru: cine are sub 10 facturi pe lună și multă răbdare.

OCR Enterprise: ABBYY, Kofax, Rossum

Soluții enterprise cu extracție bazată pe AI. Gestionează documente scanate, scris de mână și layout-uri complexe. Dar prețurile sunt pentru companii care procesează mii de facturi lunar — de obicei $500-2000+/lună, plus setup și configurare.

Potrivit pentru: corporații mari cu departamente de conturi de plătit.

API-uri Cloud: Google Document AI, AWS Textract

API-uri cu plată per pagină care extrag date structurate din documente. Mai accesibile decât soluțiile enterprise, dar necesită integrare — trebuie să construiești pipeline-ul care trimite PDF-urile la API, procesează răspunsurile, mapează câmpurile și stochează rezultatele.

Potrivit pentru: dezvoltatori care vor o soluție generică și sunt OK cu integrarea.

BillyBox: Extracție automată din email

BillyBox are o abordare diferită: în loc să-ți dea o unealtă de extracție, gestionează întregul proces. Conectează-ți emailul, iar BillyBox preia facturile, extrage numele furnizorului, sumele, valutele și datele — apoi te lasă să clasifici și să exporti. Fără configurare per furnizor. Fără integrare de API.

Potrivit pentru: freelanceri și firme mici care vor rezultate, nu o unealtă de configurat.

Cum Extrage BillyBox Datele din Facturi

BillyBox combină mai multe strategii de extracție pentru a gestiona diversitatea facturilor din lumea reală:

  • 50+ modele de furnizori recunoscuți — pentru furnizori comuni precum AWS, Stripe, DigitalOcean, Hetzner, Google Cloud și Anthropic, BillyBox știe exact unde să găsească totalul și în ce format să-l aștepte.
  • Detectare inteligentă a sumelor — pentru furnizori necunoscuți, BillyBox scanează întregul strat de text folosind paternuri regex care gestionează formatele europene, americane și mixte. Clasifică sumele candidate după proximitatea față de cuvinte-cheie ca „Total" și „De plată" în peste 10 limbi.
  • Suport multi-valută — RON, EUR, USD, GBP și alte valute sunt detectate din simboluri, coduri ISO și text contextual. Formatele europene cu virgulă-zecimală sunt interpretate corect.
  • Parsare e-facturi XML — multe facturi europene folosesc formate XML structurate (UBL, CII). BillyBox le parsează direct pentru acuratețe perfectă — fără ghiceli.
  • Context din email — domeniul expeditorului, subiectul și corpul emailului oferă semnale suplimentare pentru identificarea furnizorului și verificarea sumei.

Ce Date Sunt Extrase

Pentru fiecare factură, BillyBox extrage și afișează:

Nume furnizor— ex: Hetzner, AWS, Notion
Suma facturii— ex: €49,90, $127,00, 500 RON
Valuta— RON, EUR, USD, GBP
Număr factură— ex: INV-2026-0384
Data facturii— din PDF sau data emailului
Email expeditor— adresa originală de email

Toate datele extrase sunt afișate alături de o previzualizare PDF, pentru a putea verifica dintr-o privire. Dacă extracția ratează ceva, poți vedea documentul original imediat.

Facturi Digitale vs. Scanate

BillyBox e optimizat pentru facturi generate digital — cele trimise de furnizori SaaS, provideri de cloud și servicii online prin email. Acestea au straturi de text curate și produc extracție precisă fără OCR.

Dacă lucrezi preponderent cu facturi scanate pe hârtie (chitanțe fotografiate cu telefonul, facturi de utilități scanate), ai nevoie de o soluție cu OCR. Dar pentru freelanceri și afaceri digitale unde 95%+ din facturi ajung ca atașamente de email de la furnizori software, extracția directă de text e mai rapidă, mai ieftină și mai precisă decât OCR-ul.

Articole Similare

Încearcă Gratuit

Planul gratuit BillyBox îți permite să procesezi 2 luni de facturi. Conectează-ți emailul, preia o lună și vezi rezultatele extracției în câteva minute. Fără card, fără scripturi de configurare, fără setări per furnizor.