BillyBox is an invoice management tool that connects to your email (Gmail, Outlook, Zoho, or any IMAP provider), automatically extracts invoice attachments, and lets you classify them as business, personal, or ignored. Export an organized ZIP for your accountant in minutes.

Yes. BillyBox uses read-only access — we never send, delete, or modify your emails. Credentials are encrypted with AES-256, data is hosted in EU data centers (GDPR compliant), and you can revoke access with one click.

How does the invoice classification work?

After BillyBox fetches invoices from your email, you classify each one as business, personal, or ignore using keyboard shortcuts (B/P/I) on desktop or swipe gestures on mobile. It takes about 3 minutes instead of 30.

What email providers are supported?

BillyBox works with Gmail (Google OAuth), Outlook/Hotmail/Live (Microsoft OAuth), Zoho Mail (IMAP), and any email provider that supports IMAP with an app password (Yahoo, ProtonMail Bridge, custom domains, and more). You can connect multiple accounts at once.

Is there a free plan?

Yes! The free plan lets you fetch invoices from 2 calendar months with 2 email connections. No credit card required. Upgrade to Starter or Pro for unlimited months and more connections.

How is BillyBox different from accounting software?

BillyBox handles the step before accounting — collecting and organizing invoices from email. It does not replace QuickBooks, Xero, or Wave. Export your organized invoices and feed them into whatever accounting tool you use.

Can I send receipts from my phone?

Yes. Connect Telegram once in Settings, then forward photos, PDFs, or vendor portal links to the BillyBox bot. They land in the same review queue as your email invoices and follow the same classification flow. This complements your email connection — email still does the heavy lifting; Telegram is for the in-person receipts your inbox never sees.

What can I send to the BillyBox bot?

Photos (JPG/PNG) of paper receipts, PDF or XML invoices, and links to vendor portals (Stripe, AWS, hotel booking confirmations). The bot reads the document, returns the vendor and amount, and gives you Business / Personal / Ignore buttons right in the chat.

Can I add receipts or PDFs directly from the BillyBox app?

Yes — and you don't need to install anything. Open billybox.app in your phone's browser (it's a PWA, you can Add to Home Screen for an app-like icon) and tap the camera button in the review screen. It opens the rear camera so you can snap a paper receipt, or you can pick a PDF from your phone storage instead. The document goes through the same extraction and classification pipeline as your email invoices. Works alongside email and Telegram — pick whichever channel fits the document you have in hand.

Cum funcționează extragerea datelor din facturi PDF?

BillyBox parsează stratul de text al PDF-ului (textul embedat pe care majoritatea PDF-urilor moderne îl conțin) pentru a extrage furnizor, sumă, valută, dată, număr factură și alte câmpuri. Când stratul de text e prea sărac — PDF-uri scanate, documente doar-imagine — recurge la AI vision randând prima pagină ca imagine și rulând un pas tip OCR.

Ce câmpuri sunt extrase?

Schema v3.5 (mai 2026) extrage 14 câmpuri per document: furnizor, sumă, valută, dată, număr factură, dată scadență, % cota TVA, țara furnizorului, codul de TVA al furnizorului, categorie serviciu, categorie cheltuială, perioadă de facturare start/end, nume produs, plus semnale de abonament (is_recurring_self_claim, next_billing_date, is_trial, cancellation_event).

Gestionează și facturile multi-pagină?

Da. BillyBox folosește pdfjs-dist 5.6 (legacy build pentru compatibilitate Safari) cu PagesMapper per-instance, deci documentele multi-pagină se randează corect și AI-ul citește paginile relevante. O regresie în 5.4 care strica pagina 2 a fost rezolvată la upgrade-ul 5.6.

Ce fac dacă extracția pierde o sumă?

Poți edita orice câmp extras inline în coada de review. Modificarea suprascrie valoarea AI și intră în export așa cum e. Sugestia AI rămâne alături în ai_suggested_classification pentru telemetrie, dar valoarea ta editată e ceea ce vede contabilul.

Extragere date din facturi PDF: cum citești facturile automat

Martie 2026

Extragerea datelor din facturi PDF e una dintre cele mai consumatoare de timp sarcini din contabilitate. Fiecare furnizor generează PDF-uri diferit — alt layout, alte fonturi, altă limbă, altă structură. Ce pare simplu pentru ochiul uman (citește totalul, găsește numele furnizorului) e surprinzător de greu de automatizat. Acest articol explică cum funcționează un parser de facturi PDF, de ce e complicat, și cum rezolvă problema uneltele moderne.

De ce e greu să extragi date din PDF

PDF-urile au fost concepute pentru afișare vizuală, nu pentru extracție de date. Spre deosebire de un spreadsheet sau un fișier JSON, un PDF nu își etichetează câmpurile. „Totalul" e pur și simplu text poziționat la anumite coordonate pe pagină. Nu există niciun tag semantic care să spună „aceasta este suma facturii."

Layout inconsistent — fiecare furnizor pune sumele, datele și totalurile în locuri diferite
Scanate vs. digitale — facturile scanate sunt imagini, nu text. Ai nevoie de OCR înainte de orice extracție
Facturi multilingve — „Total", „Gesamt", „Toplam", „Total de plată" înseamnă același lucru
Ambiguitate de valută — „1.234,56" înseamnă 1234.56 EUR în Europa, dar altceva în SUA
Sume multiple — subtotal, TVA, transport, discount, total, de plată — care contează?
Fonturi și codificări speciale — unele PDF-uri folosesc fonturi custom care sparg extractorul standard de text

Cum funcționează citirea textului din PDF

Primul pas al oricărui parser de facturi PDF e obținerea textului brut. PDF-urile digitale (cele generate de software-ul de facturare) au un strat de text încorporat. Instrumente ca pdfplumber sau PyMuPDF pot extrage textul împreună cu poziția lui pe pagină.

Pentru facturile scanate (poze sau documente scanate pe hârtie), OCR-ul tradițional (Tesseract, API-uri cloud de la Google/AWS) convertește imaginea în text mai întâi. Dar o abordare mai nouă a apărut: modele AI vision. În loc de un pas separat de OCR urmat de parsarea textului, modele AI vision precum AI pot analiza un PDF scanat sau o fotografie direct și extrag date structurate — furnizor, sumă, monedă, dată — într-un singur pas. Acest lucru e deseori mai precis decât pipeline-urile separate de OCR-apoi-parsare, deoarece modelul înțelege layout-ul documentului, nu doar formele caracterelor. Aceeași capabilitate AI vision procesează și chitanțe scrise de mână — note fotografiate de la furnizori locali, totaluri scrise de mână pe bonuri — extrăgând câmpurile cheie cu precizie rezonabilă pentru majoritatea stilurilor de scriere obișnuite.

Vestea bună: majoritatea facturilor de la furnizori SaaS, provideri de cloud și servicii online sunt generate digital. Au straturi de text curate care pot fi extrase instant și precis — fără OCR. Iar pentru restul (chitanțe scanate, facturi fotografiate), AI vision le gestionează cu precizie ridicată.

Detectarea sumelor și a valutei

Odată ce ai textul brut, începe adevărata provocare: să determini care număr e totalul facturii. Un PDF tipic de factură conține zeci de numere — date, cantități, prețuri unitare, procente de TVA, subtotaluri și suma finală.

Extracția inteligentă folosește o combinație de tehnici:

Proximitate de cuvinte-cheie — caută numere lângă „Total", „De plată", „Sumă totală" în mai multe limbi
Tipare regex — recunoaște formate specifice monedelor: €1.234,56, 1,234.56 USD, 2.500,00 RON, £500.00
Euristici de poziție — totalurile tind să apară în treimea inferioară a paginii, aliniate la dreapta
Detectarea simbolurilor valutare — identifică €, $, £, RON, lei și alți markeri de valută
Parsare conștientă de format — interpretează corect formatul european (1.234,56) vs. cel american (1,234.56)

BillyBox suportă nativ RON, EUR, USD și GBP — inclusiv formatele de numere specifice fiecărei regiuni. O factură românească cu „2.500,00 lei" e interpretată la fel de corect ca una americană cu „$2,500.00".

Identificarea furnizorului

Dacă știi de la cine e factura, extracția devine dramatic mai ușoară. Dacă știi că e o factură Hetzner, știi exact unde să cauți totalul și în ce format să-l aștepți. De aceea registrele de furnizori sunt atât de valoroase.

Identificarea funcționează prin potrivirea domeniului expeditorului (billing@stripe.com), a metadatelor PDF-ului, sau a tiparelor de text recognoscibile din document (nume de companie, coduri fiscale, layout-uri cunoscute). Odată identificat furnizorul, se aplică un profil specific de extracție pentru acuratețe maximă.

Comparație: metode de extracție a facturilor

Manual: deschizi fiecare PDF

Abordarea clasică. Deschizi fiecare email, descarci PDF-ul, îl deschizi, copiezi suma și furnizorul într-un spreadsheet. Funcționează cu 5 facturi, dar la 30-50 pe lună devine o corvoadă. Risc mare de erori și omisiuni.

Potrivit pentru: cine are sub 10 facturi pe lună și multă răbdare.

OCR Enterprise: ABBYY, Kofax, Rossum

Soluții enterprise cu extracție bazată pe AI. Gestionează documente scanate, scris de mână și layout-uri complexe. Dar sunt prețuite pentru departamentele de conturi de plătit din companii mari — de regulă cu oferte personalizate, plus setup și configurare.

Potrivit pentru: corporații mari cu departamente de conturi de plătit.

API-uri Cloud: Google Document AI, AWS Textract

API-uri cu plată per pagină care extrag date structurate din documente. Mai accesibile decât soluțiile enterprise, dar necesită integrare — trebuie să construiești pipeline-ul care trimite PDF-urile la API, procesează răspunsurile, mapează câmpurile și stochează rezultatele.

Potrivit pentru: dezvoltatori care vor o soluție generică și sunt OK cu integrarea.

BillyBox: Extracție automată din email

BillyBox are o abordare diferită: în loc să-ți dea o unealtă de extracție, gestionează întregul pipeline. Conectează-ți Gmail-ul, Outlook-ul, Zoho sau orice email IMAP, iar BillyBox preia facturile cu trei moduri de captare: PDF-uri atașate direct (Railway, Anthropic, GitHub, Resend, eMAG); facturi cu link de descărcare în email — Bolt (receipts@bolt.eu) trimite un link, nu PDF atașat, iar BillyBox urmărește automat linkul; și PDF-uri generate din notificări — Cloudflare, OVH, OpenAI, Orange, Vodafone trimit doar text fără atașament, iar BillyBox generează un PDF din conținut. AI-ul filtrează non-facturile, iar documentele scanate sunt procesate prin AI vision OCR. Poți și să încarci manual PDF-uri, fișiere XML sau fotografii. Fără configurare per furnizor. Fără integrare de API.

Potrivit pentru: freelanceri și firme mici care vor rezultate, nu o unealtă de configurat.

Cum extrage BillyBox datele din facturi

BillyBox combină mai multe strategii de extracție pentru a gestiona diversitatea facturilor din lumea reală:

Poartă de clasificare AI — înainte ca extracția să înceapă, un model AI analizează fiecare atașament pentru a determina dacă este o factură reală. Logo-urile, PDF-urile de marketing, etichetele de livrare și alte non-facturi sunt filtrate automat. Doar facturile reale ajung la extracția de date.
OCR bazat pe AI pentru documente scanate — când un PDF conține imagini scanate în loc de text (sau când încarci o poză a unei chitanțe), BillyBox folosește AI vision pentru a extrage date direct din imagine. Fără pas separat de OCR — modelul AI citește documentul vizual și returnează câmpuri structurate cu scoruri de încredere.
Extracție bazată pe AI — câmpurile efective (furnizor, sumă, monedă, taxe, date, număr factură etc.) sunt extrase de un model AI (backend configurabil: OpenAI sau Anthropic Claude) cu un prompt structurat aplicat peste textul documentului. Fără regex scris manual per furnizor — același prompt tratează AWS, Stripe, furnizorul tău local de utilități și o factură unică, toate la fel de bine.
50+ domenii de facturare cunoscute pentru pre-filtrare — o listă curată de domenii comune (Stripe, AWS, DigitalOcean, Hetzner, Google Cloud, Anthropic etc.) îi permite BillyBox să facă verificări rapide cu reguli și să urmărească linkurile portal către PDF-ul real înainte ca AI-ul să ruleze.
Conștientizare valută și format numeric — promptul AI este calibrat pentru formate europene, americane și mixte, iar un post-procesor determinist validează sumele candidate după proximitatea față de cuvinte-cheie ca „Total" și „De plată" în peste 10 limbi.
Suport multi-valută — EUR, USD, RON, GBP și alte valute sunt detectate din simboluri, coduri ISO și text contextual. Formatele europene cu virgulă-zecimală sunt interpretate corect.
Parsare e-facturi XML — multe facturi europene folosesc formate XML structurate (UBL, CII). BillyBox le parsează direct și extrage valori exacte, structurate — fără ghiceli.
Context din email — domeniul expeditorului, subiectul și corpul emailului oferă semnale suplimentare pentru identificarea furnizorului și verificarea sumei.
Facturi cu link de descărcare în email — Bolt (de la receipts@bolt.eu / receipts-romania@bolt.eu) trimite un link, nu PDF atașat. BillyBox urmărește automat linkul și descarcă factura. Dacă descărcarea automată nu e posibilă, link-ul este afișat pentru descărcare manuală.
PDF-uri generate din notificări — Cloudflare, OVH, OpenAI, Orange, Vodafone trimit doar text fără atașament. BillyBox generează automat un PDF din conținutul emailului, extrăgând furnizorul, suma, data și formatându-le ca document propriu-zis.

Ce date sunt extrase

Pentru fiecare factură, BillyBox extrage și afișează:

Emitent / furnizor— ex: Hetzner, AWS, Notion

Suma facturii— ex: €49,90, $127,00, 500 RON

Valuta— EUR, USD, RON, GBP

Număr factură— ex: INV-2026-0384

Data facturii— din PDF sau data emailului

Destinatar— numele sau firma destinatarului

Descriere— sumar linii de produse

Sumă TVA— TVA extrasă separat

Subtotal— suma înainte de taxe, când e disponibilă

Email expeditor— adresa originală de email

Toate datele extrase sunt afișate alături de o previzualizare PDF, pentru a putea verifica dintr-o privire. Dacă extracția ratează sau citește greșit ceva, poți edita orice câmp inline — emitent, sumă, monedă și dată sunt editabile direct din interfața de review.

Facturi digitale vs. scanate

BillyBox le gestionează pe amândouă. Pentru facturile generate digital — cele trimise de furnizori SaaS, provideri de cloud și servicii online prin email — extrage stratul de text încorporat instant și precis. Fără OCR necesar, fără cost AI.

Pentru facturi scanate și fotografii (chitanțe fotografiate cu telefonul, facturi de utilități scanate sau imagini încărcate prin drag-and-drop), BillyBox folosește AI vision pentru a citi documentul direct. Modelul AI analizează imaginea, identifică layout-ul și extrage date structurate — emitent, sumă, monedă, dată, număr factură — într-un singur pas. Fiecare câmp extras include un scor de încredere AI pentru a vedea dintr-o privire ce valori ar putea necesita verificare.

Poți și să încarci manual documente (PDF, XML, JPG, PNG) prin drag-and-drop dacă ai facturi care nu au venit prin email — chitanțe pe hârtie, fișiere descărcate sau facturi de pe portaluri care nu trimit notificări prin email.

Articole similare

Încearcă gratuit

Planul gratuit BillyBox îți permite să procesezi 2 luni de facturi cu 2 conexiuni de email. Conectează-ți Gmail-ul, Outlook-ul sau orice email IMAP, preia o lună și vezi rezultatele extracției în câteva minute — inclusiv OCR bazat pe AI pentru documente scanate. Fără card bancar, fără scripturi de configurare, fără setări per furnizor.

Încearcă BillyBox Gratuit Vezi Prețurile