Comment fonctionne réellement l'extraction de factures PDF ?

BillyBox analyse la couche texte du PDF (texte embarqué que la plupart des PDF modernes contiennent) pour extraire fournisseur, montant, devise, date, numéro de facture et autres champs. Quand la couche texte est trop pauvre — PDF scannés, documents image — il bascule en vision IA en rendant la première page comme image et en exécutant un passage type OCR.

Quels champs sont extraits ?

Le schéma v3.5 (mai 2026) extrait 14 champs par document : fournisseur, montant, devise, date, numéro de facture, échéance, taux de TVA %, pays du fournisseur, numéro TVA, catégorie de service, catégorie de dépense, période de facturation début/fin, nom du produit, plus des signaux d'abonnement (is_recurring_self_claim, next_billing_date, is_trial, cancellation_event).

Gère-t-il les factures multi-pages ?

Oui. BillyBox utilise pdfjs-dist 5.6 (build legacy pour compatibilité Safari) avec PagesMapper par instance, donc les documents multi-pages se rendent correctement et l'IA lit les pages pertinentes. Une régression en 5.4 qui cassait la page 2 a été corrigée dans la mise à jour 5.6.

Que faire si l'extraction rate un montant ?

Vous pouvez éditer n'importe quel champ extrait directement dans la file de revue. Le changement écrase la valeur IA et passe tel quel dans l'export. La suggestion IA reste à côté dans ai_suggested_classification pour la télémétrie, mais votre valeur modifiée est ce que le comptable voit.

Extraction de factures PDF : comment extraire les données des PDF de factures automatiquement

Mars 2026

Extraire des données de factures PDF est l'une des tâches les plus fastidieuses de la comptabilité. Chaque fournisseur génère des PDF différemment -- mises en page, polices, langues et structures différentes. Ce qui semble simple pour l'oeil humain (lire le total, trouver le nom du fournisseur) est etonnamment difficile a automatiser. Cet article explique comment l'extraction de factures PDF fonctionne, pourquoi c'est difficile, et comment les outils modernes resolvent le problème.

Pourquoi l'extraction de factures PDF est difficile

Les PDF ont été concus pour l'affichage visuel, pas pour l'extraction de données. Contrairement a un tableur ou un fichier JSON, un PDF n'etiquette pas ses champs. Le "total" est simplement du texte positionne a certaines coordonnées sur la page. Il n'y a pas de balise semantique qui dit "ceci est le montant de la facture."

Pas de mise en page coherente -- chaque fournisseur place les montants, dates et totaux a des positions différentes
Scanne vs. numérique -- les factures scannées sont des images, pas du texte. Vous avez besoin d'OCR avant toute extraction
Factures multilingues -- "Total", "Gesamt", "Total TTC", "Montant du" signifient tous la même chose
Ambiguïté de devise -- "1.234,56" signifie 1234,56 EUR en France mais autre chose aux Etats-Unis
Montants multiples -- sous-total, taxe, livraison, remise, total, montant du -- lequel est important ?
Polices embarquees et encodages -- certains PDF utilisent des polices personnalisees qui cassent l'extraction de texte standard

Comment fonctionne l'extraction de texte PDF

La premiere etape de tout analyseur de factures PDF est d'obtenir le texte brut. Les PDF numériques (ceux generes par un logiciel de facturation) ont une couche de texte embarquee. Des outils comme pdfplumber ou PyMuPDF peuvent extraire ce texte avec sa position sur la page.

Pour les factures scannées (photos ou documents papier scannés), une nouvelle approche a emerge : les modeles de vision IA. Au lieu d'une etape OCR separee suivie d'une analyse du texte, les modeles de vision IA peuvent regarder un PDF scanné ou une photo directement et extraire des données structurees -- nom du fournisseur, montant, devise, date -- en une seule passe. C'est souvent plus precis que les pipelines OCR-puis-analyse separes parce que le modele comprend la mise en page du document, pas seulement les formes des caracteres.

La bonne nouvelle : la plupart des factures de fournisseurs SaaS, de fournisseurs cloud et de services en ligne sont generees numeriquement. Elles ont des couches de texte propres qui peuvent etre extraites instantanément et avec precision -- sans OCR necessaire.

Trouver les bons chiffres : détection de montant et devise

Une fois le texte brut obtenu, le vrai defi commence : déterminer quel nombre est le total de la facture. Un PDF de facture typique contient des dizaines de nombres -- dates, quantites, prix unitaires, pourcentages de taxe, sous-totaux et montant final.

L'extraction intelligente utilise une combinaison de techniques :

Proximite de mots-clés -- chercher les nombres pres de "Total", "Montant TTC", "Net a payer" dans plusieurs langues
Modeles regex -- correspondre des formats spécifiques a la devise comme 1 234,56 EUR, 1.234,56 EUR, $500.00
Heuristiques de position -- les totaux apparaissent generalement dans le tiers inferieur de la page, alignes à droite
Détection de symboles de devise -- identifier les symboles et codes de devise pres des montants
Analyse sensible au format -- interpreter correctement les formats europeens (1.234,56) vs. americains (1,234.56)

Approches d'extraction comparees

Outils manuels : Tabula, Camelot, pdfplumber

Librairies open-source qui extraient les tableaux des PDF. Elles fonctionnent bien pour les factures structurees avec beaucoup de tableaux mais necessitent une configuration manuelle par fournisseur. Idéales pour les scripts ponctuels, impraticables dès qu'on jongle avec des factures de dizaines de fournisseurs aux mises en page différentes.

Ideal pour : les developpeurs construisant des pipelines personnalises pour un format fournisseur unique.

OCR entreprise : ABBYY, Kofax, Rossum

Solutions d'entreprise avec extraction IA. Elles gerent les documents scannés, l'ecriture manuscrite et les mises en page complexes. Mais elles sont tarifees pour les departements comptabilité fournisseurs d'entreprise -- generalement sur devis personnalisé, avec configuration et formation requises.

Ideal pour : les grandes entreprises avec des departements comptabilité a haut volume.

API cloud IA : Google Document AI, AWS Textract

API facturees a la page qui extraient des données structurees des documents. Plus accessibles que les solutions entreprise mais necessitent quand même un travail d'integration -- vous devez construire le pipeline qui envoie les PDF a l'API, gère les reponses, mappe les champs et stocke les résultats.

Ideal pour : les developpeurs a l'aise avec l'integration API qui ont besoin d'une solution generique.

BillyBox : extraction automatisee depuis l'email

BillyBox adopte une approche différente : au lieu de vous donner un outil d'extraction, il gère l'ensemble du pipeline. Connectez votre Gmail, Outlook, Zoho ou tout email IMAP, et BillyBox récupère les factures, utilise l'IA pour filtrer les non-factures, extrait les données des PDF numériques et scannés (via OCR vision IA), télécharge les factures depuis les portails, et génère des reçus PDF a partir du contenu des emails. Pas de configuration par fournisseur. Pas d'integration API.

Ideal pour : les freelances et petites entreprises qui veulent des résultats, pas un outil à configurer.

Ce qui est extrait

Pour chaque facture, BillyBox extrait et affiche :

Emetteur / nom du fournisseur-- ex. Hetzner, AWS, Notion

Montant de la facture-- ex. 49,90 EUR, 127,00 $

Devise-- EUR, USD, RON, GBP

Numero de facture-- ex. INV-2026-0384

Date de facture-- depuis le PDF ou la date de l'email

Destinataire-- nom du destinataire ou de l'entreprise

Description-- resume des lignes de facturation

Montant de la taxe-- TVA extraite separement

Sous-total-- montant hors taxe quand disponible

Email de l'expéditeur-- adresse email originale

Toutes les données extraites sont affichees a cote d'un apercu PDF pour que vous puissiez verifier d'un coup d'oeil. Si l'extraction a rate ou mal lu quelque chose, vous pouvez modifier n'importe quel champ en ligne.

Essayez gratuitement

Le plan gratuit de BillyBox vous permet de traiter 2 mois de factures avec 2 connexions email. Connectez votre Gmail, Outlook ou tout email IMAP, récupérez un mois et voyez les résultats d'extraction en minutes -- y compris l'OCR par vision IA pour les documents scannés. Pas de carte bancaire, pas de scripts d'installation, pas de configuration par fournisseur necessaire.

Essayer BillyBox Gratuitement Voir les Tarifs