Retour au blog
Rédigé par Andrei BiroDernière mise à jour

Classification IA des Factures : Comment BillyBox Filtre Automatiquement les Vraies Factures du Bruit

Mars 2026

Votre boite email ne contient pas que des factures. Elle contient des logos, des bannieres marketing, des notifications d'expedition, des PDF de conditions d'utilisation, des prospectus promotionnels et des dizaines d'autres pieces jointes qui ressemblent a des factures -- mais n'en sont pas. Quand vous connectez votre email a un outil de gestion de factures, tout cela est aspire. Le resultat ? Une file de revision pleine de bruit qui annule l'interet de l'automatisation.

C'est exactement ce qui est arrive a l'un de nos premiers utilisateurs. Il a connecte son email et a trouve des centaines d'images et de logos melanges avec ses vraies factures. Son retour etait direct : "A quoi ca sert si je dois les parcourir un par un pour les supprimer ?" Il avait raison. Alors nous avons construit la classification IA pour resoudre le probleme.

Le Probleme : Les Pieces Jointes Email Sont Desordonnees

La plupart des entreprises recoivent 50 a 200+ emails avec pieces jointes par mois. Seule une fraction de ces pieces jointes sont de vraies factures. Le reste comprend :

  • Logos et bannieres d'entreprise -- images integrees dans les signatures d'email et emails marketing
  • Etiquettes d'expedition et PDF de suivi -- documents logistiques qui ne sont pas des factures
  • Mises a jour de conditions d'utilisation -- documents juridiques joints en PDF
  • Supports marketing -- catalogues produits, prospectus promotionnels, invitations evenementielles
  • Recus pour services gratuits -- "factures" a 0,00 EUR de services en version gratuite
  • Pieces jointes en double -- le meme PDF transfere ou en reponse plusieurs fois

Le filtrage par regles detecte une partie de cela -- vous pouvez filtrer par type de fichier, taille ou domaine de l'expediteur. Mais les logos sont des PNG tout comme les factures scannees. Les PDF marketing ont la meme extension que les vraies factures. Les regles seules ne peuvent pas faire la difference parce que la difference est dans le contenu, pas le format.

Comment BillyBox Utilise l'IA pour Classifier les Pieces Jointes

BillyBox fait maintenant passer chaque piece jointe par un pipeline de classification IA avant qu'elle n'atteigne votre file de revision. Le systeme utilise une approche a double couche :

Couche 1 : Pre-Filtrage par Regles

Avant meme que l'IA ne s'execute, BillyBox applique des regles deterministes : domaines de factures connus (plus de 50 modeles de fournisseurs), verifications de type de fichier, seuils de taille et analyse des metadonnees email. Les pieces jointes d'expediteurs de factures connus comme Stripe, AWS ou Hetzner sautent l'IA completement et vont directement dans votre file. Cela garde les choses rapides et economiques.

Couche 2 : Porte de Classification IA

Pour les pieces jointes qui ne correspondent pas aux modeles connus, BillyBox envoie le texte extrait et les metadonnees a un modele IA qui determine si le document est une vraie facture, un recu, un releve de compte, ou autre chose entierement (un logo, un PDF marketing, une notification). Le systeme supporte un double backend -- Anthropic AI et OpenAI -- avec basculement automatique si un fournisseur est indisponible. Les documents non-factures sont automatiquement marques comme "ignores" pour ne jamais encombrer votre file de revision.

Couche 3 : Vision IA pour les Documents Scannes

Pour les PDF scannes, les recus photographies et les pieces jointes images (JPG, PNG), l'IA ne peut pas se fier uniquement au texte extrait -- car il n'y en a pas. BillyBox utilise des modeles de vision IA pour analyser l'image directement : est-ce une photo d'une vraie facture, ou juste un logo d'entreprise ? Un recu scanne, ou un prospectus promotionnel ? La classification basee sur la vision detecte les non-factures qui echapperaient a l'analyse textuelle seule.

L'IA ne verifie pas simplement si un document mentionne de l'argent. Elle comprend le contexte : un email promotionnel disant "Economisez 50 EUR sur votre prochaine commande" n'est pas une facture. Un PDF avec un logo d'entreprise, un numero de facture, des lignes de detail et un total -- ca c'est une facture. Le modele evalue la structure complete du document, pas seulement les mots-cles.

Ce Qui Est Filtre

En test avec de vraies boites utilisateurs, la classification IA filtre typiquement 40 a 70% des pieces jointes qui auraient precedemment encombre la file de revision :

Logos d'entreprise-- Images PNG/JPG integrees dans les emails
PDF marketing-- Catalogues, prospectus, promotions
Documents d'expedition-- Etiquettes, suivi, formulaires douaniers
Documents juridiques-- Mises a jour CGU, politiques de confidentialite
PDF de notification-- Alertes de compte, reinitialisation de mot de passe
Invitations calendrier-- Pieces jointes de reunion, details d'evenement

Ce Qui Est Conserve

L'IA est intentionnellement conservatrice dans son filtrage. En cas de doute, elle garde le document dans votre file plutot que de cacher une vraie facture. Ceux-ci passent toujours :

Factures-- Notes avec montants, lignes de detail, totaux
Recus-- Confirmations de paiement avec frais
Releves-- Releves de compte avec soldes
Avoirs-- Remboursements et ajustements
Factures electroniques XML-- Factures electroniques structurees
Documents limites-- Tout document ambigu reste dans la file

La philosophie est simple : il vaut mieux reviser un document en trop que de rater une vraie facture. L'IA gere le bruit evident ; vous prenez la decision finale sur tout le reste.

Pourquoi Ne Pas Simplement Utiliser l'OCR ou la Correspondance de Mots-Cles ?

La correspondance de mots-cles ("est-ce que ca contient le mot facture ?") echoue parce que les emails marketing contiennent regulierement des mots comme "facture", "paiement" et "recu" sans etre de vraies factures. Une newsletter disant "Consultez votre facture" avec un lien n'est pas une facture -- c'est une notification. Un PDF promotionnel intitule "Modele de facture" n'est pas votre facture.

L'OCR traditionnelle (Reconnaissance Optique de Caracteres) resout un probleme different -- convertir les images en texte. Elle ne vous aide pas a determiner si ce texte represente une facture ou un logo. BillyBox va plus loin : ses modeles de vision IA analysent la structure visuelle des documents scannes directement, comprenant la mise en page, les titres, les lignes de detail et les totaux comme le ferait un humain. Cela signifie que la classification et l'extraction de donnees se font en une seule passe -- pas d'etape OCR separee necessaire.

Confidentialite et Cout

La classification IA ne traite que les metadonnees des documents et le texte extrait -- pas les fichiers PDF originaux. L'extraction de texte se fait d'abord localement sur nos serveurs, puis seul le contenu extrait est envoye au modele IA pour classification. Vos documents originaux restent au sein de l'infrastructure de BillyBox hebergee dans l'UE.

Le cout par classification est de fractions de centime, c'est pourquoi cette fonctionnalite est incluse dans tous les plans -- y compris le plan gratuit. Il n'y a pas de frais par page ou par document pour la classification IA.

Au-Dela de la Classification : Extraction de Donnees par IA

Les memes modeles IA qui classifient les pieces jointes extraient egalement des donnees structurees des factures. Pour les documents scannes et les images ou l'extraction de texte traditionnelle echoue, la vision IA lit le document visuellement et en extrait : nom de l'emetteur, montant, devise, date de facture, numero de facture, destinataire, description, montant de la taxe et sous-total. Cette meme capacite de vision gere les recus manuscrits -- l'IA lit les noms de fournisseurs, montants et dates manuscrits avec une precision raisonnable pour la plupart des styles d'ecriture courants. Chaque champ extrait inclut un score de confiance pour que vous sachiez quelles valeurs ont ete lues avec certitude et lesquelles pourraient necessiter une verification rapide.

Toutes les donnees extraites sont modifiables en ligne -- si l'IA a mal lu un nom de fournisseur ou un montant, vous pouvez le corriger directement dans l'interface de revision sans quitter la page. Cela s'applique aux factures par email ainsi qu'aux documents importes manuellement (glisser-deposer PDF, XML, JPG ou PNG).

Le Resultat : Une File de Revision Propre

Avant la classification IA, connecter un email avec une boite active signifiait reviser des centaines de pieces jointes non pertinentes. Maintenant, vous voyez principalement de vraies factures et recus. Le bruit a disparu. La classification prend des minutes au lieu de la majeure partie d'une heure.

Combine avec le balayage pour classifier sur mobile et les raccourcis clavier sur ordinateur, le flux complet de l'email a l'export pret pour le comptable est maintenant assez rapide pour etre fait sur une pause cafe.

Articles Connexes

Essayez Gratuitement

La classification et l'extraction IA de BillyBox sont incluses dans tous les plans, y compris le plan gratuit. Connectez votre Gmail, Outlook, Zoho ou tout email IMAP, recuperez un mois et voyez la difference -- une file propre de vraies factures, pas un mur de logos et PDF marketing. Vous pouvez aussi importer des factures manuellement via glisser-deposer.