Classification IA des Factures : Comment BillyBox Filtre Automatiquement les Vraies Factures du Bruit
Mars 2026
Votre boîte email ne contient pas que des factures. Elle contient des logos, des bannieres marketing, des notifications d'expédition, des PDF de conditions d'utilisation, des prospectus promotionnels et des dizaines d'autres pièces jointes qui ressemblent a des factures -- mais n'en sont pas. Quand vous connectez votre email a un outil de gestion de factures, tout cela est aspire. Le resultat ? Une file de révision pleine de bruit qui annule l'intérêt de l'automatisation.
C'est exactement ce qui est arrive a l'un de nos premiers utilisateurs. Il a connecté son email et a trouve des centaines d'images et de logos melanges avec ses vraies factures. Son retour était direct : "À quoi ça sert si je dois les parcourir un par un pour les supprimer ?" Il avait raison. Alors nous avons construit la classification IA pour resoudre le problème.
Le problème : les pièces jointes email sont désordonnées
La plupart des entreprises recoivent 50 a 200+ emails avec pièces jointes par mois. Seule une fraction de ces pièces jointes sont de vraies factures. Le reste comprend :
- Logos et bannieres d'entreprise -- images integrees dans les signatures d'email et emails marketing
- Etiquettes d'expédition et PDF de suivi -- documents logistiques qui ne sont pas des factures
- Mises a jour de conditions d'utilisation -- documents juridiques joints en PDF
- Supports marketing -- catalogues produits, prospectus promotionnels, invitations evenementielles
- Recus pour services gratuits -- "factures" a 0,00 EUR de services en version gratuite
- Pieces jointes en double -- le même PDF transfere ou en reponse plusieurs fois
Le filtrage par règles détecte une partie de cela -- vous pouvez filtrer par type de fichier, taille ou domaine de l'expéditeur. Mais les logos sont des PNG tout comme les factures scannées. Les PDF marketing ont la même extension que les vraies factures. Les règles seules ne peuvent pas faire la difference parce que la difference est dans le contenu, pas le format.
Comment BillyBox utilise l'IA pour classifier les pièces jointes
BillyBox fait maintenant passer chaque pièce jointe par un pipeline de classification IA avant qu'elle n'atteigne votre file de révision. Le systeme utilise une approche a double couche :
Couche 1 : Pre-Filtrage par Regles
Avant même que l'IA ne s'execute, BillyBox applique des règles deterministes : domaines de factures connus (plus de 50 modeles de fournisseurs), verifications de type de fichier, seuils de taille et analyse des metadonnees email. Les pièces jointes d'expéditeurs de factures connus comme Stripe, AWS ou Hetzner sautent l'IA completement et vont directement dans votre file. Cela garde les choses rapides et economiques.
Couche 2 : Porte de Classification IA
Pour les pièces jointes qui ne correspondent pas aux modeles connus, BillyBox envoie le texte extrait et les metadonnees a un modele IA qui détermine si le document est une vraie facture, un reçu, un releve de compte, ou autre chose entierement (un logo, un PDF marketing, une notification). Le systeme supporte un double backend -- Anthropic AI et OpenAI -- avec basculement automatique si un fournisseur est indisponible. Les documents non-factures sont automatiquement marques comme "ignores" pour ne jamais encombrer votre file de révision.
Couche 3 : Vision IA pour les Documents Scannes
Pour les PDF scannés, les reçus photographies et les pièces jointes images (JPG, PNG), l'IA ne peut pas se fier uniquement au texte extrait -- car il n'y en a pas. BillyBox utilise des modeles de vision IA pour analyser l'image directement : est-ce une photo d'une vraie facture, ou juste un logo d'entreprise ? Un reçu scanné, ou un prospectus promotionnel ? La classification basée sur la vision détecte les non-factures qui echapperaient a l'analyse textuelle seule.
L'IA ne verifie pas simplement si un document mentionne de l'argent. Elle comprend le contexte : un email promotionnel disant "Economisez 50 EUR sur votre prochaine commande" n'est pas une facture. Un PDF avec un logo d'entreprise, un numero de facture, des lignes de detail et un total -- ça c'est une facture. Le modele evalue la structure complete du document, pas seulement les mots-clés.
Ce qui est filtre
En test avec de vraies boites utilisateurs, la classification IA filtre typiquement 40 a 70% des pièces jointes qui auraient precedemment encombre la file de révision :
Ce qui est conserve
L'IA est intentionnellement conservatrice dans son filtrage. En cas de doute, elle garde le document dans votre file plutot que de cacher une vraie facture. Ceux-ci passent toujours :
La philosophie est simple : il vaut mieux reviser un document en trop que de rater une vraie facture. L'IA gère le bruit evident ; vous prenez la decision finale sur tout le reste.
Pourquoi ne pas simplement utiliser l'OCR ou la correspondance de mots-clés ?
La correspondance de mots-clés ("est-ce que ça contient le mot facture ?") echoue parce que les emails marketing contiennent regulierement des mots comme "facture", "paiement" et "reçu" sans etre de vraies factures. Une newsletter disant "Consultez votre facture" avec un lien n'est pas une facture -- c'est une notification. Un PDF promotionnel intitule "Modele de facture" n'est pas votre facture.
L'OCR traditionnelle (Reconnaissance Optique de Caracteres) resout un problème different -- convertir les images en texte. Elle ne vous aide pas a déterminer si ce texte represente une facture ou un logo. BillyBox va plus loin : ses modeles de vision IA analysent la structure visuelle des documents scannés directement, comprenant la mise en page, les titres, les lignes de detail et les totaux comme le ferait un humain. Cela signifie que la classification et l'extraction de données se font en une seule passe -- pas d'etape OCR separee necessaire.
Confidentialite et coût
La classification IA ne traite que les metadonnees des documents et le texte extrait -- pas les fichiers PDF originaux. L'extraction de texte se fait d'abord localement sur nos serveurs, puis seul le contenu extrait est envoye au modele IA pour classification. Vos documents originaux restent au sein de l'infrastructure de BillyBox hebergee dans l'UE.
Le coût par classification est de fractions de centime, c'est pourquoi cette fonctionnalite est incluse dans tous les plans -- y compris le plan gratuit. Il n'y a pas de frais par page ou par document pour la classification IA.
Au-dela de la classification : extraction de données par IA
Les memes modeles IA qui classifient les pièces jointes extraient également des données structurees des factures. Pour les documents scannés et les images ou l'extraction de texte traditionnelle echoue, la vision IA lit le document visuellement et en extrait : nom de l'emetteur, montant, devise, date de facture, numero de facture, destinataire, description, montant de la taxe et sous-total. Cette même capacite de vision gère les reçus manuscrits -- l'IA lit les noms de fournisseurs, montants et dates manuscrits avec une precision raisonnable pour la plupart des styles d'ecriture courants. Chaque champ extrait inclut un score de confiance pour que vous sachiez quelles valeurs ont été lues avec certitude et lesquelles pourraient necessiter une verification rapide.
Toutes les données extraites sont modifiables en ligne -- si l'IA a mal lu un nom de fournisseur ou un montant, vous pouvez le corriger directement dans l'interface de révision sans quitter la page. Cela s'applique aux factures par email ainsi qu'aux documents importes manuellement (glisser-déposer PDF, XML, JPG ou PNG).
Le resultat : une file de révision propre
Avant la classification IA, connecter un email avec une boîte active signifiait reviser des centaines de pièces jointes non pertinentes. Maintenant, vous voyez principalement de vraies factures et reçus. Le bruit a disparu. La classification prend des minutes au lieu de la majeure partie d'une heure.
Combine avec le balayage pour classifier sur mobile et les raccourcis clavier sur ordinateur, le flux complet de l'email a l'export prêt pour le comptable est maintenant assez rapide pour etre fait sur une pause cafe.
Articles connexes
Essayez gratuitement
La classification et l'extraction IA de BillyBox sont incluses dans tous les plans, y compris le plan gratuit. Connectez votre Gmail, Outlook, Zoho ou tout email IMAP, récupérez un mois et voyez la difference -- une file propre de vraies factures, pas un mur de logos et PDF marketing. Vous pouvez aussi importer des factures manuellement via glisser-déposer.