Notebookcheck Logo

Mistral OCR convertit avec précision des documents complexes en fichiers modifiables grâce à l'IA

Mistral OCR utilise l'IA pour convertir avec précision les documents imprimés et PDF en fichiers modifiables. (Source de l'image : Mistral)
Mistral OCR utilise l'IA pour convertir avec précision les documents imprimés et PDF en fichiers modifiables. (Source de l'image : Mistral)
Mistral a dévoilé son API de reconnaissance optique de caractères à l'usage des entreprises pour convertir rapidement et avec précision de grandes quantités de documents en fichiers numériques modifiables.

Mistral a lancé un nouveau produit appelé Mistral OCR, une API de reconnaissance optique de caractères alimentée par l'IA et conçue pour exceller dans la conversion de documents imprimés en fichiers numériques.

Il existe des millions de documents imprimés et de fichiers PDF non modifiables, notamment d'anciens registres de naissance et livres. Les logiciels de reconnaissance optique de caractères convertissent le texte et la mise en page de ces documents en fichiers numériques éditables. Bien que les logiciels de reconnaissance optique de caractères convertissent facilement et avec précision les documents en texte simple, ils ont souvent des difficultés avec les tableaux et les graphiques complexes, ainsi qu'avec les langues étrangères.

Mistral OCR a été spécialement conçu pour la conversion de documents complexes et multilingues. La précision de Mistral sur la conversion de texte dans 11 langues varie de 97,00 % à 99,54 %, ce qui est supérieur aux performances des offres d'OCR AI de Microsoft et de Google. Sa précision est également supérieure à celle des concurrents testés pour les conversions de documents complexes, tels que ceux impliquant des mathématiques ou des tableaux.

L'API OCR de Mistral est actuellement limitée aux documents téléchargés d'une taille inférieure à 50 Mo et d'une longueur inférieure à 1 000 pages. Les documents imprimés doivent d'abord être numérisés par des scanners comme celui-ci sur Amazon, tandis que les fichiers PDF, les images et les sites web peuvent être traités directement.

L'OCR de Mistral est plus performant que ses concurrents sur les documents complexes. (Source de l'image : Mistral)
L'OCR de Mistral est plus performant que ses concurrents sur les documents complexes. (Source de l'image : Mistral)
L'OCR de Mistral gère mieux que ses concurrents la conversion de textes dans une douzaine de langues. (Source de l'image : Mistral)
L'OCR de Mistral gère mieux que ses concurrents la conversion de textes dans une douzaine de langues. (Source de l'image : Mistral)
Seules quelques lignes de code Python sont nécessaires pour utiliser l'API OCR de Mistral. (Source de l'image : Mistral)
Seules quelques lignes de code Python sont nécessaires pour utiliser l'API OCR de Mistral. (Source de l'image : Mistral)
 

Mistral OCR

Présentation de la meilleure API de compréhension de documents au monde.

Recherche

6 mars 2025

Équipe Mistral AI

Tout au long de l'histoire, les avancées en matière d'abstraction et de recherche d'informations ont été le moteur du progrès humain. Des hiéroglyphes aux papyrus, de la presse à imprimer à la numérisation, chaque avancée a rendu le savoir humain plus accessible et plus exploitable, alimentant ainsi l'innovation.

Aujourd'hui, nous sommes à l'aube du prochain grand bond en avant : libérer l'intelligence collective de toutes les informations numérisées. Environ 90 % des données organisationnelles mondiales sont stockées sous forme de documents, et pour exploiter ce potentiel, nous lançons Mistral OCR.

Mistral OCR est une API de reconnaissance optique de caractères qui établit une nouvelle norme en matière de compréhension des documents. Contrairement à d'autres modèles, Mistral OCR comprend chaque élément des documents - médias, textes, tableaux, équations - avec une précision et une connaissance sans précédent. Il prend des images et des PDF en entrée et extrait le contenu dans un entrelacement ordonné de textes et d'images.

Par conséquent, Mistral OCR est un modèle idéal à utiliser en combinaison avec un système RAG prenant des documents multimodaux (tels que des diapositives ou des PDF complexes) en entrée.

Nous avons fait de Mistral OCR le modèle par défaut pour la compréhension de documents parmi des millions d'utilisateurs sur Le Chat, et nous publions l'API mistral-ocr-latest à 1000 pages / $ (et environ le double de pages par dollar avec l'inférence par lots). L'API est disponible dès aujourd'hui sur notre suite de développeurs la Plateforme, et sera bientôt disponible pour nos partenaires cloud et d'inférence, ainsi que sur site.

Points forts

Compréhension de pointe des documents complexes

Nativement multilingue et multimodal

Critères de référence de premier ordre

Le plus rapide de sa catégorie

Doc-as-prompt, sortie structurée

Sélectivement disponible en auto-hébergement pour les organisations qui traitent des informations hautement sensibles ou classifiées

Voyons ce qu'il en est pour chacun d'entre eux.

Une compréhension de pointe des documents complexes

Mistral OCR excelle dans la compréhension des éléments de documents complexes, y compris les images entrelacées, les expressions mathématiques, les tableaux et les mises en page avancées telles que le formatage LaTeX. Le modèle permet une compréhension plus approfondie des documents riches tels que les articles scientifiques contenant des diagrammes, des graphiques, des équations et des figures.

Vous trouverez ci-dessous un exemple du modèle qui extrait du texte et des images d'un PDF donné dans un fichier markdown. Vous pouvez accéder au carnet de notes ici.

Vous trouverez ci-dessous des comparaisons côte à côte de PDF et de leurs résultats d'OCR respectifs. Survolez le curseur pour passer de l'entrée à la sortie.

Tableaux + Figures

3 Exemple

Résultat de l'OCR

3 Ocr

Mathématiques

4 Exemple

Résultat du ROC

4 Ocr

Hindi

5 Exemple

Résultat OCR

Ocr Hindi

Document

6 Exemple

Résultat OCR

6 Ocr

Arabe

7 Exemple

Résultat de l'OCR

OCR arabe

Des tests de référence de premier ordre

Mistral OCR a constamment surpassé d'autres modèles d'OCR de premier plan lors de tests de référence rigoureux. Sa précision supérieure dans de multiples aspects de l'analyse de documents est illustrée ci-dessous. Nous extrayons les images incorporées dans les documents en même temps que le texte. Les autres LLM comparés ci-dessous n'ont pas cette capacité. Pour une comparaison équitable, nous les évaluons sur notre ensemble de tests internes "texte seul" contenant divers documents de publication et des PDF provenant du Web ; ci-dessous :

Modèle Général Mathématiques Multilingue Numérisé Tableaux

Google Document AI 83,42 80,29 86,42 92,77 78,16

Azure OCR 89,52 85,72 87,52 94,65 89,52

Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48

Gemini-1.5-Pro-002 89,92 88,48 86,33 96,15 89,71

Gemini-2.0-Flash-001 88,69 84,18 85,80 95,11 91,46

GPT-4o-2024-11-20 89,77 87,55 86,00 94,58 91,70

Mistral OCR 2503 94,89 94,29 89,55 98,96 96,12

Nativement multilingue

Depuis la création de Mistral, nous aspirons à servir le monde avec nos modèles, et nous nous efforçons par conséquent d'offrir des capacités multilingues dans toutes nos offres. L'OCR Mistral franchit une nouvelle étape en étant capable d'analyser, de comprendre et de transcrire des milliers d'écritures, de polices de caractères et de langues sur tous les continents. Cette polyvalence est cruciale pour les organisations internationales qui traitent des documents provenant de milieux linguistiques différents, ainsi que pour les entreprises hyperlocales qui desservent des marchés de niche.

Modèle Fuzzy Match in Generation

Google-Document-AI 95.88

Gemini-2.0-Flash-001 96.53

Azure OCR 97.31

Mistral OCR 2503 99,02

Points de référence par langue :

Langue Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503

ru 97.35 95.56 96.58 99.09

fr 97.50 96.36 97.06 99.20

hi 96.45 95.65 94.99 97.55

zh 91.40 90.89 91.85 97.11

pt 97.96 96.24 97.25 99.42

de 98.39 97.09 97.19 99.51

es 98.54 97.52 97.75 99.54

tr 95.91 93.85 94.66 97.00

uk 97.81 96.24 96.70 99.29

it 98.31 97.69 97.68 99.42

ro 96.45 95.14 95.88 98.79

Le plus rapide de sa catégorie

Plus léger que la plupart des modèles de la catégorie, Mistral OCR est nettement plus rapide que ses homologues, traitant jusqu'à 2 000 pages par minute sur un seul nœud. La capacité à traiter rapidement les documents garantit un apprentissage et une amélioration continus, même dans les environnements à haut débit.

Doc-as-prompt, sortie structurée

Mistral OCR introduit également l'utilisation de documents en tant qu'invites, ce qui permet d'obtenir des instructions plus puissantes et plus précises. Cette capacité permet aux utilisateurs d'extraire des informations spécifiques des documents et de les formater dans des sorties structurées, telles que JSON. Les utilisateurs peuvent enchaîner les sorties extraites dans des appels de fonction en aval et des agents de construction. Voyez cet exemple de carnet de notes.

Disponible en auto-hébergement sur une base sélective

Pour les organisations ayant des exigences strictes en matière de confidentialité des données, Mistral OCR offre une option d'auto-hébergement. Cette option garantit que les informations sensibles ou classifiées restent en sécurité au sein de votre propre infrastructure, assurant ainsi la conformité avec les normes réglementaires et de sécurité. Si vous souhaitez explorer l'auto-déploiement avec nous, n'hésitez pas à nous le faire savoir.

Cas d'utilisation

Nous donnons à nos clients bêta les moyens d'améliorer leurs connaissances organisationnelles en transformant leurs vastes dépôts de documents en actions et en solutions. Voici quelques-uns des principaux cas d'utilisation où notre technologie a un impact significatif :

Numérisation de la recherche scientifique : Les principaux instituts de recherche ont expérimenté l'OCR de Mistral pour convertir des articles et des revues scientifiques dans des formats prêts pour l'IA, les rendant ainsi accessibles aux moteurs d'intelligence en aval. Cela a permis d'accélérer considérablement la collaboration et les flux de travail scientifiques.

Préservation du patrimoine historique et culturel : Les organisations et les associations à but non lucratif qui sont les gardiennes du patrimoine ont utilisé Mistral OCR pour numériser des documents et des artefacts historiques, assurant ainsi leur préservation et les rendant accessibles à un public plus large.

Rationalisation du service à la clientèle : Les services clients utilisent Mistral OCR pour transformer la documentation et les manuels en connaissances indexées, ce qui permet de réduire les temps de réponse et d'améliorer la satisfaction des clients.

Rendre la littérature dans les domaines de la conception, de l'éducation, du droit, etc. Prêts pour l'IA : Mistral OCR aide également les entreprises à convertir la littérature technique, les dessins techniques, les notes de cours, les présentations, les dossiers réglementaires et bien d'autres choses encore en formats indexés et prêts à répondre, libérant ainsi l'intelligence et la productivité de millions de documents.

Faites-en l'expérience dès aujourd'hui

Les fonctionnalités OCR de Mistral peuvent être essayées gratuitement sur le Chat. Pour essayer l'API, rendez-vous sur la Plateforme. Nous serions ravis de recevoir vos commentaires ; attendez-vous à ce que le modèle continue de s'améliorer dans les semaines à venir. Dans le cadre de nos programmes d'engagement stratégique, nous proposerons également un déploiement sur site sur une base sélective.

Please share our article, every link counts!
Mail Logo
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2025 03 > Mistral OCR convertit avec précision des documents complexes en fichiers modifiables grâce à l'IA
David Chien, 2025-03-11 (Update: 2025-03-11)