Notebookcheck Logo

Whisper-Medusa est le nouveau modèle d'IA de reconnaissance vocale open-source d'aiOla, qui prétend être 50 % plus rapide que Whisper d'OpenAI

aiOla est une société basée en Israël qui utilise des solutions basées sur l'IA pour numériser les flux de travail sur papier. (Source de l'image : aiOla)
aiOla est une société basée en Israël qui utilise des solutions basées sur l'IA pour numériser les flux de travail sur papier. (Source de l'image : aiOla)
aiOla a lancé Whisper-Medusa, un modèle d'IA open-source conçu pour améliorer la reconnaissance automatique de la parole. Combinant Whisper d'OpenAI et la technologie d'aiOla, Whisper-Medusa prétend fonctionner 50 % plus vite que Whisper lui-même. Ce modèle prend en charge plus de 100 langues et transforme les données vocales non structurées en informations exploitables, ce qui laisse entrevoir des perspectives d'avenir dans des secteurs tels que l'aviation, la logistique et les soins de santé.

aiOla est une entreprise israélienne fondée en 2019 qui se spécialise dans les solutions basées sur l'IA pour numériser les flux de travail sur papier. L'entreprise a récemment présenté Whisper-Medusa, un modèle d'IA open-source qui est une combinaison de OpenAI's Whisper d'OpenAI et de la technologie d'aiOla. Il prétend fonctionner plus de 50 % plus vite tout en conservant une grande précision. Cette rapidité est obtenue grâce à une méthode unique de prédiction des jetons, qui prévoit dix jetons à la fois au lieu d'un seul, comme on peut le voir sur le site de l OpenAIwhisper.

Whisper-Medusa a été développé en utilisant une supervision faible. Ce processus implique l'utilisation de Whisper pour transcrire des ensembles de données audio, qui servent ensuite d'étiquettes pour entraîner les modules de prédiction de jetons de Medusa.

Whisper-Medusa pourrait s'avérer un atout majeur pour les entreprises qui utilisent encore des flux de travail sur papier dans leurs activités quotidiennes. La technologie d'aiOla, par l'intermédiaire de son système dorsal "aiOla Jargonic", peut aider les travailleurs de première ligne dans divers secteurs. Par exemple, dans l'industrie alimentaire, aiOla a rationalisé le contrôle de la qualité en transformant les listes de contrôle manuelles en flux de travail numériques. L'entreprise précise que l'ensemble du processus est "aussi simple que le téléchargement d'une photo ou d'un fichier de vos processus existants".

Prenant en charge plus de 100 langues et différents accents, Whisper-Medusa pourrait également être utile dans des secteurs tels que l'aviation, l'industrie alimentaire, la logistique et les soins de santé. En convertissant les données vocales non structurées en informations exploitables, les entreprises peuvent réduire leurs coûts et améliorer l'affectation des ressources.

Les personnes intéressées peuvent trouver les fichiers open-source sur Hugging Face et GitHub.

whisper-Medusa d'aiOla prétend être 50 % plus rapide que Whisper d'OpenAI. (Source de l'image : aiOla)
whisper-Medusa d'aiOla prétend être 50 % plus rapide que Whisper d'OpenAI. (Source de l'image : aiOla)

Source(s)

Please share our article, every link counts!
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2024 08 > Whisper-Medusa est le nouveau modèle d'IA de reconnaissance vocale open-source d'aiOla, qui prétend être 50 % plus rapide que Whisper d'OpenAI
Anubhav Sharma, 2024-08- 4 (Update: 2024-08- 4)