Notebookcheck Logo

Hugging Face annonce la création d'un nouveau modèle de langage visuel open-source, SmolVLM

Hugging Face annonce le nouveau modèle de langage de vision open-source SmolVLM (Source d'image : Hugging Face)
Hugging Face annonce le nouveau modèle de langage de vision open-source SmolVLM (Source d'image : Hugging Face)
Hugging Face a introduit un modèle de langage de vision léger et open-source, SmolVLM, qui, selon l'entreprise, est conçu pour l'efficacité et la rapidité.

Hugging Face, un référentiel pour l'apprentissage automatique, les ensembles de données et les outils d'intelligence artificielle, a publié sur https://huggingface.co/blog/smolvlm un modèle de langage de vision open-source, léger et conçu pour être efficace et rapide. Les modèles de langage visuel (VLM) peuvent comprendre à la fois du texte et des données visuelles.

Le modèle est disponible pour une utilisation commerciale avec des pipelines d'entraînement ouverts, ce qui signifie que les ensembles de données, le code et les méthodes utilisés pour entraîner le modèle sont à la disposition du public. Hugging Face propose trois variantes du modèle : SmolVM-Base, SmolVM-Synthetic et SmolVM Instruct.

SmolVM-Base est conçu pour un réglage fin en aval, ce qui signifie qu'il peut être adopté et entraîné pour des tâches spécifiques. Synthetic est formé sur des données artificielles et n'utilise pas d'ensembles de données du monde réel, et Instruct peut être "utilisé tel quel pour des applications interactives d'utilisateurs finaux"

Selon Hugging Face, SmolVM ne nécessite que 5,7 Go de mémoire vive du GPU, ce qui le rend plus petit et plus efficace que des concurrents tels que PaliGemma 3B, InternVL2 2B et Qwen2-VL-2B. Cela lui permet de fonctionner sur des ordinateurs portables dotés d'une VRAM limitée.

Il est également plus efficace en termes de jetons que les autres modèles. Les jetons mesurent la vitesse et l'efficacité d'un modèle, et SmolVM peut encoder une image de 384x384 en 81 jetons, alors que Qwen2-VL utilise 16 000 jetons. Le modèle nécessite également moins de puissance de calcul et de mémoire vive pour fonctionner.

Hugging Face est et héberge une démo construite sur SmolVM-Instruct avec un script d'entraînement supervisé pour que tout le monde puisse l'essayer.

Please share our article, every link counts!
Mail Logo
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2024 12 > Hugging Face annonce la création d'un nouveau modèle de langage visuel open-source, SmolVLM
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)