Notebookcheck Logo

Google annonce les nouveaux modèles de langage visuel PaliGemma 2

Google annonce les nouveaux modèles de langage de vision PaliGemma 2 (Image Source : Google)
Google annonce les nouveaux modèles de langage de vision PaliGemma 2 (Image Source : Google)
Les modèles PaliGemma 2 de Google sont disponibles en plusieurs tailles et résolutions, et ils peuvent comprendre du texte, des images et des vidéos. Google vante également leur capacité à créer des légendes détaillées et contextuelles.

Google a annoncé la suite du modèle de langue visuelle PaliGemma lancé en mai 2024. PaliGemma 2 est disponible en plusieurs tailles allant de 3 milliards de paramètres à 28 milliards et en différentes résolutions allant jusqu'à 896px.

La société affirme que le modèle affiche "des performances de premier plan en matière de reconnaissance de formules chimiques, de reconnaissance de partitions musicales, de raisonnement spatial et de génération de rapports de radiographie thoracique"

Il dispose également de capacités de sous-titrage longues avec "des légendes détaillées et contextuelles pour les images, allant au-delà de la simple identification des objets pour décrire les actions, les émotions et la narration globale de la scène"

Les nouveaux modèles seront proposés en tant que "remplacement direct" dans plusieurs tailles sans "modifications majeures du code" Les modèles pré-entraînés sont disponibles sur Hugging Face et Kaggle et peuvent être téléchargés et testés gratuitement par tous. Il prend également en charge de nombreux cadres, notamment Hugging Face Transformers, Keras, PyTorch, JAX et Gemma.cpp.

Selon Google, la "flexibilité de PaliGemma 2 permet un réglage précis pour des tâches et des ensembles de données spécifiques, ce qui vous permet d'adapter ses capacités à vos besoins précis"

Source(s)

Please share our article, every link counts!
Mail Logo
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2024 12 > Google annonce les nouveaux modèles de langage visuel PaliGemma 2
Rohith Bhaskar, 2024-12- 6 (Update: 2024-12- 6)