Notebookcheck Logo

xAI lance Grok-2 et Grok-2 mini beta AI LLMs sur ???? avec l'API d'entreprise qui arrivera plus tard ce mois-ci

xAI lance Grok-2 et Grok-2 mini beta AI LLMs sur X avec l'API d'entreprise qui arrivera plus tard ce mois-ci. (Source de l'image : xAI)
xAI lance Grok-2 et Grok-2 mini beta AI LLMs sur X avec l'API d'entreprise qui arrivera plus tard ce mois-ci. (Source de l'image : xAI)
xAI a publié Grok-2 et Grok-2 mini beta AI LLMs sur X avec l'API d'entreprise qui arrivera plus tard ce mois-ci. Grok-2 s'est classé parmi les quatre modèles à grand langage les plus puissants du classement LMSYS et parmi les six premiers d'une série de tests de référence normalisés en matière d'IA.

xAI a publié Grok-2 et Grok-2 mini beta AI large-language models (LLMs) sur X avec l'API d'entreprise qui arrivera plus tard ce mois-ci. Les capacités de génération d'images de Grok-2 ont également été étendues avec l'intégration de FLUX.1 AI de Black Forest Labs. La deuxième version arrive près de neuf mois après la version initiale, en novembre 2023, et est immédiatement disponible pour les abonnés Premium et Premium+ X dans le cadre d'un test bêta. L'accès API aux LLM Grok-2 sera disponible dans le courant du mois.

xAI est une startup spécialisée dans le développement de l'IA, lancée par Elon Musk, propriétaire de X (anciennement Twitter). L'entreprise a lancé son premier LLM en 2023, qui a été intégré au service X pour fournir des capacités d'IA. Grok-1 a été conçu de manière à ne pas être aussi fâché, censuré ou ennuyeux que les LLM concurrents tels que GPT-4o d'OpenAI. De tels biais affectent les réponses de tous les LLM d'IA utilisés aujourd'hui pour les services de chatbot, ce qui se traduit par des préjugés raciaux ou même des réponses absurdes. Il est important de noter que Grok-1 a été publié en tant que free 296 GB downloadgrok-1 est l'un des rares LLM les plus performants à avoir été mis à disposition sous forme de logiciel libre.

Au cours de l'année écoulée, des progrès significatifs ont été réalisés dans les performances des LLM. Les dernières versions, telles que OpenAI GPT-4o et Anthropic Claude 3.5 Sonnets'accompagnent d'un élargissement des connaissances et d'une amélioration des performances. Les lecteurs qui aiment utiliser l'IA peuvent porter des Lunettes d'IA(comme celles-ci sur Amazon) pour planifier leur journée Les robots humanoïdes IA prendront en charge les tâches ménagères.

Selon les tests internes de xAI, Grok-2 et Grok-2 mini beta se classent tous deux parmi les meilleurs LLM du monde. xAI n'a pas fourni de tests comparatifs entre la dernière version de Grok et les derniers LLM concurrents. Néanmoins, Grok-2 s'est classé parmi les quatre LLM les plus puissants dans le classement des chatbots de LMSYS et parmi les six premiers dans une série de critères d'évaluation normalisés de l'IA.

Plus précisément, une version d'OpenAI GPT-4o datant d'août dépasse une première version de Grok-2 au classement, tandis que Anthropic Claude 3.5 Sonnet, dont la date est inconnue, est derrière Grok-2. Sur huit critères d'évaluation standardisés, l'ancienne version de mai de GPT-4o bat Grok-2 quatre fois sur huit, tandis que Claude 3.5 Sonnet bat Grok-2 six fois sur huit.

Grok-2 et Grok-2 mini beta sont intégrés à X et peuvent être utilisés dès aujourd'hui par les comptes Premium et Premium+. (Source de l'image : xAI)
Grok-2 et Grok-2 mini beta sont intégrés à X et peuvent être utilisés dès aujourd'hui par les comptes Premium et Premium+. (Source de l'image : xAI)
Grok peut répondre à des questions sur une grande variété de sujets et de photos. (Source de l'image : xAI)
Grok peut répondre à des questions sur une grande variété de sujets et de photos. (Source de l'image : xAI)
Grok-2 fait partie des LLM d'IA les plus performants au monde selon le LMSys Leaderboard. (Source de l'image : xAI)
Grok-2 fait partie des LLM d'IA les plus performants au monde selon le LMSys Leaderboard. (Source de l'image : xAI)
Sur huit critères de référence en matière d'IA, Grok-2 et Grok-2 mini se classent parmi les six meilleurs LLM d'IA au monde. (Source de l'image : xAI)
Sur huit critères de référence en matière d'IA, Grok-2 et Grok-2 mini se classent parmi les six meilleurs LLM d'IA au monde. (Source de l'image : xAI)
Flux.1, une IA générative d'images de Black Forest Labs, a été intégrée à Grok-2 pour créer des images à partir de textes. (Source de l'image : Black Forest Labs)
Flux.1, une IA générative d'images de Black Forest Labs, a été intégrée à Grok-2 pour créer des images à partir de textes. (Source de l'image : Black Forest Labs)

13 août 2024
Grok-2 Beta Release

Grok-2 est notre modèle de langage d'avant-garde avec des capacités de raisonnement de pointe. Cette version comprend deux membres de la famille Grok : Grok-2 et Grok-2 mini. Ces deux modèles sont désormais mis à la disposition des utilisateurs de Grok sur la plate-forme X.

Nous sommes ravis de publier un premier aperçu de Grok-2, qui représente une avancée significative par rapport à notre modèle précédent, Grok-1.5, et qui offre des fonctionnalités de pointe en matière de chat, de codage et de raisonnement. En même temps, nous présentons Grok-2 mini, un petit frère de Grok-2. Une première version de Grok-2 a été testée sur le leaderboard de LMSYS sous le nom de "sus-column-r" Au moment de la rédaction de ce billet de blog, ses performances sont supérieures à celles de Claude 3.5 Sonnet et de GPT-4-Turbo.

Grok-2 et Grok-2 mini sont actuellement en version bêta sur X, et nous rendrons également ces deux modèles disponibles via notre API d'entreprise dans le courant du mois.
Modèle de langage Grok-2 et capacités de chat

Nous avons introduit une première version de Grok-2 sous le nom de "sus-column-r" dans l'arène des chatbots LMSYS, un benchmark de modèles de langage compétitif très populaire. Elle surpasse Claude et GPT-4 dans le classement LMSYS en termes de score Elo global.

En interne, nous utilisons un processus comparable pour évaluer nos modèles. Nos tuteurs IA s'engagent avec nos modèles dans une variété de tâches qui reflètent les interactions réelles avec Grok. Au cours de chaque interaction, les tuteurs IA se voient présenter deux réponses générées par Grok. Ils sélectionnent la meilleure réponse sur la base de critères spécifiques décrits dans nos lignes directrices. Nous nous sommes concentrés sur l'évaluation des capacités du modèle dans deux domaines clés : suivre des instructions et fournir des informations précises et factuelles. Grok-2 a montré des améliorations significatives dans le raisonnement avec le contenu récupéré et dans ses capacités d'utilisation des outils, telles que l'identification correcte des informations manquantes, le raisonnement à travers les séquences d'événements et l'élimination des messages non pertinents.
Repères

Nous avons évalué les modèles Grok-2 à travers une série de repères académiques qui comprenaient le raisonnement, la compréhension de la lecture, les mathématiques, les sciences et le codage. Grok-2 et Grok-2 mini présentent tous deux des améliorations significatives par rapport à notre précédent modèle Grok-1.5. Ils atteignent des niveaux de performance compétitifs par rapport à d'autres modèles frontières dans des domaines tels que les connaissances scientifiques de niveau supérieur (GPQA), les connaissances générales (MMLU, MMLU-Pro) et les problèmes de compétition en mathématiques (MATH). En outre, Grok-2 excelle dans les tâches basées sur la vision, offrant des performances de pointe dans le raisonnement mathématique visuel (MathVista) et dans la réponse à des questions basées sur des documents (DocVQA).

Benchmark Grok-1.5 Grok-2 mini‡ Grok-2‡ GPT-4 Turbo* Claude 3 Opus† Gemini Pro 1.5 Llama 3 405B GPT-4o* Claude 3.5 Sonnet†
GPQA
35,9 % 51,0 % 56,0 % 48,0 % 50,4 % 46,0 % 48,0 % 48,0 % 50,4 % 46,0 %.0% 48,0% 50,4% 46,2% 51,1% 53,6% 59,6%
MMLU
81,3% 86,2% 87,5% 86,5% 85,7% 85,9% 88,6% 88,7% 88,3%
MMLU-Pro
51,0% 72,0% 75,5% 63.7% 68,5% 69,0% 73,3% 72,6% 76,1%
MATH§
50,6% 73,0% 76,1% 72,6% 60,1% 67,7% 73,8% 76,6% 71,1%
HumanEval¶
74,1% 85,7% 88,4% 87.1% 84,9% 71,9% 89,0% 90,2% 92,0%
MMMU
53,6% 63,2% 66,1% 63,1% 59,4% 62,2% 64,5% 69,1% 68,3%
MathVista
52,8% 68,1% 69,0% 58,1% 50.5% 63,9% - 63,8% 67,7%
DocVQA
85,6% 93,2% 93,6% 87,2% 89,3% 93,1% 92,2% 92,8% 95,2%

* Les scores GPT-4-Turbo et GPT-4o sont ceux de la version de mai 2024.
† Les scores Claude 3 Opus et Claude 3.5 Sonnet proviennent de la version de juin 2024.
‡ Grok-2 MMLU, MMLU-Pro, MMMU et MathVista ont été évalués en utilisant 0-shot CoT.
§ Pour MATH, nous présentons les résultats de maj@1.
¶ Pour HumanEval, nous présentons les résultats de benchmark pass@1.
Découvrez Grok avec des informations en temps réel sur X

Au cours des derniers mois, nous avons continuellement amélioré Grok sur la plateforme X. Aujourd'hui, nous présentons la prochaine version de Grok. Aujourd'hui, nous présentons la prochaine évolution de l'expérience Grok, avec une interface redessinée et de nouvelles fonctionnalités.

Logo Black Forest Labs.

Les utilisateurs de X Premium et Premium+ auront accès à deux nouveaux modèles : Grok-2 et Grok-2 mini. Grok-2 est notre assistant IA de pointe, doté de capacités avancées de compréhension du texte et de la vision, intégrant des informations en temps réel provenant de la plateforme X et accessibles via l'onglet Grok de l'application X. Grok-2 mini est notre modèle petit mais performant qui offre un équilibre entre la vitesse et la qualité des réponses. Par rapport à son prédécesseur, Grok-2 est plus intuitif, plus facile à diriger et plus polyvalent dans un large éventail de tâches, que vous cherchiez des réponses, collaboriez à la rédaction d'un texte ou résolviez des tâches de codage. En collaboration avec Black Forest Labs, nous expérimentons leur modèle FLUX.1 pour étendre les capacités de Grok sur X. Si vous êtes un abonné Premium ou Premium+, assurez-vous de mettre à jour la dernière version de l'application X ; afin de tester Grok-2.
Créez avec Grok en utilisant l'API d'entreprise

Nous mettons également Grok-2 et Grok-2 mini à la disposition des développeurs via notre nouvelle plateforme API d'entreprise dans le courant du mois. Notre prochaine API est construite sur une nouvelle pile technologique sur mesure qui permet des déploiements d'inférence multirégionaux pour un accès à faible latence dans le monde entier. Nous offrons des fonctions de sécurité améliorées telles que l'authentification multi-facteurs obligatoire (par exemple en utilisant un Yubikey, Apple TouchID, ou TOTP), des statistiques de trafic riches, et des analyses de facturation avancées (y compris des exportations de données détaillées). Nous proposons également une API de gestion qui vous permet d'intégrer la gestion des équipes, des utilisateurs et de la facturation dans vos outils et services internes existants. Inscrivez-vous à notre newsletter pour être informé de notre lancement dans le courant du mois.
Quelle est la suite ?

Grok-2 et Grok-2 mini sont en cours de déploiement sur X. Nous sommes très enthousiastes quant à leurs applications à une gamme de fonctionnalités basées sur l'IA, telles que des capacités de recherche améliorées, l'obtention d'informations plus approfondies sur les messages de X et des fonctions de réponse améliorées, toutes alimentées par Grok. Bientôt, nous publierons un aperçu de la compréhension multimodale en tant qu'élément central de l'expérience Grok sur X et API.

Depuis l'annonce de Grok-1 en novembre 2023, xAI a progressé à un rythme extraordinaire, sous l'impulsion d'une petite équipe dotée de la plus grande densité de talents. Nous avons introduit Grok-2, ce qui nous positionne à l'avant-garde du développement de l'IA. Nous nous concentrons sur l'amélioration des capacités de raisonnement de base grâce à notre nouvelle grappe de calcul. Nous aurons beaucoup d'autres développements à partager dans les mois à venir. Nous recherchons des personnes pour rejoindre notre petite équipe dédiée à la mise au point des innovations les plus impactantes pour l'avenir de l'humanité. Posez votre candidature à nos postes ici.

Please share our article, every link counts!
Mail Logo
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2024 08 > xAI lance Grok-2 et Grok-2 mini beta AI LLMs sur ???? avec l'API d'entreprise qui arrivera plus tard ce mois-ci
David Chien, 2024-08-16 (Update: 2024-08-16)