Selon une étude financée par Apple, les humains peuvent facilement être plus intelligents que l'IA

Humains contre IA (Source de l'image : générée à partir de DALL-E 3)

Bien qu'ils donnent souvent des résultats impressionnants, les moteurs d'IA tels que ceux de Meta et d'OpenAI, qui utilisent de grands modèles de langage, manquent encore de capacités de raisonnement de base. Un groupe soutenu par Apple a proposé un nouveau critère de référence, qui a déjà révélé que les moindres changements de formulation d'une requête peuvent conduire à des réponses complètement différentes.

Codrut Nistor (traduit par Ninh Duy), Publié 10/14/2024 🇺🇸 🇩🇪 ...

AI Science Fail

Au début du mois, une équipe de six scientifiques de l'IA, soutenue par Apple, a publié une étude dans laquelle ils ont présenté GSM-Symbolic, un nouveau point de référence de l'IA qui "permet des évaluations plus contrôlables, fournissant des informations clés et des mesures plus fiables pour mesurer les capacités de raisonnement des modèles" Malheureusement, il semble que les LLM soient encore sévèrement limités et qu'ils manquent des capacités de raisonnement les plus élémentaires, comme l'ont révélé les premiers tests effectués en utilisant GSM-Symbolic avec les moteurs d'IA d'icônes de l'industrie telles que Meta et OpenAI.

Le problème des modèles existants, tel qu'il ressort des tests susmentionnés, réside dans le manque de fiabilité des LLM lorsqu'ils sont soumis à des requêtes similaires. L'étude a conclu que de légers changements de formulation qui ne modifieraient pas le sens d'une requête pour un humain conduisent souvent à des réponses différentes de la part des robots d'IA. L'étude n'a pas mis en évidence de modèle qui se démarque.

"Plus précisément, les performances de tous les modèles diminuent [même] lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolique,"

concluent les chercheurs, qui ont également découvert que

"la fragilité du raisonnement mathématique dans ces modèles [démontre] que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente"

L'étude, qui compte 22 pages, peut être consultée à l'adresse suivante : https://arxiv.org/pdf/2410.05229 (fichier PDF). Les deux dernières pages contiennent des problèmes pour lesquels des informations non pertinentes ont été ajoutées à la fin, ce qui ne devrait pas modifier le résultat final pour un humain qui résoudrait le problème. Cependant, les modèles d'IA utilisés ont également pris en compte ces parties, fournissant ainsi des réponses erronées.

En conclusion, les modèles d'IA sont encore incapables d'aller au-delà de la reconnaissance des formes et manquent encore de capacités généralisables de résolution de problèmes. Cette année, plusieurs LLM ont été dévoilés, dont le Llama 3.1 de Meta AIde Meta AI, Nemotron-4 de Nvidiade Nvidia, Claude 3 d'Anthropicd'Anthropic, le modèle japonais Fugaku-LLM (le plus grand modèle jamais entraîné exclusivement à l'aide de la puissance du processeur), et Novade Rubik's AI, une famille de LLM qui a été dévoilée au début du mois.

Demain, O'Reilly publiera la première édition de Hands-On Large Language Models : Language Understanding and Generation, par Jay Alammar et Maarten Grootendorst. Son prix est de 48,99 $ (Kindle) ou 59,13 $ (livre de poche).