Selon une étude financée par Apple, les humains peuvent facilement être plus intelligents que l'IA
Au début du mois, une équipe de six scientifiques de l'IA, soutenue par Apple, a publié une étude dans laquelle ils ont présenté GSM-Symbolic, un nouveau point de référence de l'IA qui "permet des évaluations plus contrôlables, fournissant des informations clés et des mesures plus fiables pour mesurer les capacités de raisonnement des modèles" Malheureusement, il semble que les LLM soient encore sévèrement limités et qu'ils manquent des capacités de raisonnement les plus élémentaires, comme l'ont révélé les premiers tests effectués en utilisant GSM-Symbolic avec les moteurs d'IA d'icônes de l'industrie telles que Meta et OpenAI.
Le problème des modèles existants, tel qu'il ressort des tests susmentionnés, réside dans le manque de fiabilité des LLM lorsqu'ils sont soumis à des requêtes similaires. L'étude a conclu que de légers changements de formulation qui ne modifieraient pas le sens d'une requête pour un humain conduisent souvent à des réponses différentes de la part des robots d'IA. L'étude n'a pas mis en évidence de modèle qui se démarque.
"Plus précisément, les performances de tous les modèles diminuent [même] lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolique,"
concluent les chercheurs, qui ont également découvert que
"la fragilité du raisonnement mathématique dans ces modèles [démontre] que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente"
L'étude, qui compte 22 pages, peut être consultée à l'adresse suivante : https://arxiv.org/pdf/2410.05229 (fichier PDF). Les deux dernières pages contiennent des problèmes pour lesquels des informations non pertinentes ont été ajoutées à la fin, ce qui ne devrait pas modifier le résultat final pour un humain qui résoudrait le problème. Cependant, les modèles d'IA utilisés ont également pris en compte ces parties, fournissant ainsi des réponses erronées.
En conclusion, les modèles d'IA sont encore incapables d'aller au-delà de la reconnaissance des formes et manquent encore de capacités généralisables de résolution de problèmes. Cette année, plusieurs LLM ont été dévoilés, dont le Llama 3.1 de Meta AIde Meta AI, Nemotron-4 de Nvidiade Nvidia, Claude 3 d'Anthropicd'Anthropic, le modèle japonais Fugaku-LLM (le plus grand modèle jamais entraîné exclusivement à l'aide de la puissance du processeur), et Novade Rubik's AI, une famille de LLM qui a été dévoilée au début du mois.
Demain, O'Reilly publiera la première édition de Hands-On Large Language Models : Language Understanding and Generation, par Jay Alammar et Maarten Grootendorst. Son prix est de 48,99 $ (Kindle) ou 59,13 $ (livre de poche).
Source(s)
Top 10
» Le Top 10 des PC portables multimédia
» Le Top 10 des PC portables de jeu
» Le Top 10 des PC portables de jeu légers
» Le Top 10 des ordinateurs portables bureautiques
» Le Top 10 des PC portables bureautiques premium/professionnels
» Le Top 10 des Stations de travail mobiles
» Le Top 10 des Ultraportables
» Le Top 10 des Ultrabooks
» Le Top 10 des Convertibles
» Le Top 10 des Tablettes
» Le Top 10 des Tablettes Windows
» Le Top 10 des Smartphones
» Le Top 10 des PC Portables á moins de 300 euros
» Le Top 10 des PC Portables á moins de 500 euros
» Le Top 25 des meilleurs écrans d'ordinateurs