OpenAI o1 et o1-mini, des IA qui traitent mieux les questions relatives aux sciences de l'environnement que les modèles précédents

OpenAI o1 et o1-mini arrivent - des IA qui raisonnent mieux sur les questions STEM que les modèles précédents. (Source de l'image : générée par l'IA, Dall-E 3)

Les modèles OpenAI o1 et o1-mini sont arrivés, et ces LLM d'IA obtiennent de bien meilleurs résultats sur les problèmes et tâches de codage, de mathématiques et de sciences que les modèles précédents tels que GPT-4o, car ils prennent plus de temps pour réfléchir. Les modèles OpenAI o1 ne peuvent pas naviguer sur le web ou accepter des fichiers et des images téléchargés, ce qui constitue leur principale limite.

David Chien (traduit par Ninh Duy), Publié 09/16/2024 🇺🇸 🇪🇸 ...

AI Software

OpenAI o1 et o1-mini sont arrivés. Ces IA LLM obtiennent de bien meilleurs résultats que les modèles précédents, tels que GPT-4o, pour les problèmes et les tâches de codage, de mathématiques et de sciences, car elles prennent plus de temps pour réfléchir.

Les problèmes complexes dans le domaine des STIM ont tendance à exiger plus qu'une recherche rapide en ligne pour trouver les bonnes réponses. En donnant à l'IA o1 plus de temps pour réfléchir, l'IA peut raisonner avec plus de soin et de précision. Le modèle o1-mini a été spécialement mis au point pour répondre aux questions de STEM plus rapidement et en sollicitant moins les ressources de l'ordinateur.

Dans toute une série d'examens AP standardisés et de tests STEM pour les LLM, les modèles o1 sont très précis. Plus précisément, pour les examens AP Calculus, AP Chemistry, AP Physics 2, LSAT et SAT evidence-based reading & writing, les modèles o1 obtiennent des résultats égaux ou supérieurs au niveau B (~80 % ou plus). Les modèles répondent avec précision au niveau A aux questions de physique de niveau doctoral, au niveau B aux questions de mathématiques de l'American Invitational Mathematics Examination 2024, et au niveau B élevé aux problèmes de codage de Codeforces. Comme o1 a été réglé pour répondre à des questions de STIM, ses performances en langue et littérature anglaises AP sont au niveau C ou en dessous.

Il est intéressant de noter qu'alors que GPT-4o est abasourdi par le défi cryptographique consistant à décoder "oyekaijzdf aaptcg suaokybhai ouow aqht myznvaatzacdfoulxxz" lorsque l'indice "oyfjdnisdr rtqwainr acxz mynzbhhx" signifie "Pensez étape par étape", o1 n'a eu aucun mal à réfléchir au problème pour trouver la bonne réponse "Il y a trois r dans fraise". Ce nouveau pouvoir ravira les cryptographes amateurs à la maison ainsi que la NSA.

Les personnes mal intentionnées voudront savoir que si les modèles o1 non censurés sont susceptibles de donner des réponses troublantes, OpenAI a neutralisé ces modèles en vue de leur publication. Les modèles o1 ont été testés pour résister aux questions concernant la fabrication d'armes biologiques, la production d'images coquines, le jailbreak, le harcèlement et les menaces. Malheureusement, les modèles o1 d'OpenAI restent biaisés en termes de genre et de race lorsqu'ils sont testés, malgré les efforts de mise au point.

Les utilisateurs de ChatGPT Plus et Team ainsi que les développeurs de niveau 5 de l'API ont accès aux modèles o1 immédiatement, et les utilisateurs de ChatGPT Edu et Enterprise y auront accès dans la semaine du 16 septembre. Les utilisateurs de ChatGPT Free auront accès à o1-mini dans un futur proche. Les modèles o1 ne peuvent pas naviguer sur le web ou accepter des fichiers et des images téléchargés pour répondre aux questions. OpenAI recommande donc aux utilisateurs de continuer à utiliser leurs modèles GPT-4o pour les questions d'ordre général.

Les utilisateurs qui souhaitent poser des questions sur l'IA disposent désormais d'un large éventail de modèles LLM capables d'interagir avec eux, en plus de ceux de l OpenAIy compris Anthropic Claude, Microsoft CoPilot, Google Geminiet X Grok. Chaque IA présente des avantages spécifiques. Il est donc utile de tester plusieurs modèles d'IA pour trouver celui qui répond le mieux à vos besoins. Certaines de ces IA sont intégrées dans des lunettes intelligentes (comme celles-ci sur Amazon) et enregistreurs vocaux (comme celui-ci sur Amazon), et certains robots humanoïdes autonomes à venir utilisent des IA propriétaires pour cuisiner et nettoyer.

OpenAI o1 et o1-mini obtiennent des résultats légèrement inférieurs à ceux de GPT-4o pour les tâches d'écriture, mais bien meilleurs pour les tâches techniques telles que les mathématiques ou la programmation. (Source de l'image : OpenAI)

La série OpenAI o1 peut répondre correctement à des questions plus difficiles que GPT-4o, mais seulement en prenant beaucoup plus de temps pour répondre. (Source de l'image : OpenAI)

En programmant OpenAI o1 pour qu'il réfléchisse plus longtemps avant de répondre, l'IA LLM est capable de répondre à des questions difficiles mieux que les modèles précédents, y compris GPT-4o (Image source : OpenAI)

Avant d'être stérilisé, OpenAI o1-preview-pre-mitigation aimait se comporter de manière coquine. (Source de l'image : OpenAI)

Les modèles o1 de l'OpenAI restent biaisés en fonction du sexe et de la race, même après ajustement. (Source de l'image : OpenAI)

Bien que la série o1 d'OpenAI soit beaucoup plus performante pour créer des instructions sur les risques biologiques, ces capacités ont été supprimées dans les versions ultérieures. (Source de l'image : OpenAI)

OpenAI entrave les chasseurs d'emploi qui utilisent l'IA lors d'entretiens avec des programmeurs en réduisant la capacité de o1-mini et o1-preview à répondre du premier coup à une série de questions d'entretien d'OpenAI sur les ingénieurs de recherche. (Source de l'image : OpenAI)

Source(s)

Modèles OpenAI o1 Communiqué de presse OpenAI o1

▶ ▼ Communiqué de presse

12 septembre 2024

Présentation d'OpenAI o1-preview

Une nouvelle série de modèles de raisonnement pour résoudre des problèmes difficiles. Disponible à partir du 9.12

Nous avons développé une nouvelle série de modèles d'IA conçus pour passer plus de temps à réfléchir avant de répondre. Ils sont capables de raisonner à travers des tâches complexes et de résoudre des problèmes plus difficiles que les modèles précédents dans les domaines de la science, du codage et des mathématiques.

Aujourd'hui, nous publions le premier modèle de cette série dans ChatGPT et notre API. Il s'agit d'un aperçu et nous prévoyons des mises à jour et des améliorations régulières. Parallèlement à cette version, nous incluons également des évaluations pour la prochaine mise à jour, actuellement en cours de développement.

Comment cela fonctionne-t-il ?

Nous avons entraîné ces modèles à passer plus de temps à réfléchir aux problèmes avant de répondre, comme le ferait une personne. Grâce à cette formation, ils apprennent à affiner leur processus de réflexion, à essayer différentes stratégies et à reconnaître leurs erreurs.

Lors de nos tests, la prochaine mise à jour du modèle a obtenu des résultats similaires à ceux d'étudiants en doctorat sur des tâches de référence difficiles en physique, chimie et biologie. Nous avons également constaté qu'il excelle en mathématiques et en codage. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques (IMO), GPT-4o n'a résolu correctement que 13 % des problèmes, tandis que le modèle de raisonnement a obtenu un score de 83 %. Leurs capacités de codage ont été évaluées lors de concours et ont atteint le 89e percentile dans les compétitions Codeforces. Pour en savoir plus, consultez notre article sur la recherche technique.

En tant que modèle précoce, il ne dispose pas encore de la plupart des fonctionnalités qui rendent ChatGPT utile, comme la recherche d'informations sur le web et le téléchargement de fichiers et d'images. Pour de nombreux cas courants, GPT-4o sera plus performant à court terme.

Mais pour les tâches de raisonnement complexes, il s'agit d'une avancée significative qui représente un nouveau niveau de capacité de l'IA. C'est pourquoi nous remettons le compteur à 1 et nommons cette série OpenAI o1.

Sécurité

Dans le cadre du développement de ces nouveaux modèles, nous avons mis au point une nouvelle approche de formation à la sécurité qui exploite leurs capacités de raisonnement pour les faire adhérer aux lignes directrices en matière de sécurité et d'alignement. En étant capable de raisonner sur nos règles de sécurité dans leur contexte, ils peuvent les appliquer plus efficacement.

L'une des façons de mesurer la sécurité consiste à tester dans quelle mesure notre modèle continue à respecter ses règles de sécurité lorsqu'un utilisateur tente de les contourner (ce que l'on appelle le "jailbreaking"). Lors de l'un de nos tests de jailbreaking les plus difficiles, GPT-4o a obtenu un score de 22 (sur une échelle de 0 à 100), tandis que notre modèle o1-preview a obtenu un score de 84. Pour en savoir plus, consultez la carte système et notre article de recherche.

Pour répondre aux nouvelles capacités de ces modèles, nous avons renforcé notre travail de sécurité, notre gouvernance interne et notre collaboration avec le gouvernement fédéral. Cela inclut des tests et des évaluations rigoureuses à l'aide de notre Preparedness Framework(s'ouvre dans une nouvelle fenêtre), une équipe rouge de premier ordre et des processus d'examen au niveau du conseil d'administration, y compris par notre comité de sûreté et de sécurité.

Pour renforcer notre engagement en faveur de la sécurité de l'IA, nous avons récemment formalisé des accords avec les instituts de sécurité de l'IA des États-Unis et du Royaume-Uni. Nous avons commencé à rendre ces accords opérationnels, notamment en accordant aux instituts un accès anticipé à une version de recherche de ce modèle. Il s'agit d'une première étape importante de notre partenariat, qui a permis d'établir un processus de recherche, d'évaluation et de test des futurs modèles avant et après leur diffusion publique.

À qui s'adresse-t-il ?

Ces capacités de raisonnement améliorées peuvent être particulièrement utiles si vous vous attaquez à des problèmes complexes dans les domaines de la science, du codage, des mathématiques et d'autres domaines similaires. Par exemple, o1 peut être utilisé par les chercheurs en santé pour annoter les données de séquençage cellulaire, par les physiciens pour générer des formules mathématiques compliquées nécessaires à l'optique quantique, et par les développeurs de tous les domaines pour construire et exécuter des flux de travail à plusieurs étapes.

OpenAI o1-mini

La série o1 excelle dans la génération et le débogage précis de codes complexes. Afin d'offrir une solution plus efficace aux développeurs, nous lançons également OpenAI o1-mini, un modèle de raisonnement plus rapide et moins cher, particulièrement efficace pour le codage. En tant que modèle plus petit, o1-mini est 80% moins cher que o1-preview, ce qui en fait un modèle puissant et rentable pour les applications qui nécessitent un raisonnement mais pas une connaissance étendue du monde.

Comment utiliser OpenAI o1

Les utilisateurs de ChatGPT Plus et Team pourront accéder aux modèles o1 dans ChatGPT à partir d'aujourd'hui. Les modèles o1-preview et o1-mini peuvent être sélectionnés manuellement dans le sélecteur de modèle et, au lancement, les limites de taux hebdomadaires seront de 30 messages pour o1-preview et de 50 pour o1-mini. Nous travaillons à augmenter ces taux et à permettre à ChatGPT de choisir automatiquement le bon modèle pour un message donné.

Une image de la nouvelle liste déroulante de ChatGPT qui affiche la nouvelle option de modèle "o1-preview" sur un fond abstrait jaune et bleu

Les utilisateurs de ChatGPT Enterprise et Edu auront accès aux deux modèles à partir de la semaine prochaine.

Les développeurs qui se qualifient pour le niveau 5 d'utilisation de l'API (s'ouvre dans une nouvelle fenêtre) peuvent commencer à prototyper avec les deux modèles dans l'API dès aujourd'hui avec une limite de 20 RPM. Nous nous efforçons d'augmenter ces limites après des tests supplémentaires. L'API pour ces modèles n'inclut pas actuellement l'appel de fonctions, la diffusion en continu, la prise en charge des messages système et d'autres fonctionnalités. Pour commencer, consultez la documentation de l'API (s'ouvre dans une nouvelle fenêtre).

Nous prévoyons également d'offrir l'accès à o1-mini à tous les utilisateurs de ChatGPT Free.

Prochaines étapes

Il s'agit d'un premier aperçu de ces modèles de raisonnement dans ChatGPT et l'API. En plus des mises à jour des modèles, nous prévoyons d'ajouter la navigation, le téléchargement de fichiers et d'images, et d'autres fonctionnalités pour les rendre plus utiles à tous.

Nous prévoyons également de continuer à développer et à publier des modèles dans notre série GPT, en plus de la nouvelle série OpenAI o1.