OpenAI dévoile Sora, un modèle d'IA capable de générer des vidéos photoréalistes à partir d'invites textuelles

OpenAI présente Sora, qui permet de générer des textes et des vidéos photoréalistes (Source : OpenAI)

Sora, la dernière entreprise d'OpenAI, innove en matière d'IA en traduisant de manière transparente des messages textuels en vidéos réalistes. Malgré quelques imperfections mineures, la capacité de Sora à générer des scènes captivantes, allant de SUV vintage ralliant des montagnes à des monstres animés, démontre son potentiel dans le domaine de la narration visuelle. Le modèle est actuellement disponible pour quelques personnes triées sur le volet, qui le testent pour en vérifier la sécurité et les risques, ainsi que pour des artistes visuels et des créateurs, afin d'obtenir un premier retour d'information.

Sambit Saha (traduit par Ninh Duy), Publié 02/16/2024 🇺🇸 🇨🇳 ...

OpenAI a été un précurseur dans le domaine de l'IA grand public, révolutionnant la génération de textes et d'images, grâce à DALL-E et ChatGPT. Aujourd'hui, avec sa dernière offre, Soral'entreprise souhaite s'aventurer dans le domaine de la génération de texte à partir de vidéos, en tentant de repousser encore plus loin les limites de la créativité de l'IA.

Sora se targue de pouvoir produire des vidéos d'une durée maximale d'une minute, avec des scènes complexes mettant en scène "plusieurs personnages", des mouvements nuancés et des "arrière-plans détaillés", le tout guidé par des invites de l'utilisateur. Les résultats sont étonnamment réalistes et démontrent le potentiel indéniable de l'IA dans la narration visuelle.

Dans plusieurs démonstrations fournies par OpenAI, Sora donne vie aux messages sans effort. Qu'il s'agisse d'un SUV de collection naviguant sur un terrain montagneux ou d'une scène fantaisiste représentant un monstre pelucheux assis à côté d'une bougie en train de fondre, les vidéos générées montrent une fidélité remarquable aux instructions fournies.

Toutefois, Sora n'est pas exempt d'imperfections. Certains cas révèlent des incohérences mineures ou des mouvements irréalistes, mettant en évidence des points à améliorer, comme dans une scène où un chat demande le petit-déjeuner à son maître endormi. Bien que la scène globale soit rendue de manière convaincante, les observateurs attentifs peuvent remarquer des mouvements subtils qui s'écartent de la réalité lorsque le propriétaire se réveille. Cependant, ces défauts pâlissent en comparaison de la capacité globale du modèle à produire des récits visuels étonnants.

Un exemple frappant est la représentation d'un monstre duveteux à côté d'une bougie en train de fondre. Le résultat est vraiment splendide, comme sorti d'un film de Pixar. Les détails complexes, tels que la texture de la fourrure de la créature, qui auraient autrement été notoirement difficiles à rendre, mettent en évidence les prouesses de Sora dans le traitement d'éléments visuels complexes.

Actuellement, Sora est accessible à un groupe sélectionné de "red teamers" chargés d'évaluer les risques et les impacts potentiels. En outre, OpenAI collabore avec des artistes visuels, des concepteurs et des cinéastes afin de recueillir des commentaires visant à améliorer l'utilité globale du modèle pour les créateurs de contenu. Alors que Sora continue d'être affiné et évalué, il promet de démocratiser la création vidéo en offrant un outil puissant aux conteurs et aux créateurs pour les aider à donner vie à leurs visions.

Achetez l'ordinateur portable Samsung Galaxy Book3 sur Amazon