Google dévoile l'IA générative Lumiere pour créer des images et des vidéos plus réalistes à partir de textes
Google a dévoilé Lumiere, l'état de l'art en matière d'IA générative texte-image et vidéo réaliste. Le logiciel améliore considérablement le mouvement en utilisant une nouvelle approche de la génération d'images vidéo qui crée toutes les images en une seule fois afin d'atténuer les erreurs de mouvement.
L'IA générative d'images crée des images à partir de textes. L'une des clés de cette méthode est l'énorme quantité d'images et de vidéos en ligne disponibles pour la formation. Le développement de méthodes permettant d'associer tous les mots d'une langue les uns aux autres par le biais de vecteurs en est une autre. Ainsi, l'IA peut comprendre qu'une paire de mots, ou une phrase, "je suis" est plus probable que "je suis unilatéralement". L'IA de création d'images, telle que la diffusion stable, associe des mots à des images d'objets. Cette IA comprend que les mots "résidence royale" sont plus étroitement associés à une image de "château" qu'à une image de "maison".
L'IA vidéo générative étend l'IA d'image pour créer des vidéos à partir de texte. Les concurrents de Lumiere créent d'abord des images clés, puis les images intermédiaires. C'est comme si un maître animateur dessinait les images du début et de la fin d'un tir de basket, puis demandait à un assistant de dessiner les images entre les deux. Le problème est que des erreurs de mouvement se produisent souvent parce que les images intermédiaires ne sont pas dessinées correctement. Lumiere contourne ce problème en créant toutes les images vidéo sans images clés. De plus, Lumiere est formé pour savoir à quoi ressemblent les objets en mouvement à différentes tailles d'image, ce qui donne à ses vidéos un aspect supérieur.
Techniquement, Lumiere utilise des modèles probabilistes de diffusion pour générer des images couplées à un U-Net spatio-temporel, une architecture U-net avec une mise à l'échelle temporelle ascendante et descendante et des blocs d'attention ajoutés à la mise à l'échelle habituelle de la résolution de l'image. La réduction de l'échelle temporelle en même temps que la résolution réduit considérablement la charge de travail informatique, tandis que l'augmentation de l'échelle, associée à un modèle de super-résolution spatiale tenant compte du temps, génère une sortie à haute résolution. La segmentation des images étant nécessaire en raison des limitations de mémoire, la multidiffusion est utilisée à travers les limites des segments d'images qui se chevauchent afin d'atténuer les artefacts de mouvement temporel.
Lumiere peut être couplé à d'autres IA pour créer une gamme plus large de résultats. Cela inclut :
- Cinémagraphes - une section d'une image est animée
- Inpainting - un objet dans une vidéo est remplacé par un autre
- Génération stylisée - l'apparence est recréée dans un autre style artistique
- Image-vidéo - une image souhaitée est animée
- Vidéo à vidéo - les vidéos sont recréées dans un autre style artistique
La durée des vidéos est limitée à 5 secondes et la possibilité de créer des transitions vidéo et des angles de caméra multiples est inexistante. Les lecteurs désireux d'expérimenter l'IA générative sur leur ordinateur de bureau devraient s'équiper d'une carte vidéo puissante(comme celle-ci sur Amazon) pour obtenir les meilleures performances lors de l'entraînement.
Top 10
» Le Top 10 des PC portables multimédia
» Le Top 10 des PC portables de jeu
» Le Top 10 des PC portables de jeu légers
» Le Top 10 des ordinateurs portables bureautiques
» Le Top 10 des PC portables bureautiques premium/professionnels
» Le Top 10 des Stations de travail mobiles
» Le Top 10 des Ultraportables
» Le Top 10 des Ultrabooks
» Le Top 10 des Convertibles
» Le Top 10 des Tablettes
» Le Top 10 des Tablettes Windows
» Le Top 10 des Smartphones
» Le Top 10 des PC Portables á moins de 300 euros
» Le Top 10 des PC Portables á moins de 500 euros
» Le Top 25 des meilleurs écrans d'ordinateurs