Lumiere de Google rapproche la vidéo IA du réel à l’irréel

Dans cette catégorie

Ceci pourrait vous plaire

Lumiere de Google rapproche la vidéo IA du réel à l’irréel

Le nouveau modèle d’IA de génération vidéo de Google, Lumiere, utilise un nouveau modèle de diffusion appelé Space-Time-U-Net, ou STUNet, pour créer des vidéos. Ce modèle détermine où se trouvent les éléments dans une vidéo (espace) et comment ils se déplacent et changent simultanément (temps). Contrairement aux méthodes traditionnelles qui rassemblent des images fixes pour créer une vidéo, Lumiere crée la vidéo en un seul processus.

Lumiere commence par créer un cadre de base à partir de l’invite donnée. Ensuite, il utilise le modèle STUNet pour approximer le mouvement des objets dans cette image et créer d’autres images qui s’enchaînent les unes avec les autres, créant ainsi l’apparence d’un mouvement fluide. Lumiere génère également 80 images, contre 25 pour les méthodes précédentes telles que Stable Video Diffusion.

La génération de vidéos par l’IA a évolué rapidement ces dernières années, passant d’une apparence étrange à une apparence presque réaliste. Lumiere entre sur le marché déjà occupé par des concurrents tels que Runway, Stable Video Diffusion et Meta’s Emu. Runway, par exemple, a lancé Runway Gen-2 l’année dernière, permettant de créer des vidéos plus réalistes.

Google a publié des extraits et des invites sur le site Lumiere pour permettre aux utilisateurs de comparer les résultats avec d’autres plateformes, telles que Runway. Les résultats montrent que certaines vidéos générées par Lumiere ont une touche d’artificialité, mais certaines scènes, comme celle d’une tortue se déplaçant dans l’eau, sont impressionnantes et ressemblent à de vraies images. Dans certains cas, les vidéos générées par Lumiere peuvent être confondues avec des CGI (Computer Generated Imagery).

Contrairement à d’autres modèles qui utilisent des images clés pour créer des vidéos, Lumiere se concentre sur le mouvement lui-même et prédit où le contenu généré devrait se trouver à un moment donné dans la vidéo. Google a progressivement développé des modèles d’IA plus avancés et s’est tourné vers une approche multimodale, notamment avec son modèle de langage Gemini qui permettra à terme la génération d’images.

Lumiere permettra également d’autres fonctionnalités telles que la génération d’images en vidéo, la génération stylisée pour créer des vidéos dans un style spécifique, les cinémagraphes qui animent uniquement une partie de la vidéo, et l’inpainting pour masquer une zone de la vidéo et en changer la couleur ou le motif.

Cependant, Google reconnaît également les risques d’utilisation abusive de cette technologie pour créer du contenu faux ou nuisible. Ils soulignent l’importance de développer et d’appliquer des outils de détection des préjugés et des utilisations malveillantes afin d’assurer la sécurité et l’équité dans l’utilisation de cette technologie. Les détails sur la manière dont cela sera réalisé n’ont pas été donnés dans l’article.

LAISSER UNE REPONSE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici