L'année dernière, Google a mis au point Imagen Video, une intelligence artificielle text-to-video. Le géant technologique poursuit ses avancées en dévoilant VideoPoet, un nouvel outil novateur qui permet également de créer des vidéos basées sur la saisie de texte. Néanmoins, derrière leur fonctionnement similaire, ces deux IA présentent des différences notables, aussi bien dans leur conception interne que dans les résultats obtenus. VideoPoet, le nouveau venu de Google, impressionne sur bien des aspects.
Une IA s'appuie sur un grand modèle de langage
Contrairement aux autres générateurs de vidéos tels que celui de Runway, VideoPoet de Google ne s'appuie pas sur des modèles pré-entraînés uniquement sur des images. Ces systèmes concurrents utilisent généralement une architecture modulaire, où l'intelligence artificielle est divisé en sous-systèmes spécialisés (traitement d'image, génération audio, etc.). Puis, ces derniers sont entraînés séparément et par la suite assemblées.
VideoPoet, lui, repose sur un modèle de langage uniqueà l'image des chatbots IA comme Bard ou ChatGPT. Cette approche unifiée permet d'optimiser l'entraînement de l'IA. Toutes les capacités de génération de vidéos de l'IA sont intégrés dans un seul modèle de langage. LLe modèle LLM peut ainsi apprendre à effectuer toutes les tâches de génération en même temps. Les chercheurs ont par ailleurs utilisé un ensemble de données massif provenant de différentes sources pour ancien le modèle. Le résultat ? Des vidéos cohérentes et visuellement attrayantes.
Présentation de VideoPoet, un grand modèle de langage pour la génération de vidéos sans prise de vue qui produit une gamme de mouvements larges et fluides tout en préservant l'apparence des objets sur plusieurs secondes. Apprenez-en plus et consultez une gamme d'exemples de vidéos générées → https://t.co/jdqehGruLE pic.twitter.com/sQ4z9D7l4O
– Google IA (@GoogleAI) 19 décembre 2023
Un large panel de fonctionnalités intéressantes
Les générateurs de vidéos par IA existants se basant sur la diffusion peinent à produire des vidéos avec des mouvements larges. Ces mouvements amplifier les artefacts visuels indésirable. VideoPoet de Google, en revanche, parvient à générer des vidéos contenant des mouvements beaucoup plus amples et fluides. Sa technologie lui permet d'offrir aux utilisateurs des résultats plus réalistes et agréables à regarder.
De plus, cette IA offre des fonctionnalités avancées d'édition et de retouche vidéo. Non seulement elle génère des vidéos à partir de texte, mais elle donne également à l'utilisateur la possibilité d'ajouter des effets stylistiques à la création. Il est aussi possible de réaliser de l'inpainting (remplissage de zones) ou de l'outpainting (extension du cadre de la vidéo) sur les séquences générées. L'utilisateur peut ainsi ajouter des détails visuels qui améliore le réalisme, ou agrandir l'arrière-plan d'une scène.
VideoPoet peut également générer des bandes sonores réalistes pour les vidéos et simulateur de plongée mouvements de caméra. Un autre atout majeur est la capacité de cette IA à créer des vidéos de longue durée en enchaînant plusieurs courts clips. L'utilisateur peut alors s'en servir pour réaliser différents types de contenu vidéo de long format comme des tutoriels, des clips musicaux ou encore des courts métrages. De plus, la flexibilité de VideoPoet permet de générer des vidéos au format portraitadapté à la consommation sur des plateformes telles que TIC Tac.
Enfin, les chercheurs ont comparé VideoPoet de Google à d'autres générateurs de vidéos en utilisant divers benchmarks, et il est apparu que cette nouvelle IA surpassait nettement ses concurrents en termes de qualité et de performances. VideoPoet semble détenir un potentiel considérable et pourrait influencer significativement l'industrie du cinéma, du divertissement et de l'e-commerce.