Nous le savons déjà Les chatbots d'OpenAI peut réussir l'examen du barreau sans aller à la faculté de droit. Aujourd'hui, juste à temps pour les Oscars, une nouvelle application OpenAI appelée Sora espère maîtriser le cinéma sans aller à l'école de cinéma. Pour l'instant un produit de recherche, Sora s'adresse à quelques créateurs sélectionnés et à un certain nombre d'experts en sécurité qui l'équiperont en fonction des vulnérabilités de sécurité. OpenAI prévoit de le rendre disponible à tous les auteurs en herbe à une date indéterminée, mais a décidé de le prévisualiser à l'avance.
D'autres sociétés, de géants comme Google aux startups comme Pistel'ont déjà révélé projets d'IA texte-vidéo. Mais OpenAI affirme que Sora se distingue par son photoréalisme saisissant (quelque chose que je n'ai pas vu chez ses concurrents) et par sa capacité à produire des clips plus longs que les brefs extraits que font généralement les autres modèles, jusqu'à une minute. Les chercheurs avec qui j'ai parlé ne diront pas combien de temps il faut pour restituer toute cette vidéo, mais lorsqu'ils ont été pressés, ils l'ont décrit comme étant plus une sorte de « sortir pour un burrito » qu'une « prise de quelques jours de congé ». Si l’on en croit les exemples triés sur le volet que j’ai vus, l’effort en vaut la peine.
OpenAI ne m'a pas permis de saisir mes propres invites, mais il partageait quatre instances du pouvoir de Sora. (Aucun n'a approché la prétendue limite d'une minute ; la plus longue était de 17 secondes.) La première provenait d'une invite détaillée qui ressemblait à une configuration obsessionnelle de scénariste : « La belle ville enneigée de Tokyo est animée. La caméra se déplace dans la rue animée de la ville, suivant plusieurs personnes profitant du beau temps enneigé et faisant leurs achats dans les stands à proximité. De magnifiques pétales de sakura volent dans le vent avec des flocons de neige.
Le résultat est une vision convaincante de ce qui est incontestablement Tokyo, dans ce moment magique où flocons de neige et fleurs de cerisier cohabitent. La caméra virtuelle, comme fixée à un drone, suit un couple qui déambule lentement dans un paysage urbain. L'un des passants porte un masque. Les voitures passent sur une route au bord de la rivière à leur gauche, et à droite les acheteurs entrent et sortent d'une rangée de petites boutiques.
Ce n'est pas parfait. Ce n'est qu'en regardant le clip plusieurs fois que l'on se rend compte que les personnages principaux – un couple se promenant sur le trottoir enneigé – auraient été confrontés à un dilemme si la caméra virtuelle avait continué à fonctionner. Le trottoir qu'ils occupent semble être une impasse ; ils auraient dû enjamber un petit garde-corps pour accéder à une étrange passerelle parallèle sur leur droite. Malgré ce léger problème, l’exemple de Tokyo constitue un exercice époustouflant de construction du monde. Plus tard, les décorateurs se demanderont s'il s'agit d'un collaborateur puissant ou d'un tueur d'emplois. De plus, les personnes dans cette vidéo, qui sont entièrement générées par un réseau neuronal numérique, ne sont pas montrées en gros plan et ne font aucune émotion. Mais l'équipe de Sora affirme que dans d'autres cas, ils ont eu de faux acteurs montrant de vraies émotions.
Les autres clips sont également impressionnants, notamment celui demandant « une scène animée d'un petit monstre pelucheux agenouillé à côté d'une bougie rouge », ainsi que des indications scéniques détaillées (« yeux grands ouverts et bouche ouverte ») et une description de l'ambiance souhaitée de le clip. Sora produit une créature de type Pixar qui semble avoir l'ADN d'un Furby, d'un Gremlin et de Sully dans Monsters Inc. Je me souviens que lorsque ce dernier film est sorti, Pixar avait beaucoup insisté sur la difficulté de créer le texture ultra-complexe de la fourrure d'un monstre alors que la créature se déplaçait. Il a fallu des mois à tous les sorciers de Pixar pour y parvenir. La nouvelle machine de conversion texte-vidéo d'OpenAI… vient de le faire.
« Il apprend la géométrie et la cohérence 3D », explique Tim Brooks, chercheur scientifique sur le projet, à propos de cette réalisation. « Nous n'avons pas intégré cela de manière intégrée, cela a simplement émergé de la visualisation d'un grand nombre de données. »
Même si les scènes sont certainement impressionnantes, les capacités les plus surprenantes de Sora sont celles pour lesquelles il n'a pas été entraîné. Propulsé par une version du modèle de diffusion utilisé par le générateur d'images Dalle-3 d'OpenAI ainsi que par le moteur basé sur un transformateur de GPT-4, Sora ne se contente pas de produire des vidéos qui répondent aux exigences des invites, mais le fait d'une manière qui montre une compréhension émergente de la grammaire cinématographique. .
Cela se traduit par un talent pour la narration. Dans une autre vidéo créée à partir d’une invite pour « un monde en papier magnifiquement rendu d’un récif de corail, regorgeant de poissons colorés et de créatures marines ». Bill Peebles, un autre chercheur sur le projet, note que Sora a créé une poussée narrative grâce à ses angles de caméra et à son timing. « Il y a en fait plusieurs changements de plans : ceux-ci ne sont pas assemblés, mais générés par le modèle en une seule fois », explique-t-il. « Nous ne lui avons pas demandé de faire cela, il l'a simplement fait automatiquement. »
Dans un autre exemple que je n'ai pas vu, Sora a été invité à faire visiter un zoo. « Cela a commencé avec le nom du zoo sur un grand panneau, progressivement réduit, puis il y a eu un certain nombre de changements de plans pour montrer les différents animaux qui vivent au zoo », explique Peebles. manière cinématographique qu'il n'avait pas été explicitement demandé de faire.
Une fonctionnalité de Sora que l'équipe OpenAI n'a pas montrée et qui ne sera peut-être pas publiée avant un certain temps, est la possibilité de générer des vidéos à partir d'une seule image ou d'une séquence d'images. « Cela va être une autre façon vraiment intéressante d'améliorer les capacités de narration », déclare Brooks. « Vous pouvez dessiner exactement ce que vous avez en tête, puis lui donner vie. » OpenAI est conscient que cette fonctionnalité a également le potentiel de produire des deepfakes et de la désinformation. « Nous allons être très prudents quant à toutes les implications en matière de sécurité », ajoute Peebles.