Nous avons un article précédent les généralités sur Genie, l'IA de Google qui transforme les invitations textuelles en jeux vidéo 2D. Aujourd'hui, nous allons entrer dans les détails et décortiquer cette IA générative. Comment fonctionne-t-elle ? Quels sont ses avantages ? Y a-t-il des améliorations à apporter ? Explications !
Le pouvoir d'évasion et d'immersion dans un univers totalement étranger à notre réalité quotidienne fait partie des attraits fondamentaux du jeu vidéo. Imaginez maintenant que vous disposez de la capacité de concevoir vous-même ce monde imaginaire de toutes pièces. C'est précisément ce que permettra Genie, la nouvelle avancée technologique des scientifiques de Google Esprit profond. Grâce à cet outil révolutionnaire, vous aurez la possibilité de modeler et de donner vie à votre propre univers fictionnelaux paysages et ambiances aussi singuliers que ceux des jeux vidéo aux graphismes les plus marquants et travaillés.
Que faut-il savoir sur Génie ?
Le génie représente une nouvelle forme d'intelligence artificielle générative révolutionnaire. Elle permet à tout un chacun, même les plus jeunes, d'imaginer et d'explorer des mondes immersifs générés de manière similaire aux environnements simulés habituellement conçus par des créateurs humains. D'après un article que l'équipe de Google DeepMind a publié, sur simple instruction, cette nouvelle IA générative est capable de modéliser une grande diversité d'univers interactifs et contrôlables par l'utilisateur.
Alors que de nombreux modèles d'IA générative existants produisent déjà du contenu créatif sous forme de textes, d'images ou même de vidéos, avec Genie, Google a percé un nouveau domaine. C'est la toute première fois après ChatGPT, IA à mi-parcours ou Claude AI que l'intelligence artificielle peut générer non pas une image ni un textemais plutôt un environnement virtuel interactif.
Genie se démarque alors de ses avancées par son approche novatrice et unique. Plutôt que d'être entraîné par des instructions explicites, ce système d'intelligence artificielle de pointe apprend par l'observation grâce à un vaste ensemble de données vidéo non étiquetées. Son impressionnante base d'apprentissage comprend pas moins de 200 000 heures de séquences vidéo issues principalement de jeux de platesformes 2D.
En analysant et en discernant les schémas, les comportements et les interactions au sein de ces nombreuses vidéos, Génie parvient à transcender les limitations traditionnelles des IA génératives. Son processus d'apprentissage profond lui permet ainsi de généré des environnements de jeu immersifs et interactifs à partir d'un minimum d'éléments d'entrée fournis par l'utilisateur.
Pas besoin de tout un album, une seule image suffit !
Le point fort distinctif de Genie réside dans sa faculté inédite à modeler des univers virtuels jouables et interactifs intégralement nouveaux, en prenant pour unique point de départ une simple image d'entrée. Cette fonctionnalité ouvre la voie à de nouvelles manières de concevoir et d'explorer des mondes numériques immersifs.
Pour démontrer cette prouesse, les chercheurs de DeepMind ont utilisé une image générée par le modèle texte-vers-image Image 2 comme base pour créer un environnement virtuel complet explorable. Un simple croquis peut également servir de tremplin à Génie pour donner naissance à un univers jouable made in DeepMind.
Toujours d'après les équipes de Google DeepMind, leur IA ne se cantonne pas aux univers déjà connus. Au contraire, il peut au contraire être amené à générer des environnements virtuels à partir d'images totalement inédites pour lui. Que ce soit des photographies, des croquis ou toute autre représentation du monde réelGénie à la capacité de les transformer en terrains de jeu numériques interactifs dans lesquels l'utilisateur peut s'immerger et évoluer.
Cette aptitude à créer des « mondes de fondation » entièrement nouveaux à partir d'éléments visuels arbitraires démontre la grande polyvalence de Genie. Pour ce faire, le modèle a été entraîné selon une approche générique sur un vaste corpus de données vidéo provenant notamment de jeux de plateforme 2D et de simulations robotiques.
Le processus de génération de jeux sur Genie se décompose en trois phases distinctes aux rôles complémentaires. Il ya avant tout ce que l'on appelle le Video Tokenizer. Celui-ci joue un rôle de base et vient décomposer les données vidéo complexes en plus simples éléments et manipulables, des jetons en d'autres termes. Cette étape se réfère à la manière d'un chef qui prépare méticuleusement ses ingrédients.
Ce n'est qu'après la préparation des éléments que le modèle d'action latente analyser les transitions entre les images. C'est grâce à ce processus que Genie peut identifier les actions fondamentales au gameplay. Notamment certaines actions comme sauter, courir ou interagir avec les éléments. On peut le comparer à un fin connaisseur culinaire détectant les saveurs clés pour réussir un bon repas.
La troisième et dernière étape consiste à prédire les images suivantes en fonction des interactions courantes. C'est ce qui donne naissance à une expérience de jeu fluide et dynamique. On peut d'ailleurs comparer cette phase à un chef créatif orchestrant un plat.
Oui, Genie a un énorme potentiel et présente une avancée significative dans le domaine de l'intelligence artificielle et de l'IA générative. Mais comme tous les autres modèles, elle présente encore certaines limitations. À connaître la limitation de la qualité visuelle, mais aussi la restriction de l'accès.
Comme l'a souligné Jaspreet Bindra, fondateur de TechWhisperer UK : « l'IA générative est un outil créatif et générateur ultra-puissant qui peut démocratiser la programmation. Google a franchi une étape supplémentaire avec Genie AI pour créer des jeux 2D via des invite textuelles. Le niveau visuel n'égale pas encore les jeux existantsmais c'est un pas clair dans cette direction ».
Quand le génie fait face à un blocage…
Notons tout de même que Génie en est encore au stade de projet de recherche. Cette IA ne permet donc pas, pour l'instant, de générer des jeux vidéo de haute qualité visuelle.
Le modèle a en effet été entraîné sur des vidéos de très basse résolution (160 x 90 pixels) à seulement 10 images par seconde. En conséquence, les environnements virtuels générés souffriront de cette même limitation. Elles se limitent donc à une résolution indigente et un taux d'images par seconde très faible de 1 ips sur une durée maximale de 16 secondes.
Néanmoins, la preuve de concept a été réalisée avec succès par cette première version. On peut donc raisonnablement s'attendre à ce que les futures itérations de cette IA de Google, alimentées par des données vidéo de bien meilleure qualité et des capacités de calcul accumulées, permettre d'atteindre des résolutions visuelles et des performances nettement supérieures pour ces mondes virtuels générés par IA.
Pour l'heure, si l'idée est prometteuse, Genie reste un prototype de recherche aux résultats encore modestes en termes de rendu graphique et de fluidité de jeu. Mais les bases d’un outil révolutionnaire de construction du monde sont désormais posées.
- Partager l'article :
Notre blog est alimenté par les lecteurs. Lorsque vous achetez via des liens sur notre site, nous pouvons percevoir une commission d'affiliation.