Collaboration avec YouTube pour optimiser la compression vidéo dans le codec open source VP9.
En 2016, nous avons introduit AlphaGo, le premier programme d'intelligence artificielle à vaincre les humains à l'ancien jeu de Go. Ses successeurs, AlphaZéro et puis MuZéro, chacun représentait un pas en avant significatif dans la recherche d’algorithmes à usage général, maîtrisant un plus grand nombre de jeux avec encore moins de connaissances prédéfinies. MuZero, par exemple, maîtrisait les échecs, le go, le shogi et l'Atari sans avoir besoin de connaître les règles. Mais jusqu’à présent, ces agents se sont concentrés sur la résolution de jeux. Aujourd'hui, dans la poursuite de la mission de DeepMind consistant à résoudre les problèmes d'intelligence, MuZero a fait un premier pas vers la maîtrise d'une tâche du monde réel en optimisant la vidéo sur YouTube.
Dans un prépublication publiée sur arXivnous détaillons notre collaboration avec YouTube pour explorer le potentiel de MuZero pour améliorer la compression vidéo. Les analystes prédisaient que la vidéo en streaming aura représenté la grande majorité du trafic Internet en 2021. Avec l’essor de la vidéo pendant la pandémie de COVID-19 et le volume total du trafic Internet qui devrait augmenter à l’avenir, la compression vidéo est un problème de plus en plus important – et un problème naturel. domaine pour appliquer l'apprentissage par renforcement (RL) pour améliorer l'état de l'art dans un domaine difficile. Depuis le lancement de la production sur une partie du trafic en direct de YouTube, nous avons démontré une réduction moyenne du débit binaire de 4 % sur un ensemble vaste et diversifié de vidéos.
La plupart des vidéos en ligne s'appuient sur un programme appelé codec pour compresser ou encoder la vidéo à sa source, la transmettre sur Internet au spectateur, puis la décompresser ou la décoder pour la lecture. Ces codecs prennent plusieurs décisions pour chaque image d'une vidéo. Des décennies d'ingénierie manuelle ont été consacrées à l'optimisation de ces codecs, qui sont responsables de nombreuses expériences vidéo désormais possibles sur Internet, notamment la vidéo à la demande, les appels vidéo, les jeux vidéo et la réalité virtuelle. Cependant, comme RL est particulièrement bien adapté aux problèmes de prise de décision séquentielle comme ceux des codecs, nous explorons comment un algorithme appris par RL peut aider.
Notre objectif initial est le codec VP9 (en particulier la version open source libvpx), car il est largement utilisé par YouTube et d'autres services de streaming. Comme pour les autres codecs, les fournisseurs de services utilisant VP9 doivent réfléchir au débit binaire, c'est-à-dire au nombre de uns et de zéros requis pour envoyer chaque image d'une vidéo. Le débit binaire est un déterminant majeur de la quantité de calcul et de bande passante nécessaire pour diffuser et stocker des vidéos, affectant tout, du temps de chargement d'une vidéo à sa résolution, sa mise en mémoire tampon et son utilisation des données.
Dans VP9, le débit binaire est optimisé le plus directement via le paramètre de quantification (QP) dans le module de contrôle de débit. Pour chaque image, ce paramètre détermine le niveau de compression à appliquer. Étant donné un débit binaire cible, les QP pour les images vidéo sont décidés séquentiellement afin de maximiser la qualité vidéo globale. Intuitivement, des débits binaires plus élevés (QP plus faible) devraient être alloués aux scènes complexes et des débits binaires plus faibles (QP plus élevé) devraient être alloués aux scènes statiques. L'algorithme de sélection QP explique comment la valeur QP d'une image vidéo affecte l'allocation de débit binaire du reste des images vidéo et la qualité vidéo globale. RL est particulièrement utile pour résoudre un tel problème de prise de décision séquentielle.
MuZero atteint des performances surhumaines dans diverses tâches en combinant la puissance de la recherche avec sa capacité à apprendre un modèle de l'environnement et à planifier en conséquence. Cela fonctionne particulièrement bien dans les grands espaces d’action combinatoires, ce qui en fait une solution idéale pour le problème du contrôle du débit dans la compression vidéo. Cependant, pour que MuZero fonctionne sur cette application du monde réel, il faut résoudre un tout nouvel ensemble de problèmes. Par exemple, l'ensemble des vidéos téléchargées sur des plateformes telles que YouTube varie en termes de contenu et de qualité, et tout agent doit généraliser les vidéos, y compris les vidéos entièrement nouvelles après le déploiement. En comparaison, les jeux de société ont tendance à avoir un seul environnement connu. De nombreuses autres mesures et contraintes affectent l'expérience utilisateur finale et les économies de débit, telles que le PSNR (Peak Signal-to-Noise Ratio) et la contrainte de débit.
Pour relever ces défis avec MuZero, nous créons un mécanisme appelé auto-concurrence, qui convertit l'objectif complexe de compression vidéo en un simple signal GAGNANT/PERDE en comparant les performances actuelles de l'agent à ses performances historiques. Cela nous permet de convertir un riche ensemble d'exigences de codecs en un signal simple qui peut être optimisé par notre agent.
En apprenant la dynamique du codage vidéo et en déterminant la meilleure façon d'attribuer les bits, notre contrôleur de débit MuZero (MuZero-RC) est capable de réduire le débit binaire sans dégradation de la qualité. La sélection QP n’est qu’une des nombreuses décisions de codage dans le processus de codage. Alors que des décennies de recherche et d'ingénierie ont abouti à des algorithmes efficaces, nous envisageons un algorithme unique capable d'apprendre automatiquement à prendre ces décisions de codage pour obtenir le compromis débit-distorsion optimal.
Au-delà de la compression vidéo, cette première étape dans l'application de MuZero au-delà des environnements de recherche sert d'exemple de la façon dont nos agents RL peuvent résoudre des problèmes du monde réel. En créant des agents dotés d'une gamme de nouvelles capacités pour améliorer les produits dans tous les domaines, nous pouvons aider divers systèmes informatiques à devenir plus rapides, moins intensifs et plus automatisés. Notre vision à long terme est de développer un algorithme unique capable d'optimiser des milliers de systèmes du monde réel dans une variété de domaines.
Écoutez Jackson Broshear et David Silver discuter de MuZero avec Hannah Fry dans l'épisode 5 de DeepMind : The Podcast. Écoutez-le maintenant sur votre application de podcast préférée en recherchant « DeepMind : The Podcast ».