Jérôme Pesenti a plusieurs raisons de célébrer la décision de Meta la semaine dernière de libérer Lama 3un puissant open source grand modèle de langage que tout le monde peut télécharger, exécuter et développer.
Pesenti était vice-président de intelligence artificielle à Méta et dit qu'il a souvent poussé l'entreprise à envisager de diffuser sa technologie pour que d'autres puissent l'utiliser et la développer. Mais sa principale raison de se réjouir est que sa nouvelle startup aura accès à un modèle d'IA qui, selon lui, est très proche en puissance de GPT-4, le générateur de texte leader du secteur d'OpenAImais considérablement moins cher à gérer et plus ouvert à un examen et à une modification extérieurs.
« La sortie de vendredi dernier semble vraiment changer la donne », déclare Pesenti. Sa nouvelle entreprise, Grésiller, un tuteur en IA, utilise actuellement GPT-4 et d'autres modèles d'IA, à la fois fermés et ouverts, pour élaborer des ensembles de problèmes et des programmes pour les étudiants. Ses ingénieurs évaluent si Llama 3 pourrait remplacer le modèle d'OpenAI dans de nombreux cas.
L’histoire de Sizzle pourrait augurer d’un changement plus large dans l’équilibre des pouvoirs en matière d’IA. OpenAI a changé le monde avec ChatGPT, déclenchant une vague d'investissements dans l'IA et attirant plus de 2 millions de développeurs vers ses API cloud. Mais si les modèles open source s'avèrent compétitifs, les développeurs et les entrepreneurs pourraient décider d'arrêter de payer pour accéder au dernier modèle d'OpenAI ou de Google et d'utiliser Llama 3 ou l'un des autres modèles open source de plus en plus puissants qui font leur apparition.
« Ça va être une course de chevaux intéressante », dit Pesenti à propos de la compétition entre des modèles ouverts comme Llama 3 et des modèles fermés comme GPT-4 et Gemini de Google.
Le modèle précédent de Meta, Llama 2, était déjà influent, mais la société affirme avoir rendu la dernière version plus puissante en lui fournissant de plus grandes quantités de données d'entraînement de meilleure qualité, avec de nouvelles techniques développées pour filtrer le contenu redondant ou tronqué et pour sélectionner le meilleur. mélange d’ensembles de données à utiliser.
Pesenti dit d'exécuter Llama 3 sur une plate-forme cloud telle que Feux d'artifice.ai ne coûte que 20e du coût d’accès à GPT-4 via une API. Il ajoute que Llama 3 peut être configuré pour répondre aux requêtes extrêmement rapidement, une considération clé pour les développeurs d'entreprises comme la sienne qui s'appuient sur des modèles de différents fournisseurs. « C'est une équation entre latence, coût et précision », dit-il.
Les modèles ouverts semblent chuter à un rythme impressionnant. Il y a quelques semaines, je suis allé au sein de la startup Databricks pour assister aux dernières étapes d'un effort de construction de DBRX, un modèle de langage construit qui était brièvement le meilleur ouvert du marché. Cette couronne est maintenant celle de Llama 3. Ali Ghodsi, PDG de Databricks, décrit également Llama 3 comme « révolutionnaire » et affirme que le modèle plus large « se rapproche de la qualité de GPT 4, qui uniformise les règles du jeu entre les LLM open source et fermés ».
Llama 3 présente également la possibilité de réduire la taille des modèles d'IA, afin qu'ils puissent être exécutés sur du matériel moins puissant. Meta a publié deux versions de son dernier modèle, une avec 70 milliards de paramètres (une mesure des variables qu'il utilise pour apprendre à partir des données d'entraînement) et une autre avec 8 milliards. Le modèle plus petit est suffisamment compact pour fonctionner sur un ordinateur portable, mais il est remarquablement performant, du moins lors des tests de WIRED.
Deux jours avant la sortie de Meta, Mistralune société française d'IA fondée par des anciens élèves de l'équipe Pesenti de Meta, open source Mixtral 8x22B. Il comporte 141 milliards de paramètres mais n’en utilise que 39 milliards à la fois, une conception connue comme un mélange d’experts. Grâce à cette astuce, le modèle est considérablement plus performant que certains modèles beaucoup plus grands.
Meta n'est pas le seul géant de la technologie à proposer une IA open source. Cette semaine, Microsoft a publié Phi-3-mini et Apple a publié OuvrirELMdeux modèles de langage minuscules mais performants et gratuits qui peuvent fonctionner sur un smartphone.
Les mois à venir montreront si Llama 3 et d'autres modèles ouverts peuvent réellement remplacer les modèles d'IA premium comme GPT-4 pour certains développeurs. Et une IA open source encore plus puissante arrive. La société travaille sur une version massive de 400 milliards de paramètres de Llama 3 que le scientifique en chef de l'IA Yann LeCun dit qu'il devrait être l'un des plus compétents au monde.
Bien entendu, toute cette ouverture n’est pas purement altruiste. Mark Zuckerberg, PDG de Meta, déclare ouvrir ses modèles d'IA devrait finalement profiter à l'entreprise en réduisant le coût des technologies sur lesquelles il s'appuie, par exemple en créant des outils et des services compatibles que Meta peut utiliser pour lui-même. Il n'a pas dit qu'il pourrait également être dans l'intérêt de Meta d'empêcher OpenAI, Microsoft ou Google de dominer le domaine.