Lorsque ChatGPT est sorti en novembre 2023, il n’était accessible que via le cloud car le modèle derrière lui était carrément énorme.
Aujourd'hui, j'exécute un programme d'IA aux capacités similaires sur un Macbook Air, et il ne fait même pas chaud. Le rétrécissement apparaît à quelle vitesse les chercheurs affinent les modèles d’IA pour les rendre plus légers et plus efficaces. Cela montre également que le fait d’atteindre des échelles toujours plus grandes n’est pas le seul moyen de rendre les machines nettement plus intelligentes.
Le modèle qui insuffle désormais à mon ordinateur portable l’esprit et la sagesse de ChatGPT s’appelle Phi-3-mini. Il fait partie d'une famille de modèles d'IA plus petits récemment publiés par des chercheurs de Microsoft. Bien qu'il soit suffisamment compact pour fonctionner sur un smartphone, je l'ai testé en l'exécutant sur un ordinateur portable et en y accédant depuis un iPhone via une application appelée Enchanté qui fournit une interface de chat similaire à l'application officielle ChatGPT.
Dans un papier décrivant la famille de modèles Phi-3, les chercheurs de Microsoft affirment que le modèle que j'ai utilisé se compare favorablement à GPT-3.5, le modèle OpenAI derrière la première version de ChatGPT. Cette affirmation est basée sur la mesure de ses performances sur plusieurs critères d’IA standard conçus pour mesurer le bon sens et le raisonnement. Lors de mes propres tests, il semble certainement tout aussi performant.
Microsoft a annoncé un nouveau modèle Phi-3 « multimodal » capable de gérer l'audio, la vidéo et le texte lors de sa conférence annuelle des développeurs, Build, cette semaine. C'est arrivé quelques jours seulement après OpenAI et Google les deux radical vanté nouveaux assistants IA construit sur des modèles multimodaux accessibles via le cloud.
La famille lilliputienne de modèles d'IA de Microsoft suggère qu'il devient possible de créer toutes sortes d'applications d'IA pratiques qui ne dépendent pas du cloud. Cela pourrait ouvrir de nouveaux cas d’utilisation, en leur permettant d’être plus réactifs ou plus privés. (Les algorithmes hors ligne sont un élément clé du Fonction de rappel annoncée par Microsoft qui utilise l'IA pour rendre consultable tout ce que vous avez fait sur votre PC.)
Mais la famille Phi révèle également quelque chose sur la nature de l’IA moderne et peut-être sur la manière dont elle peut être améliorée. Sébastien Bubeck, chercheur chez Microsoft impliqué dans le projet, m'explique que les modèles ont été construits pour tester si le fait d'être plus sélectif quant aux éléments sur lesquels un système d'IA est formé pourrait permettre d'affiner ses capacités.
Les grands modèles de langage comme GPT-4 d'OpenAI ou Gemini de Google qui alimentent les chatbots et d'autres services sont généralement alimentés à la cuillère par d'énormes quantités de texte siphonnés de livres, de sites Web et de presque toute autre source accessible. Bien que cela soulève des questions juridiques, OpenAI et d'autres ont découvert que l'augmentation de la quantité de texte transmise à ces modèles et de la quantité de puissance informatique utilisée pour les entraîner pouvait débloquer de nouvelles capacités.