1 décembre 2023
3 minutes de lecture
Par Cogito Tech.
29 vues
Les grands modèles multimodaux impliquent l’interprétation d’un large éventail de données pour des systèmes meilleurs et intelligents. Mais même s’ils sont là pour avoir un impact révolutionnaire, ils souffrent néanmoins de certains inconvénients.
Les modèles d’apprentissage automatique ont toujours fonctionné sur des données provenant d’une seule modalité. Par exemple, la saisie de texte était généralement utilisée pour des tâches telles que la traduction et la modélisation linguistique. Image pour la détection d'objets et la classification d'images, et audio pour des applications telles que la reconnaissance vocale. Mais l’intégration de plusieurs modalités ou de grands modèles linguistiques (LLM) remodèle radicalement les choses.
Les LMM sont des modèles qui peuvent générer une gamme de sorties, notamment du texte, des images, de l'audio et de la vidéo, en fonction de l'entrée. Les modèles reçoivent une formation sur des données spécifiques pour apprendre des modèles permettant de produire des données similaires et d'ajouter de la richesse aux applications d'IA. Les LMM seront sans aucun doute au centre de l’attention et de la demande dans les années à venir, aux côtés d’autres acteurs de cette course.
Les LMM ouvrent de nouvelles voies d'application en rendant les modèles plus interactifs, en créant de toutes nouvelles expériences utilisateur et en identifiant des solutions pour de nouveaux types de tâches. Comparés aux LLM, les LMM sont très similaires à l’intelligence humaine. Par exemple, les LMM permettent à leurs utilisateurs d'utiliser une image comme invite pour interroger le modèle au lieu de créer des invites textuelles élaborées.
À l'heure actuelle, le paysage LMM reflète le paysage LLM, les gagnants étant ceux qui disposent des ressources nécessaires pour entraîner leurs modèles sur un large éventail d'ensembles de données divers. Même s’il s’agit d’un scénario compétitif, les récompenses sont énormes. Les géants de la technologie peuvent dominer les modèles de base par le biais de modalités, mais il est possible que des modèles spécialisés dominent les acteurs les plus puissants.
Les applications multimodales auront un effet marqué dans divers domaines, des tests pilotes et des discussions étant déjà en cours.
Applications des LMM
Discutons de leur impact dans les domaines mis en évidence ci-dessous pour mieux comprendre.
- Soins de santé: Les LMM facilitent l'analyse médicale, la communication entre les prestataires de soins de santé et les patients parlant différentes langues, et servent de référentiel central pour un large éventail d'applications d'IA unimodale au sein des hôpitaux.
- Robotique : Les leaders de la robotique ont intégré les LMM dans l'interface homme-machine parallèlement à l'automatisation. Cela facilite une meilleure coordination entre les robots et les humains, ainsi que l’exécution simple de tâches sensibles et liées à la précision assignées par les humains.
- Véhicules autonomes : Les LMM jouent déjà un rôle clé dans les systèmes avancés d’aide à la conduite (ADAS) et les assistants d’interfaces homme-machine (IHM) embarqués. Dans les prochains jours, ils seront dotés de perceptions sensorielles et de capacités de prise de décision similaires à celles des conducteurs humains.
- Éducation: Cela implique de développer des systèmes d'apprentissage adaptatifs capables de comprendre et de s'adapter aux besoins de chaque élève.
- Divertissement: Les LMM peuvent être utilisés pour traduire des films en temps réel dans différentes langues selon le contexte culturel.
Tendances du marché des LMM
Les principales entreprises technologiques et startups font de leur mieux pour aller au-delà du domaine de l’IA dans l’espoir de créer de nouveaux modèles d’IA capables de fonctionner de manière interchangeable avec du texte et des images.
Selon une étude de Microsoft, « dans le cadre d'une progression naturelle, les LMM devraient être capables de générer du contenu image-texte entrelacé, par exemple en produisant des didacticiels saisissants contenant à la fois du texte et des images pour permettre une compréhension et une génération complètes de contenu multimodal. De plus, il serait avantageux d’incorporer d’autres modalités, telles que la vidéo, l’audio et d’autres données de capteurs pour étendre les capacités des LMM.
Limites des LMM
Développer des LMM capables de tout faire est un exercice très coûteux car il implique d'énormes coûts de calcul et des contraintes de données. Ces deux facteurs empêchent même les entreprises les mieux financées de construire ces incroyables modèles de fondation. En dehors de ceux-ci, il existe également d’autres facteurs qui sont soulignés ci-dessous.
- C'est une tâche compliquée que de lier de manière significative un texte à des données visuelles.
- C'est un défi d'apprendre aux modèles à comprendre des idées abstraites, notamment l'humour ou l'ironie.
- Les biais dans les données de formation peuvent entraîner des problèmes éthiques.
- Créer et utiliser ces modèles est une tâche coûteuse car elle nécessite une immense puissance de calcul.
Conclusion
Le mise au point des modèles de fondation avec des données destinées à atteindre un objectif spécifique représente une toute nouvelle façon de démocratiser l'IA et les solutions pour un impact plus important et ciblé. Dans l’ensemble, le développement de LMM nécessite beaucoup de ressources et d’expertise et les startups ont la possibilité de concevoir des solutions innovantes capables de répondre aux besoins des clients. défis du monde réel dans tous les secteurs. Les LMM affinés et axés sur des secteurs spécifiques avec un public approprié peuvent produire des résultats comparables à ceux des principales entreprises technologiques.