Détection vocale multimodale dirigée par l'appareil, économe en données et en ressources, avec de grands modèles de base

Dernière mise à jour: 2023/12/10 at 12:10 PM

lecture minimale

*=Contributeurs égaux

Cet article a été accepté lors de l’atelier Efficient Natural Language and Speech Processing à NeurIPS 2023.

Les interactions avec les assistants virtuels commencent souvent par une phrase déclencheur prédéfinie suivie de la commande utilisateur. Pour rendre les interactions avec l'assistant plus naturelles, nous étudions s'il est possible de supprimer l'exigence selon laquelle les utilisateurs doivent commencer chaque commande par une phrase déclencheur. Nous abordons cette tâche en combinant les signaux de décodeur d'un système de reconnaissance automatique de la parole (ASR) avec des représentations acoustiques et lexicales comme caractéristiques d'entrée dans un grand modèle de langage (LLM). Nous nous intéressons aux systèmes économes en données et en ressources, qui ne nécessitent qu'une petite quantité de données de formation et peuvent potentiellement fonctionner sur des appareils tels que les smartphones. Pour cette raison, notre modèle est affiné sur une petite quantité de données multimodales en utilisant une adaptation de bas rang. Nous comparons le système proposé à des modèles unimodaux qui reposent uniquement sur des informations lexicales ou acoustiques. L'efficacité de notre méthode est analysée en affinant les LLM uniquement décodeurs avec des tailles comprises entre 3 milliards et 13 milliards de paramètres sur des données d'entraînement composées de 10 000 à 80 000 énoncés. Nous montrons que notre meilleur système multimodal donne de meilleurs résultats que les lignes de base unimodales tout en n'utilisant qu'une fraction des données d'entraînement.