Par : Terrence Sheflin
Les LLM locaux deviennent courants avec des sites comme ÉtreindreVisage promouvoir le partage ouvert des LLM formés. Ces LLM sont souvent très petits mais néanmoins extrêmement précis, en particulier pour des tâches spécifiques à un domaine comme la médecine, la finance, le droit et autres. Gemma est un LLM polyvalent et, bien que petit, il est compétitif et précis.
Les LLM locaux ont également l'avantage d'être entièrement exécutés dans votre propre environnement. Il n'y a aucun risque de fuite de données et les données P3+ sont sécurisées car elles ne quittent jamais le réseau protégé. Récemment, Google a partagé son propre modèle local : Gemme.
Gemme est une famille de poids légers et à la pointe de la technologie modèles ouverts construit à partir de la même recherche et de la même technologie utilisée pour créer le Gémeaux des modèles. Développé par Google DeepMind et d'autres équipes de Google, Gemma s'inspire de Gemini et son nom reflète le latin gemma, qui signifie « pierre précieuse ». En plus de nos pondérations de modèles, nous publions également des outils pour soutenir l'innovation des développeurs, favoriser la collaboration et guider l'utilisation responsable des modèles Gemma.
Gemma a été partagée sur ÉtreindreVisageet est également disponible dans le logiciel d'hébergement LLM populaire Ollama. À l'aide d'Ollama, Gemma et Logi Symphony, cet article montrera comment créer rapidement un chatbot qui utilise RAG afin que vous puissiez interagir avec vos données, localement. Aucune des données ou questions n'est jamais exposée à Internet ou à tout service en ligne en dehors du réseau local.
Exemple
Voici un exemple de tableau de bord dans Logi Symphony utilisant le modèle Gemma 2b de Google sur Ollama pour répondre aux questions sur les données.
Toutes les données et le LLM sont entièrement sécurisés et aucune information ne quitte le cluster local.
Installation
Déploiement
La première étape consiste à déployer Logi Symphony dans Kubernetes conformément aux instructions d'installation (ou utilisez notre offre SaaS). Une fois déployé, l'étape suivante consiste à ajouter Ollama au cluster. Cela peut être fait via leur graphique de barre existant avec l'exécution suivante dans le contexte kubectl :
dépôt de barre ajouter ollama https://otwld.github.io/ollama-helm/
mise à jour du dépôt de barre
helm install ollama ollama/ollama –set ollama.defaultModel=”gemma” –set persistentVolume.enabled=true
Ollama sera désormais déployé et accessible au sein du cluster sous http://olama:11434 et aura déjà la valeur par défaut gemme modèle préchargé. Pour cet exemple, nous utilisons également un modèle d'intégration locale. Pour ajouter cela, exécutez :
kubectl exec -it — ollama pull nomic-embed-text
Où ollama-pod-name est le nom du pod Ollama déployé ci-dessus. Le déploiement est maintenant terminé !
Données
Après le déploiement, créez n'importe quel visuel ou tableau de bord avec toutes les données que vous souhaitez dans Logi Symphony, même les données Excel. Pour cet exemple, j'ai utilisé le nouveau module intégré de Logi Symphony Écart IBCS contrôle contenant les données de ventes pour cette année et l'année dernière.
Configuration du flux de discussion
Après le déploiement et la création du tableau de bord, l'étape suivante consiste à créer le flux de discussion qui utilisera Gemma pour faire du RAG avec les données accessibles depuis Logi Symphony. Ces données peuvent provenir de n’importe quelle base de données dont vous disposez ! Tant que Logi Symphony pourra y accéder, Gemma le pourra également.
Flux de discussion final
Vous trouverez ci-dessous à quoi devrait ressembler le flux de discussion une fois configuré. Chacun de ces nœuds peut être trouvé dans l'icône + et ajouté.
Étapes de configuration
Pour configurer cela, commencez par un Chaîne d'assurance qualité de récupération conversationnelle. Pour l'ajouter, cliquez sur le + et développez Chaînespuis ajoutez-le.
Suivez les mêmes étapes pour ajouter le Bavarder des modèles de chat, Magasin de vecteurs en mémoire depuis Vector Stores, Logi Symphony depuis les chargeurs de documents, et enfin Intégrations Ollama à partir des intégrations.
Notes de configuration
Pour Bavardervous devez préciser le locale URL d'Ollama. Il s'agit souvent du nom local au sein du cluster Kubernetes. Si vous avez utilisé le même déploiement de barre que ci-dessus, cela devrait être http://olama:11434.
De plus, le modèle doit être précisé. Si vous utilisez le modèle Gemma par défautcela peut simplement être gemme. Le modèle Gemma par défaut est un modèle d'instruction 7b dont la taille a été réduite grâce à la quantification. Il existe également un modèle 2b-instruct si les ressources sont limitées, mais il sera moins précis.
Pour Intégrations Ollama, vous devez spécifier la même URL que le chat et le modèle. Pour cet exemple, texte-intégré-nomique a été utilisé et l'installation a été effectuée dans la section de déploiement ci-dessus.
Pour les intégrations, cliquez sur Paramètres supplémentaires et assurer Utiliser MMap est sélectionné.
Il est également conseillé de modifier l'invite car Gemma semble faire beaucoup mieux avec un schéma d'invite très simple.
Enfin, définissez un tableau de bord ou un identifiant visuel sur le nœud Logi Symphony afin que les données puissent être récupérées même lorsqu'elles ne sont pas intégrées. Il s'agit d'une étape facultative, mais elle permet d'utiliser le chatbot lorsqu'il n'est pas intégré à un tableau de bord.
Posez-lui des questions !
Maintenant que tout est configuré, vous pouvez poser des questions sur les données directement dans Logi AI.
Intégrez-le
Le chatbot ne doit pas nécessairement être accessible uniquement dans Logi AI, il peut également être accessible directement sur le tableau de bord pour que tout le monde puisse l'utiliser, ou même complètement séparément lorsqu'il est intégré dans le portail d'un client.