L'année dernière, StackOverflow est devenu l'un des premiers sites Web à annoncer qu'il facturerait aux géants de l'IA l'accès au contenu utilisé pour former les chatbots. Maintenant le service de questions-réponses populaire pour les codeurs a signé son premier client, Google, dans ce que le PDG Prashanth Chandrasekar considère comme le début d'une nouvelle source de revenus « significative ».
L’accord est important, car on ne sait toujours pas dans quelle mesure Google et les autres développeurs d’IA paieront pour le contenu nécessaire aux projets d’IA. Des millions de livres et sites Internet ont alimenté le développement des systèmes d’IA, mais la plupart des éditeurs n’ont pas été rémunérés, et certains le sont. poursuivre en justice pour ce qu'ils prétendent être un abus. De nombreux éditeurs, dont StackOverflow, semblent menacés par ChatGPT et d'autres produits d'IA générative, qui peuvent répondre à des requêtes qui auraient auparavant envoyé des codeurs vers eux.
L'accord verra la division cloud de Google utiliser les questions et réponses de StackOverflow sur les services Google Cloud pour fournir une assistance au codage et un support technique via une version du chatbot Gemini de Google. Les clients du cloud computing de Google pourront également poser des questions via l'interface de ligne de commande de Google Cloud. « Leur IA n’a peut-être pas toutes les réponses, et nous avons donc une énorme capacité à les aider à boucler cette boucle », explique Chandrasekar. « Nous sommes le plus grand endroit où les connaissances de la communauté sont conservées et validées. »
Gemini résumera les réponses tirées de StackOverflow dans ses propres mots, mais inclura le logo de l'entreprise, un lien vers le matériel original et le nom d'utilisateur du contributeur du site qui l'a fourni. Les sociétés prévoient de présenter le système à Google Cloud Suivant, la conférence annuelle sur le cloud de la société de recherche en avril, et de le lancer peu de temps après.
Chandrasekar affirme qu'il n'y a aucune restriction significative sur la manière dont Google Cloud peut utiliser les données StackOverflow, ce qui signifie qu'elles peuvent être utilisées pour former de grands modèles de langage et d'autres systèmes d'IA. « Là où nous voulons rester fermes, c’est…des choses non négociables pour nous– la confiance, l’exactitude, la qualité et l’attribution aux sources de ces résultats d’IA », dit-il.
Il a refusé de dire combien StackOverflow est payé par Google pour les données. « Il s'agira d'une offre commerciale significative pour nous à court, moyen et long terme », déclare Chandrasekar.
Grattage secret
Google et d'autres développeurs d'IA ont déjà collecté des données de StackOverflow et d'autres sites Web sans préavis. Alors que la demande pour les technologies d’IA générative a augmenté – et que les valorisations des entreprises qui les développent ont grimpé en flèche – les sites Web fournissant le texte fondateur ont commencé à exiger ce qu’ils considèrent comme leur juste part. Heureusement pour StackOverflow, les clients potentiels ont tenu compte du message, déclare Chandrasekar. « Nous n'avons pas besoin de courir après les gens », dit-il.
Les données StackOverflow sont particulièrement utiles pour Systèmes d'IA qui génèrent du code informatiquequi se sont révélés être populaire auprès des ingénieurs logiciels et une source de revenus importante pour Microsoft et OpenAI.
Le nouvel accord StackOverflow intervient juste une semaine après Google a conclu un accord de licence pour récupérer les données de Reddit, l'opérateur des forums de discussion, dont le contenu a aidé les chatbots à converser. Reddit avait dévoilé son intention de commencer à facturer l'accès aux données juste avant StackOverflow l'année dernière.