Reddit a dit à l'avance de son Introduction en bourse la semaine prochaine que l'octroi de licences aux publications des utilisateurs à Google et à d'autres pour des projets d'IA pourrait générer 203 millions de dollars de revenus au cours des prochaines années. La plateforme communautaire a été contraint de révéler vendredi que les régulateurs américains avaient déjà des questions sur ce nouveau secteur d'activité.
Dans un dépôt réglementaireReddit a déclaré avoir reçu jeudi une lettre de la Commission fédérale du commerce des États-Unis demandant « notre vente, notre licence ou notre partage de contenu généré par les utilisateurs avec des tiers pour former des modèles d'IA ».
La FTC, le principal régulateur antitrust du gouvernement américain, a le pouvoir de sanctionner les entreprises qui se livrent à des pratiques commerciales déloyales ou trompeuses. L’idée d’autoriser le contenu généré par les utilisateurs pour les projets d’IA a suscité des questions des législateurs et groupes de défense des droits à propos confidentialité des risques, justiceet droits d'auteur.
Reddit n'est pas le seul à tenter de rentabiliser les données de licence, y compris celles générées par les utilisateurs, pour l'IA. Site de questions et réponses sur la programmation Stack Overflow a signé un accord avec Google, l'Associated Press en a signé un avec OpenAIet le propriétaire de Tumblr, Automattic a dit il travaille « avec certaines sociétés d’IA » mais permettra aux utilisateurs de refuser la transmission de leurs données. Aucun des concédants de licence n'a immédiatement répondu aux demandes de commentaires. Reddit n'est pas non plus la seule entreprise à recevoir une lettre de la FTC concernant les licences de données, Axios signalé vendredi, citant un ancien responsable de l'agence anonyme.
Il n'est pas clair si la lettre adressée à Reddit est directement liée à l'examen d'autres sociétés.
Reddit a déclaré dans la divulgation de vendredi qu'il ne pensait pas s'être livré à des pratiques déloyales ou trompeuses, mais a averti que le traitement de toute enquête gouvernementale pouvait être coûteux et prendre du temps. « La lettre indiquait que le personnel de la FTC souhaitait nous rencontrer pour en savoir plus sur nos projets et que la FTC avait l'intention de nous demander des informations et des documents au fur et à mesure que son enquête se poursuit », indique le dossier. Reddit a déclaré que la lettre de la FTC décrivait l'examen comme étant lié à « une enquête non publique ».
Reddit, dont les 17 milliards de posts et commentaires sont considérés par les experts en IA comme précieux pour former les chatbots à l'art de la conversation, a annoncé un accord le mois dernier d'accorder une licence pour le contenu à Google. Reddit et Google n'ont pas immédiatement répondu aux demandes de commentaires. La FTC a refusé de commenter.
Des chatbots IA comme ceux d'OpenAI ChatGPT et Les Gémeaux de Google sont considérés comme une menace concurrentielle pour Reddit, les éditeurs et d’autres entreprises axées sur le contenu et financées par la publicité. Au cours de l’année écoulée, la perspective d’octroyer des licences de données aux développeurs d’IA est apparue comme un avantage potentiel de l’IA générative pour certaines entreprises.
Mais l'utilisation de données collectées en ligne pour former des modèles d'IA a soulevé un certain nombre de questions qui se posent dans les salles de réunion, les salles d'audience, et le Congrès. Pour Reddit et d'autres dont les données sont générées par les utilisateurs, ces questions incluent qui possède réellement le contenu et s'il est juste d'en accorder une licence sans donner une part au créateur. Les chercheurs en sécurité ont découvert que les modèles d’IA peuvent divulguer des données personnelles incluses dans le matériel utilisé pour les créer. Et certains critiques ont suggéré que ces accords pourraient rendre les entreprises puissantes encore plus dominantes.