« Un processus appelé apprentissage par renforcement à partir de la rétroaction humaine est actuellement utilisé dans tous les modèles de pointe », pour affiner ses réponses, explique Baum. La plupart des entreprises d’IA visent à créer des systèmes qui semblent neutres. Si les humains qui dirigent l’IA constatent une augmentation du contenu de droite mais le jugent dangereux ou erroné, ils pourraient annuler toute tentative visant à donner à la machine une certaine perspective.
La porte-parole d'OpenAI, Kayla Wood, déclare qu'à la recherche de modèles d'IA qui « représentent profondément toutes les cultures, industries, idéologies et langues », l'entreprise utilise de larges collections de données de formation. « N'importe quel secteur, y compris l'actualité, et n'importe quel site d'actualité ne représente qu'une infime partie des données globales de formation et n'a pas d'effet mesurable sur l'apprentissage et les résultats attendus du modèle », dit-elle.
Luttes pour les droits
La déconnexion dans laquelle les sites d’information bloquent les robots d’exploration de l’IA pourrait également refléter une division idéologique sur le droit d’auteur. Le New York Times est actuellement poursuivre OpenAI pour violation du droit d'auteur, arguant que la collecte de données par le nouveau venu d'IA est illégale. D’autres dirigeants des médias grand public considèrent également ce grattage comme un vol. Roger Lynch, PDG de Condé Nast, a récemment a déclaré lors d'une audience au Sénat que de nombreux outils d’IA ont été construits avec des « biens volés ». (WIRED appartient à Condé Nast.) Les patrons des médias de droite ont été largement absents du débat. Peut-être autorisent-ils discrètement le grattage de données parce qu’ils soutiennent l’argument selon lequel le grattage de données pour créer des outils d’IA est protégé par la doctrine de l’utilisation équitable ?
Pour quelques-uns des neuf médias de droite contactés par WIRED pour demander pourquoi ils autorisaient les grattoirs d’IA, leurs réponses indiquaient une raison différente, moins idéologique. Le Examinateur de Washington n'a pas répondu aux questions sur ses intentions, mais a commencé à bloquer le GPTBot d'OpenAI dans les 48 heures suivant la demande de WIRED, ce qui suggère qu'il n'avait peut-être pas eu connaissance auparavant de l'option de blocage des robots d'exploration Web ou n'avait pas donné la priorité à cette option.
Pendant ce temps, le Daily Caller a admis que sa permissivité envers les robots d’exploration de l’IA avait été une simple erreur. « Nous n’approuvons pas les robots qui volent nos biens. Cela a dû être un oubli, mais il est en train d'être corrigé maintenant », déclare Neil Patel, cofondateur et éditeur de Daily Caller.
Les médias de droite sont influents et particulièrement habiles à exploiter les plateformes de médias sociaux comme Facebook pour partager des articles. Mais des médias comme le Examinateur de Washington et le Daily Caller sont petits et maigres comparés aux géants des médias de l'establishment comme Le New York Timesqui disposent d’équipes techniques étendues.
Le journaliste de données Ben Welsh tient un décompte des sites d'information bloquant les robots d'exploration d'IA d'OpenAI, de Google et du projet à but non lucratif Common Crawl dont les données sont largement utilisées dans l'IA. Ses résultats ont révélé que environ 53 pour cent sur les 1 156 éditeurs de médias interrogés bloquent l’un de ces trois robots. La taille de son échantillon est beaucoup plus grande que celle d'Originality AI et comprend des sites d'information plus petits et moins populaires, ce qui suggère que les médias dotés d'un personnel plus important et d'un trafic plus élevé sont plus susceptibles de bloquer les robots IA, peut-être en raison de meilleures ressources ou de meilleures connaissances techniques.
Au moins un site d’information de droite réfléchit à la manière dont il pourrait tirer parti de la manière dont ses principaux concurrents tentent d’empêcher les projets d’IA pour contrer les préjugés politiques perçus. « Nos conditions juridiques interdisent le scraping et nous explorons de nouveaux outils pour protéger notre propriété intellectuelle. Cela dit, nous étudions également les moyens de garantir que l’IA ne se retrouve pas avec les mêmes préjugés que la presse établie », a déclaré la porte-parole du Daily Wire, Jen Smith. À ce jour, GPTBot et d’autres robots IA étaient toujours libres de récupérer le contenu du Daily Wire.