Nous utilisons un système de sécurité à plusieurs niveaux pour limiter la capacité de DALL·E 3 à générer des images potentiellement nuisibles, notamment du contenu violent, réservé aux adultes ou haineux. Les contrôles de sécurité s'exécutent sur les invites des utilisateurs et les images qui en résultent avant qu'elles ne soient présentées aux utilisateurs. Nous avons également travaillé avec les premiers utilisateurs et des équipes rouges expertes pour identifier et combler les lacunes de couverture de nos systèmes de sécurité qui ont émergé avec les nouvelles capacités du modèle. Par exemple, les commentaires nous ont aidés à identifier les cas extrêmes pour la génération de contenu graphique, tels que les images sexuelles, et à tester la capacité du modèle à générer des images trompeuses et convaincantes.
Dans le cadre du travail effectué pour préparer le déploiement de DALL·E 3, nous avons également pris des mesures pour limiter la probabilité que le modèle génère du contenu dans le style d'artistes vivants, des images de personnalités publiques, et pour améliorer la représentation démographique dans les images générées. Pour en savoir plus sur le travail effectué pour préparer DALL·E 3 à un déploiement à grande échelle, consultez le Carte système DALL·E 3.
Les commentaires des utilisateurs nous aideront à continuer à nous améliorer. Les utilisateurs de ChatGPT peuvent partager leurs commentaires avec notre équipe de recherche en utilisant l'icône de drapeau pour nous informer des sorties dangereuses ou des sorties qui ne reflètent pas fidèlement l'invite que vous avez donnée à ChatGPT. Être à l’écoute d’une communauté diversifiée et large d’utilisateurs et avoir une compréhension du monde réel sont essentiels au développement et au déploiement de l’IA de manière responsable et sont au cœur de notre mission.
Nous recherchons et évaluons une version initiale d'un classificateur de provenance, un nouvel outil interne qui peut nous aider à identifier si une image a été générée ou non par DALL·E 3. Dans les premières évaluations internes, il est précis à plus de 99 % pour identifier si une image a été générée par DALL·E alors que l'image n'a pas été modifiée. Il reste précis à plus de 95 % lorsque l'image a été soumise à des types courants de modifications, tels que le recadrage, le redimensionnement, la compression JPEG, ou lorsque du texte ou des découpes d'images réelles sont superposés sur de petites parties de l'image générée. Malgré ces bons résultats lors des tests internes, le classificateur peut seulement nous dire qu'une image a probablement été générée par DALL·E, et ne nous permet pas encore de tirer des conclusions définitives. Ce classificateur de provenance peut faire partie d'une gamme de techniques pour aider les gens à comprendre si le contenu audio ou visuel est généré par l'IA. Il s'agit d'un défi qui nécessitera une collaboration tout au long de la chaîne de valeur de l'IA, y compris avec les plateformes qui distribuent du contenu aux utilisateurs. Nous espérons en apprendre beaucoup sur le fonctionnement de cet outil et sur les domaines dans lesquels il pourrait être le plus utile, et améliorer notre approche au fil du temps.