Sept exemples de biais dans les images générées par IA

par T.J. Thomson and Ryan J. Thomas
8 août 2023 dans Innovation dans les médias
Une silhouette noire avec une tête couverte de pupilles et les lettres AI au-dessus du crâne

Si vous avez récemment parcouru Internet, il est fort probable que vous ayez déjà rencontré certaines des images étonnantes produites par des générateurs “text to image” tels que Midjourney et DALL-E 2. Ces créations varient du naturalisme (comme une photo de profil d'un joueur de football) au surréalisme (comme un chien dans l'espace).

 

 

La conception d'images à l'aide de générateurs par IA n'a jamais été aussi accessible. Cependant, il est important de noter que ces résultats peuvent malheureusement perpétuer des biais et accentuer les disparités, comme le mettent en lumière nos recherches les plus récentes.

Comment fonctionnent les générateurs d'images par IA ?

Les générateurs d'images basés par IA utilisent des modèles d'apprentissage automatique qui prennent un texte en entrée et génèrent une ou plusieurs images en fonction de la description fournie. Pour former ces modèles, de vastes ensembles de données contenant des millions d'images sont nécessaires.

Bien que Midjourney conserve une certaine opacité quant au fonctionnement précis de ses algorithmes, la plupart des générateurs d'images par IA emploient une méthode appelée diffusion. Dans ce processus, des perturbations aléatoires, également appelées "bruit", sont ajoutées aux données d'entraînement. Le modèle apprend ensuite à restaurer les données en éliminant ce bruit. Ce processus est répété jusqu'à ce que le modèle génère une image conforme à la description fournie.

Cette approche diffère des grands modèles linguistiques qui sous-tendent d'autres outils d'intelligence artificielle comme ChatGPT. Ces modèles de langage sont formés sur de vastes ensembles de données textuelles non étiquetées, qu'ils analysent pour apprendre des modèles linguistiques et générer des réponses similaires à celles des humains en fonction des messages-guides.

Comment se produisent les biais ?

Dans le domaine de l'intelligence artificielle générative, les données d'entrée exercent une influence sur les données de sortie. Par exemple, si un utilisateur spécifie qu'il souhaite inclure uniquement des personnes d'une certaine couleur de peau ou d'un certain genre dans son image, le modèle en tiendra compte et agira en conséquence.

De plus, par défaut, le modèle a tendance à générer certains types de résultats, ce qui peut être attribué à la conception de l'algorithme sous-jacent ou à un manque de diversité dans les données d'apprentissage.

Notre étude a examiné la manière dont Midjourney visualise des termes apparemment génériques dans le contexte de professions médiatiques spécialisées (comme "analyste de l'actualité", "commentateur de l'actualité" et "vérificateur de faits") et non spécialisées (comme "journaliste", "reporter", "correspondant" et "presse"). Nous avons entamé notre analyse en août de l'année précédente. Six mois plus tard, afin d'évaluer l'évolution des résultats au fil du temps, nous avons généré une nouvelle série d'images pour les mêmes questions.

Au total, nous avons examiné plus de 100 images générées par IA au cours de cette période. Les résultats se sont révélés largement cohérents au fil du temps. Voici sept biais qui ont émergé de nos résultats.

(1) et (2) L’âgisme et le sexisme

En ce qui concerne les intitulés de postes non spécialisés, les images générées par Midjourney ne présentaient que des hommes et des femmes jeunes. Pour les fonctions spécialisées, des individus de différents groupes d'âge étaient représentés, mais les personnes plus âgées étaient systématiquement des hommes.

Ces résultats renforcent de manière implicite divers préjugés. Ils suggèrent, entre autres, que les personnes plus âgées ne sont pas ou ne peuvent pas être impliquées dans des rôles non spécialisés, que seuls les hommes plus âgés sont compétents pour occuper des postes spécialisés et que les rôles moins spécialisés sont principalement destinés aux femmes.

De plus, des différences notables apparaissent dans la représentation des hommes et des femmes. Les images de femmes tendaient à être plus jeunes et exemptes de rides, tandis qu’il était “permis” aux hommes de montrer des signes de vieillissement.

Il est également à noter que l'IA semble aborder le genre de manière binaire, sans tenir compte des nuances et des expressions de genre plus fluides.

 

AI-generated images
L'IA a montré des femmes pour des entrées comprenant des titres d'emploi non spécialisés tels que journalistes (à droite). Elle n'a également montré que des hommes plus âgés (mais pas de femmes plus âgées) pour des fonctions spécialisées telles que celles d'analyste de presse (à gauche). Midjourney

(3) Les biais raciaux

Toutes les images générées en réponse à des termes tels que "journaliste", "reporter" ou "correspondant" ne montraient que des individus à la peau claire. Cette tendance à présumer par défaut la blancheur de peau souligne l'omniprésence de l'hégémonie raciale ancrée dans le système.

Cela peut refléter un manque de diversité et de représentation au sein des données d'apprentissage sous-jacentes. Ce manque de diversité est lui-même influencé par le déficit global de diversité sur le lieu de travail au sein de l'industrie de l'intelligence artificielle.

 

 

AI-generated images
L'IA a généré des images représentant exclusivement des personnes à la peau claire pour tous les intitulés de postes utilisés dans les questions, notamment commentateur (à gauche) et reporter (à droite). Midjourney

(4) et (5) Le classisme et le conservatisme

Toutes les images de personnages présentaient également une apparence "conservatrice". Par exemple, aucun d'entre eux ne portait de tatouages, de piercings, de coiffures non conventionnelles ou tout autre élément distinctif pouvant les démarquer des représentations traditionnelles.

De plus, bon nombre de ces personnages étaient vêtus de manière formelle, arborant des chemises boutonnées et des cravates, qui sont souvent associées aux normes de la classe sociale élevée. Bien que cette tenue puisse être appropriée pour certains rôles, tels que les présentateurs de télévision, elle ne reflète pas nécessairement le style vestimentaire des reporters ou journalistes dans leur ensemble.

 (6) L’urbanisme

Sans aucune indication de lieu ou de contexte géographique, l'intelligence artificielle a situé tous les personnages dans des environnements urbains caractérisés par d'immenses gratte-ciel et d'autres édifices urbains imposants. Cela malgré le fait que seulement un peu plus de la moitié de la population mondiale réside dans des zones urbaines.

Ce type de biais a des répercussions sur la manière dont nous nous percevons et sur notre degré de connexion avec d'autres segments de la société qui vivent dans des contextes non urbains.

AI-generated images
Sans spécifier de contexte géographique et avec un intitulé de poste neutre, l'IA a supposé un contexte urbain pour les images, notamment le reporter (à gauche) et le correspondant (à droite).  Midjourney

(7) L’anachronisme

L'échantillon d'images générées présentait une sous-représentation marquée de la technologie numérique. Au lieu de cela, des technologies d'époques clairement différentes, telles que des machines à écrire, des presses à imprimer et des appareils photo vintage surdimensionnés, ont été privilégiées dans les images générées.

Il semble que l'IA utilise des éléments technologiques plus distincts, notamment des technologies historiques, pour rendre les représentations des rôles professionnels plus identifiables, étant donné que de nombreux professionnels partagent aujourd'hui des similitudes visuelles.

Lorsque vous examinez des images générées par IA, il est important de vous interroger sur leur degré de représentativité de la population dans son ensemble, ainsi que sur les groupes qui peuvent profiter des représentations contenues dans ces images.

Si vous générez vous-même des images, il est crucial de prendre en compte les préjugés potentiels lors de la rédaction de vos directives. Sinon, vous pourriez involontairement renforcer les mêmes stéréotypes nuisibles dont la société tente de se défaire au fil des décennies.

 


T.J. Thomson, Maître de conférences en communication visuelle et médias numériques à RMIT University et Ryan J. Thomas, Professeur adjoint, études sur le journalisme, University of Missouri-Columbia

Cet article est republié de The Conversation sous une licence Creative Commons. Lire l'article original.

Photo de Tara Winstead.