Siete ejemplos de sesgo en imágenes generadas por IA

por T.J. Thomson and Ryan J. Thomas
Jul 14, 2023 en Innovación en los medios
Una silueta negra de una cabeza con las letras "IA"

Si has estado en Internet últimamente, es probable que hayas visto algunas de las fantásticas instantáneas creadas por generadores de texto a imagen como Midjourney y DALL-E 2. Estas incluyen de todo, desde lo naturalista, como esta supuesta jugadora de fútbol, a lo surrealista, como este perro en el espacio.

 

Crear imagen usando generadores de IA nunca ha sido tan simple. Al mismo tiempo, estos resultados pueden reproducir sesgos y profundizar las desigualdades, como muestra nuestra última investigación.

¿Cómo funcionan los generadores de imágenes de inteligencia artificial (IA)?

Los generadores de imágenes basados en IA utilizan modelos de aprendizaje automático que toman un texto para producir una o varias imágenes que coinciden con la descripción. Para entrenar estos modelos se necesitan enormes conjuntos de datos con millones de imágenes.

Aunque Midjourney no aclara cómo funcionan exactamente sus algoritmos, la mayoría de los generadores de imágenes de IA utilizan un proceso llamado difusión. Los modelos de difusión funcionan añadiendo "ruido" aleatorio a los datos de entrenamiento y, a continuación, aprenden a recuperar los datos eliminando ese ruido. El modelo repite este proceso hasta que obtiene una imagen que coincide con la petición.

Esto es diferente de los grandes modelos lingüísticos en los que se basan otras herramientas de IA, como ChatGPT. Los grandes modelos lingüísticos se entrenan con datos de texto sin etiquetar que analizan para aprender patrones lingüísticos y producir respuestas similares a las humanas.

¿Cómo se producen los sesgos?

En la IA generativa, el input incide en el output. Si un usuario especifica que solo quiere incluir en su imagen a personas de un determinado tono de piel o sexo, el modelo lo tendrá en cuenta.

Pero, además, el modelo tiende por defecto a producir determinados resultados. Esto suele deberse al diseño del algoritmo subyacente o a la falta de diversidad en los datos de entrenamiento.

Nuestro estudio exploró cómo Midjourney visualiza términos aparentemente genéricos en el contexto de profesiones mediáticas especializadas (como "analista de noticias", "comentarista de noticias" y "verificador de datos"), y no especializadas (como "periodista", "reportero", "corresponsal" y "la prensa").

Empezamos a analizar los resultados en agosto del año pasado. Seis meses después, para ver si algo había cambiado con el tiempo, generamos conjuntos adicionales de imágenes a partir de las mismas peticiones.

En total, analizamos más de 100 imágenes generadas por IA durante ese periodo. Los resultados fueron muy similares a lo largo del tiempo. A continuación, los siete sesgos que aparecieron en nuestros resultados.

1 y 2) Edadismo y sexismo

Para los trabajos no especializados, Midjourney solo mostró imágenes de hombres y mujeres jóvenes. Para puestos especializados, se mostraban tanto personas jóvenes como mayores, pero los mayores eran siempre hombres.

Estos resultados refuerzan implícitamente una serie de prejuicios, como la suposición de que las personas mayores no trabajan (o no pueden trabajar) en puestos no especializados, que solo los hombres mayores son aptos para trabajos especializados, y que los trabajos menos especializados son cosa de mujeres.

También hubo diferencias notables en la presentación de hombres y mujeres. Por ejemplo, las mujeres eran más jóvenes y sin arrugas, mientras que a los hombres se les "permitía" tener arrugas.

La IA también parecía presentar el género como algo binario, en lugar de mostrar ejemplos de una expresión de género más fluida.

 

AI-generated images
Midjourney mostró a mujeres en puestos no especializados, como periodistas (derecha). También mostró solo a hombres mayores (pero no a mujeres mayores) en funciones especializadas como analista de noticias (izquierda).

(3) Racismo

Todas las imágenes de términos como "periodista", "reportero" o "corresponsal" muestran exclusivamente a personas de piel clara. Esta tendencia a asumir la blancura por defecto es una prueba de la hegemonía racial integrada en el sistema.

Estos resultados pueden reflejar una falta de diversidad y representación en los datos de entrenamiento subyacentes, un factor que a su vez está influido por la falta general de diversidad en la industria de la IA.

AI-generated images
Midjourney generó imágenes con personas de piel clara exclusivamente para todos los títulos laborales utilizados en las peticiones, incluidos de comentarista de noticias (izquierda) y reportera (derecha).

4 y 5) Clasismo y conservadurismo

Todas las figuras de las imágenes tenían también un aspecto "conservador". Por ejemplo, ninguno tenía tatuajes, piercings, peinados poco convencionales ni ningún otro atributo que pudiera distinguirlos de las representaciones conservadoras dominantes.

Muchos también llevaban ropa formal, como camisas abotonadas y corbatas, que marcan expectativas de clase. Aunque esta vestimenta puede ser la esperada para determinadas funciones, como la de presentador de televisión, no es necesariamente un fiel reflejo de cómo visten los reporteros o periodistas en general.

(6) Urbanismo

Sin especificar ninguna ubicación ni contexto geográfico, la IA situó todas las figuras en entornos urbanos con altísimos rascacielos y otros tipos de edificios. Y ello a pesar de que solo poco más de la mitad de la población mundial vive en ciudades.

Este tipo de sesgo tiene implicaciones sobre cómo nos vemos a nosotros mismos y nuestro grado de conexión con otras partes de la sociedad.
 

AI-generated images
Sin especificar un contexto geográfico, y con un título laboral de ubicación neutra, Midjourney asumió un contexto urbano para las imágenes, incluyendo reportero (izquierda) y corresponsal (derecha).

(7) Anacronismo

La tecnología digital estaba infrarrepresentada en las muestras que, en cambio, estaban llenas de tecnologías de épocas muy distintas, como máquinas de escribir, imprentas y cámaras antiguas de gran tamaño.

Dado que hoy en día muchos profesionales tienen un aspecto similar al que tenían en otros tiempos, la IA parecía estar recurriendo a tecnologías más distintas (incluidas las históricas) para hacer más explícitas la representación de sus funciones.

La próxima vez que veas imágenes generadas por IA, pregúntate hasta qué punto son representativas de la población en general y a quién benefician las representaciones que contienen.

Del mismo modo, si tú mismo generas las imágenes, ten en cuenta los posibles prejuicios a la hora de crearlas. De ese modo evitarás reforzar involuntariamente los mismos estereotipos nocivos que la sociedad lleva décadas intentando desaprender.


T.J. Thomson es profesor titular de Comunicación Visual y Medios Digitales, Universidad RMIT, y Ryan J. Thomas es profesor adjunto de Estudios de Periodismo, Universidad de Missouri-Columbia.

Este artículo fue publicado en The Conversation bajo licencia Creative Commons.

Foto de Tara Winstead.