Si has estado en Internet últimamente, es probable que hayas visto algunas de las fantásticas instantáneas creadas por generadores de texto a imagen como Midjourney y DALL-E 2. Estas incluyen de todo, desde lo naturalista, como esta supuesta jugadora de fútbol, a lo surrealista, como este perro en el espacio.
“beautiful pug astronaut floating in space chasing a bone chew toy and dog treats”
— Next Prompt (@next_prompt) April 17, 2023
~ Prompt by Sil.Vicious #MidJourney #AiArtwork pic.twitter.com/VEfiscny5Y
Crear imagen usando generadores de IA nunca ha sido tan simple. Al mismo tiempo, estos resultados pueden reproducir sesgos y profundizar las desigualdades, como muestra nuestra última investigación.
¿Cómo funcionan los generadores de imágenes de inteligencia artificial (IA)?
Los generadores de imágenes basados en IA utilizan modelos de aprendizaje automático que toman un texto para producir una o varias imágenes que coinciden con la descripción. Para entrenar estos modelos se necesitan enormes conjuntos de datos con millones de imágenes.
Aunque Midjourney no aclara cómo funcionan exactamente sus algoritmos, la mayoría de los generadores de imágenes de IA utilizan un proceso llamado difusión. Los modelos de difusión funcionan añadiendo "ruido" aleatorio a los datos de entrenamiento y, a continuación, aprenden a recuperar los datos eliminando ese ruido. El modelo repite este proceso hasta que obtiene una imagen que coincide con la petición.
Esto es diferente de los grandes modelos lingüísticos en los que se basan otras herramientas de IA, como ChatGPT. Los grandes modelos lingüísticos se entrenan con datos de texto sin etiquetar que analizan para aprender patrones lingüísticos y producir respuestas similares a las humanas.
¿Cómo se producen los sesgos?
En la IA generativa, el input incide en el output. Si un usuario especifica que solo quiere incluir en su imagen a personas de un determinado tono de piel o sexo, el modelo lo tendrá en cuenta.
Pero, además, el modelo tiende por defecto a producir determinados resultados. Esto suele deberse al diseño del algoritmo subyacente o a la falta de diversidad en los datos de entrenamiento.
Nuestro estudio exploró cómo Midjourney visualiza términos aparentemente genéricos en el contexto de profesiones mediáticas especializadas (como "analista de noticias", "comentarista de noticias" y "verificador de datos"), y no especializadas (como "periodista", "reportero", "corresponsal" y "la prensa").
Empezamos a analizar los resultados en agosto del año pasado. Seis meses después, para ver si algo había cambiado con el tiempo, generamos conjuntos adicionales de imágenes a partir de las mismas peticiones.
En total, analizamos más de 100 imágenes generadas por IA durante ese periodo. Los resultados fueron muy similares a lo largo del tiempo. A continuación, los siete sesgos que aparecieron en nuestros resultados.
1 y 2) Edadismo y sexismo
Para los trabajos no especializados, Midjourney solo mostró imágenes de hombres y mujeres jóvenes. Para puestos especializados, se mostraban tanto personas jóvenes como mayores, pero los mayores eran siempre hombres.
Estos resultados refuerzan implícitamente una serie de prejuicios, como la suposición de que las personas mayores no trabajan (o no pueden trabajar) en puestos no especializados, que solo los hombres mayores son aptos para trabajos especializados, y que los trabajos menos especializados son cosa de mujeres.
También hubo diferencias notables en la presentación de hombres y mujeres. Por ejemplo, las mujeres eran más jóvenes y sin arrugas, mientras que a los hombres se les "permitía" tener arrugas.
La IA también parecía presentar el género como algo binario, en lugar de mostrar ejemplos de una expresión de género más fluida.
(3) Racismo
Todas las imágenes de términos como "periodista", "reportero" o "corresponsal" muestran exclusivamente a personas de piel clara. Esta tendencia a asumir la blancura por defecto es una prueba de la hegemonía racial integrada en el sistema.
Estos resultados pueden reflejar una falta de diversidad y representación en los datos de entrenamiento subyacentes, un factor que a su vez está influido por la falta general de diversidad en la industria de la IA.
4 y 5) Clasismo y conservadurismo
Todas las figuras de las imágenes tenían también un aspecto "conservador". Por ejemplo, ninguno tenía tatuajes, piercings, peinados poco convencionales ni ningún otro atributo que pudiera distinguirlos de las representaciones conservadoras dominantes.
Muchos también llevaban ropa formal, como camisas abotonadas y corbatas, que marcan expectativas de clase. Aunque esta vestimenta puede ser la esperada para determinadas funciones, como la de presentador de televisión, no es necesariamente un fiel reflejo de cómo visten los reporteros o periodistas en general.
(6) Urbanismo
Sin especificar ninguna ubicación ni contexto geográfico, la IA situó todas las figuras en entornos urbanos con altísimos rascacielos y otros tipos de edificios. Y ello a pesar de que solo poco más de la mitad de la población mundial vive en ciudades.
Este tipo de sesgo tiene implicaciones sobre cómo nos vemos a nosotros mismos y nuestro grado de conexión con otras partes de la sociedad.
(7) Anacronismo
La tecnología digital estaba infrarrepresentada en las muestras que, en cambio, estaban llenas de tecnologías de épocas muy distintas, como máquinas de escribir, imprentas y cámaras antiguas de gran tamaño.
Dado que hoy en día muchos profesionales tienen un aspecto similar al que tenían en otros tiempos, la IA parecía estar recurriendo a tecnologías más distintas (incluidas las históricas) para hacer más explícitas la representación de sus funciones.
La próxima vez que veas imágenes generadas por IA, pregúntate hasta qué punto son representativas de la población en general y a quién benefician las representaciones que contienen.
Del mismo modo, si tú mismo generas las imágenes, ten en cuenta los posibles prejuicios a la hora de crearlas. De ese modo evitarás reforzar involuntariamente los mismos estereotipos nocivos que la sociedad lleva décadas intentando desaprender.
T.J. Thomson es profesor titular de Comunicación Visual y Medios Digitales, Universidad RMIT, y Ryan J. Thomas es profesor adjunto de Estudios de Periodismo, Universidad de Missouri-Columbia.
Este artículo fue publicado en The Conversation bajo licencia Creative Commons.
Foto de Tara Winstead.