7 exemplos de preconceitos em imagens geradas por inteligência artificial

por T.J. Thomson and Ryan J. Thomas
Jul 18, 2023 em Inovação da mídia
A black silhouette of a head with googly eyes on it and the letters "AI" over the head.

Se você esteve online recentemente, há chances de ter visto algumas das mais fantásticas imagens criadas por geradores de texto para imagem como o Midjourney e o DALL-E 2. Elas incluem de tudo, desde as naturais (pense numa foto de perfil de um jogador de futebol) até as surreais (pense em um cachorro no espaço). 

 

 

Nunca foi tão simples criar imagens usando geradores de IA. Ao mesmo tempo, porém, o que foi produzido pode reproduzir vieses e aprofundar desigualdades, conforme mostra nossa mais recente pesquisa.

Como funcionam os geradores de imagem por IA?

Geradores de imagens feitas por IA usam modelos de aprendizado de máquina que pegam informações introduzidas em formato de texto e produzem uma ou mais imagens que correspondam à descrição. Treinar esses modelos requer conjuntos de dados massivos com milhões de imagens.

Embora o Midjourney seja opaco em relação ao modo exato como seus algoritmos funcionam, a maioria dos geradores de imagem por IA usam um processo chamado difusão. Modelos de difusão funcionam acrescentando "ruídos" aos dados de treinamento, e com isso aprendem a recuperar os dados por meio da remoção desse ruído. O modelo repete esse processo até ter uma imagem que corresponda à descrição fornecida. 

Eles são diferentes dos grandes modelos de linguagem que dão suporte a outras ferramentas de IA como o ChatGPT. Os grandes modelos de linguagem são treinados com dados em formato de texto não rotulados, que são analisados para que o modelo aprenda padrões de linguagem e produza respostas similares às de humanos.  

Como o viés acontece?

Em IA generativa, os dados inseridos influenciam o material produzido. Se um usuário específica que só quer incluir pessoas de um certo tom de pele ou gênero em sua imagem, o modelo vai levar isso em conta.

No entanto, fora isso, o modelo vai ter uma tendência padrão de retornar certos tipos de resultados. Isso normalmente é resultado de como o algoritmo é criado ou da falta de diversidade dos dados de treinamento.

Nosso estudo explorou como o Midjourney enxerga termos aparentemente genéricos no contexto de profissões especializadas na mídia (como "analista de notícias", "comentarista de notícias" e "verificador de fatos") e outras não especializadas (como "jornalista", "repórter", "correspondente" e "a imprensa").

Nós começamos analisando os resultados em agosto do ano passado. Seis meses depois, para ver se algo havia mudado ao longo do tempo, geramos conjuntos adicionais de imagens para os mesmos textos.

No total, analisamos mais de 100 imagens geradas por IA nesse período. Os resultados foram amplamente consistentes ao longo do tempo. A seguir estão sete vieses que apareceram nos nossos resultados:

(1) e (2) Etarismo e sexismo

Para cargos não especializados, o Midjourney retornou somente imagens de homens e mulheres mais jovens. Para funções especializadas, apareceram tanto pessoas jovens quanto mais velhas – mas as pessoas mais velhas sempre eram homens.

Estes resultados reforçam implicitamente vários vieses, incluindo a suposição de que pessoas mais velhas não trabalham (ou não conseguem trabalhar) em funções não especializadas, de que somente homens mais velhos são adequados para o trabalho especializado e de que quanto menos especializado o trabalho, mais ele é dominado por mulheres. 

As diferenças também foram notáveis na forma como mulheres e homens foram apresentados. Por exemplo, mulheres eram mais jovens e sem rugas, enquanto os homens tinham "permissão" para terem rugas. 

A IA aparentemente também apresentou o gênero como binário, em vez de mostrar exemplos de uma expressão de gênero mais fluida.

 

AI-generated images
O Midjourney mostrou mulheres em funções não especializadas, como jornalistas (direita). Também mostrou somente homens mais velhos (mas não mulheres mais velhas) em funções especializadas, como analista de notícias (esquerda)

(3) Racismo

Todas as imagens retornadas para termos como "jornalista", "repórter" ou "correspondente" mostravam exclusivamente pessoas de pele clara. Essa tendência de assumir a branquitude por padrão é evidência da hegemonia racial inerente ao sistema.

Os resultados podem refletir a falta de diversidade e representatividade nos dados de treinamento – um fator que, por sua vez, é influenciado pela falta generalizada de diversidade no ambiente de trabalho da indústria de IA.

 

AI-generated images
O Midjourney gerou imagens exclusivamente com pessoas de pele clara para todos os cargos informados, incluindo comentarista de notícias (esquerda) e repórter (direita)

(4) e (5) Classismo e conservadorismo

Todas as feições nas imagens também tinham aparências "conservadoras". Por exemplo, nenhuma tinha tatuagem, piercing, cortes de cabelo não convencionais ou qualquer outro atributo que poderia distingui-las de representações conservadoras tradicionais. 

Muitas também usavam roupas formais, como camisas com botões e gravatas, que são marcadores de expectativa de classe. Embora este traje seja esperado para certos cargos, como apresentadores de TV, não necessariamente é um reflexo verdadeiro de como repórteres ou jornalistas em geral se vestem.

(6) Urbanismo

Sem especificar qualquer localização ou contexto geográfico, a IA colocou todas as figuras em ambientes urbanos com arranha-céus e outros grandes edifícios de cidades. Tudo isso apesar de somente pouco mais da metade da população mundial viver em cidades.

Esse tipo de viés tem implicações para a forma como vemos a nós mesmos e nosso grau de conexão com outras partes da sociedade.

 

AI-generated images
Sem especificar um contexto geográfico, e com um cargo de trabalho com localização neutra, a IA do Midjourney supôs um contexto urbano para as imagens, incluindo repórter (esquerda) e correspondente (direita)

(7) Anacronismo

A tecnologia digital foi sub-representada na amostra. No lugar disso, tecnologias de uma era distintamente diferente - incluindo máquinas de escrever, prensas móveis e câmeras antigas grandes - preencheram as amostras.

Como muitos profissionais são parecidos atualmente, a IA pareceu se basear em tecnologias mais distintivas (incluindo as históricas) para fazer representações mais explícitas dos cargos.

Da próxima vez que você vir imagens geradas por IA, pergunte-se o quão representativas elas são da população mais ampla e quem se beneficia das representações contidas.

Da mesma forma, se você está gerando imagens, considere vieses em potencial ao formular os prompts. Do contrário, você pode acabar reforçando involuntariamente estereótipos nocivos que a sociedade tem gastado anos tentando desaprender.


T.J. Thomson, professor titular de Comunicação Visual e Mídia Digital da Universidade RMIT, e Ryan J. Thomas, professor adjunto de Estudos de Jornalismo na Universidade do Missouri-Columbia

Este artigo foi republicado do The Conversation sob uma licença Creative Commons. Leia aqui o artigo original.

Foto por Tara Winstead.