7 примеров предвзятости в сгенерированных ИИ изображениях

Автор T.J. Thomson and Ryan J. Thomas
Jul 16, 2023 в Инновации в медиа
A black silhouette of a head with googly eyes on it and the letters "AI" over the head.

Если вы в последнее время заходили в интернет, то, скорее всего, видели необыкновенные картинки, созданные такими переводящими текст в изображение генераторами, как Midjourney и DALL-E 2. Сгенерированные изображения могут быть совершенно разными — могут выглядеть очень естественными (к примеру, изображение футболистки) или абсолютно сюрреалистическими (к примеру, собака в космическом пространстве).

 

 

Создавать изображения с помощью ИИ-генераторов никогда не было так легко, как сейчас. Однако недавнее исследование показывает, что получившиеся картинки могут воспроизводить предубеждения и способствовать усугублению неравенства.

Как работают ИИ-генераторы?

ИИ-генераторы изображений используют модели машинного обучения, которые на основе введенного текста создают одно или несколько изображений, соответствующих описанию. Для обучения этих моделей используются массивные базы данных, содержащие миллионы изображений.

Хотя компания Midjourney не дает четкого объяснения алгоритмов своей работы, большинство ИИ-генераторов изображений используют так называемый процесс диффузии. Диффузионные модели работают, добавляя случайный "шум" к используемым для тренинга данным, а затем обучаясь восстанавливать данные, удаляя этот "шум". Модель повторяет этот процесс, пока не получает изображения, соответствующего заданию.

Этот процесс отличается от использования больших языковых моделей, лежащих в основе других ИИ-инструментов, например от ChatGPT. Большие языковые модели обучаются на немаркированных текстовых данных, которые они анализируют, изучая языковые закономерности, и формулируют ответы на запросы, которые выглядят так, как будто их написал человек.

Откуда возникает предвзятость?

В случае с генеративным ИИ вводные данные влияют на то, какой результат мы получаем. Если пользователь отметит, что хочет, чтобы программа включила в изображение только людей с определенным цветом кожи или людей определенного пола, модель это учтет.

Однако, если этого не сделать, модель обычно по умолчанию выдает определенные результаты. Результат зависит от того, какой алгоритм лежит в основе модели. Кроме того, на него может повлиять недостаточное разнообразие данных, на базе которых проводилось обучение.

Наше исследование проанализировало, как Midjourney визуализирует, казалось бы, общие термины в контексте специализированных профессий мира медиа (таких как "новостной аналитик", "комментатор новостей" и "фактчекер") и неспециализированных ("журналист", "репортер", "корреспондент" и "пресса").

Мы начали анализировать результаты в августе прошлого года. Через шесть месяцев мы по тем же заданиям создали еще один набор изображений, чтобы проверить, изменилось ли что-нибудь.

За это время мы проанализировали более 100 изображений, сгенерированных ИИ. С течением времени результаты в основном не менялись. Вот семь примеров предвзятости, которую выявило наше исследование.

1 и 2. Эйджизм и сексизм

В ответ на задание изобразить представителей неспециализированных профессий Midjourney генерировал изображения только молодых мужчин и женщин. Для специализированных профессий на изображениях присутствовали как молодежь, так и люди более старшего возраста, но пожилыми были только мужчины.

Эти результаты косвенно подтверждают ряд предубеждений, включая предположение, что люди в возрасте не занимаются (или не могут заниматься) неспециализированной работой, что только пожилые мужчины могут занимать специализированные должности и что удел женщины — менее специализированная работа.

Также была отчетливо заметна разница в том, как представлены мужчины и женщины. Например, женщины изображались более юными, без морщин, а мужчинам "было позволено" иметь морщины.

Кроме того, ИИ представляет гендер как бинарную систему, не демонстрируя примеры более подвижной гендерной идентичности.

 

AI-generated images
ИИ изображает женщин только в ответ на запросы показать людей, занимающихся неспециализированной работой, например журналистикой (справа). Изображения пожилых мужчин (но не пожилых женщин) иллюстрируют только специализированные профессии, например, новостных аналитиков (слева). Midjourney

3. Расовая предвзятость

На всех изображениях, полученных в ответ на такие запросы, как "журналист ", "репортер" или "корреспондент", были только люди со светлой кожей. Такая тенденция, в основе которой лежит предположение, что люди по умолчанию имеют светлую кожу, — свидетельство того, что в систему встроены идеи расовой гегемонии.

Это, возможно, отражает недостаточное разнообразие и репрезентативность данных, использовавшихся для обучения программы — фактор, на который, в свою очередь, влияет общий недостаток разнообразия среди сотрудников индустрии, занимающейся разработкой ИИ.

 

AI-generated images
На сгенерированных ИИ картинках для всех текстовых запросов с описанием разных работ, включая комментатора (слева) и репортера (справа), изображаются только люди со светлым цветом кожи. Midjourney

4 и 5. Классовая дискриминация и консерватизм

Все фигуры на сгенерированных изображениях также выглядели консервативно. Например, ни у кого не было татуировок, пирсинга, необычных причесок или любых других атрибутов, которые отличали бы персонажей от консервативных мейнстримных образов.

Многие были также изображены в формальной одежде, например в застегнутых доверху рубашках и галстуках, которые воспринимаются как классовые маркеры. Хотя можно ожидать, что люди, выполняющие определенную работу — например, ведущие ТВ программ, — будут так одеваться, это не всегда отражает то, как обычно одеваются репортеры и журналисты.

6. Урбанизм

Если место или географический контекст не указаны, ИИ помещает изображения людей в городское пространство со вздымающимися небоскребами и другими большими городскими зданиями. При этом всего чуть больше половины населения Земли живет в городах.

Такого рода предвзятость влияет на то, как мы воспринимаем себя и насколько мы связаны с нашей частью социума.

 

AI-generated images
Если географический контекст не был обозначен, ИИ выбирает городской пейзаж для изображения репортера (слева) и корреспондента (справа). Midjourney

7. Анахронизм

В изображениях были мало представлены цифровые технологии. Вместо этого изображалось устаревшее технологическое оборудование, включая печатные машинки, печатные станки и огромные старомодные камеры.

Поскольку в наше время многие профессионалы выглядят примерно одинаково, ИИ выбирает изображения более разнообразной техники (включая давно устаревшую), чтобы подчеркнуть профессию изображенного персонажа.

Когда вы в следующий раз будете рассматривать сгенерированное ИИ изображение, спросите себя, насколько оно представляет широкие слои населения и кому выгодна такая репрезентация.

Точно так же, если вы сами формулируете задание для создания изображений, подумайте о предубеждениях, которые могут закрасться в ваш текст. Иначе вы тоже можете, сами того не желая, способствовать укреплению вредных стереотипов, от которых общество старается избавиться на протяжении десятилетий.


Т. Дж. Томсон — старший преподаватель визуальных коммуникаций и цифровых медиа университета RMIT; Райан Дж. Томас — доцент программы по изучению журналистики Университета Миссури, город Колумбия.

Эта статья была опубликована на сайте The Conversation, IJNet использует ее по лицензии Creative Commons.

Автор фотоTara Winstead.