Icfj 的一个项目

学者分析 AI 生成图像或加深的七类社会偏见

作者 T.J. Thomson and Ryan J. Thomas
Jul 19, 2023 发表在 媒体创新
A black silhouette of a head with googly eyes on it and the letters "AI" over the head.

你最近想必见过一些由文本转图像生成器(例如 Midjourney 和 DALL-E 2)创建的奇幻图像;它们近至写实的自然主义(如足球运动员的大头照),远至天马行空的超现实主义(太空中的狗狗),类型繁杂多变。

 

 

有了这些人工智能图像生成器,製作图像可谓前所未有的容易。不过,最新的研究证实,这些生成图像会加深偏见定型甚至不平等。

AI 图像生成工具是如何运作的?

人工智能图像生成工具利用机器学习模型,这模型接受文本输入并生成与描述匹配的一张或多张图像;训练这些模型需要包含数百万张图像的海量数据集。

儘管 Midjourney 对其演算法的具体运作方式并不透明,但大多数人工智能图像生成器都使用一种称为扩散(diffusion)的过程。扩散模型的工作原理是向训练数据添加随机 “噪声”,然后学习通过消除这些噪声来恢復数据。模型重複此过程,直到获得与提示匹配的图像。

这与支援 ChatGPT 等其他人工智能工具的大型语言模型不同;大型语言模型是在未标记的文本数据上进行训练的,它们通过分析这些数据来学习语言模式,并对输入的提示产生类似人类的响应。

偏见是如何出现的?

在生成式人工智能中,输入影响输出。如果用户指定他们只想在图像中包含某特定肤色或性别的人,模型将考虑这一点。

然而,除此之外,模型也有一种预设倾向去生成某些特定类型的输出;这通常是由于底层演算法的设计方式或训练数据缺乏多样性所造成的。

我们的研究探讨了 Midjourney 如何在专门媒体专业(例如 “新闻分析员”、“新闻评论员” 和 “事实核查员”)和一般媒体专业(例如 “记者”、“特派通讯员” 和 “媒体”)的背景下如何将看似通用的术语以可视化形式呈现出来。

我们从去年八月开始分析结果;六个月后,为了看看随着时间的推移有否发生了变化,我们为相同的提示生成了额外的图像集。

在此期间,我们总共分析了 100 多张人工智能生成的图像,所得出的结果随着时间的推移也基本上是一致的。以下是我们的结果中出现的七种偏见。

(1) 和 (2) 年龄歧视和性别歧视

对于非专门职位,Midjourney 仅生成年轻男性和女性的图像。对于专门的角色,年轻和年长的人都会出现——但年长的人总是男性。

这些结果无意强化了一些既有的偏见,包括以下假设:老年人不会(或不能)从事非专门性质工作,只有老年男性才适合从事专门工作,以及不太专门的工作则是女性的领域。

男性和女性的呈现方式也存在显着差异。 例如,女性更年轻,没有皱纹,而男性却 “被允许” 有皱纹。

人工智能似乎也将性别呈现为二元,而不是展示更多元的性别身份的例子。

 

AI-generated images
在输入的提示上,人工智能生成的女性图像包括记者等非专业职位(右);它还只显示年长男性(而不是年长女性)担任新闻分析员(左)等专门角色。Midjourney

(3) 种族偏见

所有针对“记者” 或 “特派通讯员” 等术语所生成的图像都一律是浅肤色的人。这种预设白人身份的趋势体现了体制内的既有种族不平等。

这可能反映了基础训练数据缺乏多样性和广泛代表性——这一因素反过来又受到人工智能行业领域普遍缺乏身份多样性的影响。

 

AI-generated images
人工智能为输入提示中使用的所有职位一律生成出浅肤色的人物,包括新闻评论员(左)和记者(右)。Midjourney

(4) 和 (5) 阶级主义和保守主义

生成图像中的所有人物在外表上也都是 “保守” 的。例如,没有人有纹身、穿孔、非传统的发型或任何其他可以将他们与保守的主流描述区分开来的特徵。

许多人还穿着正式的服装,例如钮扣衬衫和领带,意味着某种阶级设定。虽然这种穿着确实可能适合某些职业岗位,例如电视主持人,但它不一定真实反映一般记者的穿着。

(6) 城市化

在没有指定任何位置或地理背景的情况下,人工智能将所有人物都置于摩天大楼和其他大型城市建筑物林立的都市环境中。儘管世上居于城市的人口只是佔总人口稍稍过半,但情况还是如此。

这种偏见会影响我们如何看待自己以及我们与社会其他层面的连繫。

 

AI-generated images
在没有指定地理背景和位置中立的职位名称的情况下,人工智能皆为生成图像预设了城市背景,包括记者(左)和通讯员(右)。Midjourney

(7) 不合时宜

样本中数码技术的代表性不足。相反,来自截然不同时代的技术——包括打字机、印刷机和超大型的復古相机——却充斥于样本中。

由于如今许多专业人士看起来都很相似,人工智能似乎正在利用更独特的技术(包括历史技术)来在人物的表达上增添明确指涉。

下次当你看到人工智能生成的图像时,不妨问问自己它有多大程度反映人口的代表性,以及谁将从其中的呈现中受益。

同样,在你生成图像的时候,请在输入提示时考虑潜在的既有偏见。否则,你可能会无意中强化了社会几十年来试图消除的有害刻板印象。


本文作者 T.J. ThomsonRyan J. Thomas 分别为皇家墨尔本理工大学视觉传播与数字媒体高级讲师及密苏里大学哥伦比亚分校新闻研究助理教授。

本文按知识共享许可从 The Conversation 重新发布。按此阅读原文

图片来源:Photo by Tara Winstead.