۷ نمونه از سوگیری در تصاویر تولید شده با هوش مصنوعی 

نوشته T.J. Thomson and Ryan J. Thomas
Jul 18, 2023 در نوآوری رسانه ای
A black silhouette of a head with googly eyes on it and the letters "AI" over the head.

اگر اخیراً خبرهای مربوط به فن‌آوری به‌خصوص هوش مصنوعی را در اینترنت دنبال کرده باشید، شاید برخی از تصویرهای خارق‌العاده‌ای را که توسط پلتفرم‌های متن به تصویر مثل Midjourney و DALL-E 2 تولید شده‌اند، دیده‌ باشید. این تصویرها شامل عکس‌های متفاوتی از طبیعی‌نما (مثل تصویر چهره یک بازیکن فوتبال) گرفته تا تصویرهای سوررئال (مثل سگ فضانوردی که در این تصویر می‌بینید) هستند. این تصویر از حساب توییتری که اینجا می‌توانید آن را ببینید،‌ برداشته شده است.

Image

تولید تصویر با هوش مصنوعی از هر زمان دیگری آسان‌تر شده است. در عین حال آخرین تحقیقات ما نشان می‌دهد که این تصاویر می‌تواند با سوگیری تولید شده باشد و نابرابری‌ها را افزایش دهد. 

 

بیشتر بخوانید:  استفاده از هوش مصنوعی در تهیه گزارش همزمان با حفظ اعتماد مخاطبان 

تولیدکننده‌های تصویر با هوش مصنوعی، چگونه کار می‌کنند؟

تولیدکننده‌های تصویر با هوش مصنوعی با کارگیری از مدل‌های آموزش سیستم‌های کامپیوتری، وقتی یک متن وارد آنها می‌شود، یک یا چند تصویر که با توضیح متن مطابقت داشته باشد تولید می‌کنند. هرچند Midjourney درباره شیوه استفاده الگوریتم‌های خود به درستی توضیح نداده است، بسیاری از تولیدکننده‌های تصویر با هوش مصنوعی، از روندی استفاده می‌کنند که diffusion (انتشار یا پخش چیزی در سطح گسترده) نامیده می‌شود.  

مدل‌های دیفیوژن با افزودن «نویز» تصادفی به داده‌های آموزشی، و سپس یادگیری بازیابی داده‌ها با حذف این نویز کار می‌کنند. مدل تا زمانی این روند را ادامه می‌دهد که تصویری مطابق خواسته کاربر به وجود بیاید. 

این روند با کار مدل‌های زبانی بزرگی که زیربنای ابزارهای دیگر هوش مصنوعی مثل ChatGPT (چت جی‌پی‌تی) هستند، تفاوت دارد. مدل‌های زبانی بزرگ بر روی داده‌های متنی بدون برچسبی آموزش دیده‌اند که آنها را برای یادگیری الگوهای زبانی تجزیه و تحلیل می‌کنند و در پاسخ به درخواست‌ها، پاسخ‌هایی مشابه پاسخ‌های انسانی تولید می‌کنند.  

سوگیری چگونه به وجود می‌آید؟

در هوش مصنوعی مولد، ورودی بر خروجی تفوق دارد. اگر کاربری تعیین کند که می‌خواهد افرادی با یک رنگ پوست یا جنسیت مشخص در تصویر باشند، مدل، این موضوع را در نظر می‌گیرد. 

اما اگر این ویژگی‌ها مشخص نشوند، مدل به طور پیش‌فرض به تولید خروجی‌های مشخص تمایل دارد. این معمولاً نتیجه شیوه طراحی الگوریتم بنیادی و یا عدم تنوع در داده‌های آموزشی است. ما در بررسی‌های خود به این موضوع پرداختیم که Midjourney چگونه اصطلاحات به ظاهر همگانی را در چارچوب مشاغل رسانه‌ای تخصصی (مثل تحلیل‌گر اخبار، مفسر اخبار و راستی‌آزما) و مشاغل غیرتخصصی (مثل خبرنگار، گزارش‌گر، گزارشگر ویژه و مطبوعات) به تصویر تبدیل می‌کند. 

تجزیه و تحلیل نتایج را در ماه اوت سال گذشته شروع کردیم. شش ماه بعد، برای آن که ببینیم آیا با گذر زمان چیزی تغییر کرده یا نه، با درخواست‌های مشابه، تصویرهای بیشتری تولید کردیم. 

در کل بیش از ۱۰۰ تصویر تولیدشده با هوش مصنوعی را طی این دوره تجزیه و تحلیل کردیم. نتایج آنها تا حد زیادی در گذر زمان، مشابه بود. 

در ادامه این مطلب، هفت سوگیری را که در نتایج مشاهده کرده‌ایم بخوانید:

۱ - سن‌گرایی و ۲- جنسیت‌گرایی

Midjourney برای مشاغل تخصصی، تنها تصویرهای مردان و زنان جوان را تولید کرد. برای مشاغل تخصصی، هم جوانان و هم افراد مسن نشان داده شدند، اما افراد مسن، تنها مرد بودند. 

این نتایج به طور غیرمستقیم، برخی از سوگیری‌ها را تقویت می‌کند؛ از جمله این تصور را که مسن‌ترها مشاغل غیرتخصصی ندارند (یا نمی‌توانند چنین مشاغلی داشته باشند)، یا آن‌که تنها مردان مسن مناسب کارهای تخصصی هستند و این که کارهایی که به تخصص زیادی نیاز ندارند، در حوزه کار زنان قرار می‌گیرند.

در شیوه به تصویر کشیدن مردان و زنان هم تفاوت‌های قابل توجهی وجود داشت. برای مثال، زنان، جوان و بدون چین و چروک به تصویر کشیده می‌شوند، در حالی که داشتن چین و چروک برای مردان «مجاز» است. 

همچنین به نظر می‌رسد که هوش مصنوعی به جای نشان دادن مثال‌هایی گسترده‌تر از بیان هویت جنسیتی، جنسیت را تنها مرد یا زن در نظر می‌گیرد.

AI-generated images

هوش مصنوعی در پاسخ به درخواست‌هایی درباره تصویر افرادی که در شغل‌های غیرتخصصی مثل خبرنگاری کار می‌کنند، تصویر زنان را نشان می‌دهد (تصویر سمت راست). اما برای شغل‌های تخصصی مثل تفسیر اخبار، تنها تصویر مردان مسن (و نه زنان مسن) را تولید می‌کند (تصویر سمت چپ). 

۳- سوگیری نژادی (تبعیض نژادی)

تمام نتایج درخواست یا جستجوی عباراتی مثل «خبرنگار»، «گزارش‌گر» یا «خبرنگار ویژه» منحصراً تصویر افرادی با رنگ پوست روشن را نشان می‌دهد. این روند که هوش مصنوعی به طور پیش‌فرض، افراد را سفیدپوست بیانگارد، نشانه تبعیض نژادی است که در این سیستم ایجاد شده است. این موضوع شاید نشان‌دهنده عدم تنوع و حضور افرادی از گروه‌‌های مختلف در داده‌های اصلی آموزش داده شده به هوش مصنوعی باشد - عاملی که به نوبه خود تحت تأثیر کمبود کلی تنوع [نژادی] در محیط‌های کاری صنعت هوش مصنوعی قرار دارد. 

 

AI-generated images

هوش مصنوعی برای تمام تصویرهای درخواستی برای مشاغل، از جمله گزارش‌گر (تصویر سمت راست) و مفسر اخبار (تصویر سمت چپ)، منحصراً تصویرهای سفیدپوستان را تولید کرد.  Midjourney

۴- طبقه‌گرایی و ۵ - محافظه‌کاری 

ظاهر تمام افراد در تصویرهای تولید شده با هوش مصنوعی، «محافظه‌کار» بود. برای مثال، هیچ کدام از آنها تتو (خالکوبی)، پیرسینگ (سوراخی برای آویز زینتی)، مدل موی غیرمتعارف و یا هر ویژگی دیگری که بتواند آنها را از ظاهر افراد پایبند به جریان اصلی محافظه‌کارانه متمایز کند، نداشت. همچنین بیشتر آنها لباس‌هایی مثل پیراهن‌هایی با دکمه‌های بسته و کراوات داشتند که نشانه انتظارات طبقاتی است. هرچند شاید این لباسی باشد که انتظار می‌رود افراد در مشاغل مشخصی مثل گویندگی تلویزیون بپوشند، لزوماً بازتاب‌دهنده شیوه‌ پوشش گزارش‌گران و خبرنگاران نیست. 

 

بیشتر بخوانید: پیچیدگی مبارزه با اطلاعات نادرست در پی ایجاد تصاویر تولید شده با هوش مصنوعی

۶- شهرگرایی

هوش مصنوعی بدون آن که مکان یا زمینه جغرافیایی برای آن مشخص شود، تمام شخصیت‌ها را در محیط‌های شهری با آسمان‌خراش‌های سر به فلک کشیده و ساختمان‌های بزرگ شهری دیگر به تصویر کشید. این در حالی است که تنها اندکی بیش از نیمی از جمعیت جهان در شهر زندگی می‌کنند. این سوگیری برای دید ما نسبت به خود و میزان ارتباط ما با بخش‌های دیگر جامعه پیامدهایی دارد. 

 

AI-generated images

هوش مصنوعی بدون آن که زمینه جغرافیایی برای آن مشخص شود، برای شغلی که مکان مشخصی ندارد، شخصیت‌ها را در محیط شهری نشان داد؛ از جمله خبرنگار اعزامی (تصویر سمت راست) و خبرنگار (تصویر سمت چپ). Midjourney 

 

۷- واپس‌گرایی

فن‌آوری دیجیتال، در این نمونه درست نمایش داده نشده بود. به جای آن، فن‌آوری‌های مربوط به یک دوران کاملاً متفاوت، که در آن وسایلی چون ماشین‌ تحریر، ماشین‌ چاپ و دوربین‌های بسیار قدیمی بزرگ به کار می‌آمدند، نمایش داده شدند. 

از آنجایی که بسیاری از متخصصان، امروزه یکسان به نظر می‌رسند، گمان می‌رود که هوش مصنوعی به این علت فن‌آوری‌های متمایزتری (از جمله فن‌آوری‌های قدیمی) را به تصویر می‌کشد که بازنمایی خود از مشاغل را واضح‌تر نشان دهد. 

 

دفعه بعد که از تصویرهای تولید شده با هوش مصنوعی استفاده کردید، از خود بپرسید که این تصویرها چقدر نشان‌دهنده جمعیت گسترده‌تر است و از بازنمایی‌ آن، چه کسی سود خواهد برد. 

همچنین، اگر خودتان با هوش مصنوعی تصویر تولید می‌کنید، هنگام دادن درخواست، سوگیری‌های محتمَل را درنظر بگیرید. در غیر این صورت، ممکن است ناخواسته همان کلیشه‌های مخربی را تقویت کنید که جامعه دهه‌ها برای فراموش شدن آنها کوشیده است. 

 

تی.جی. تامسن (T.J. Thomson)، استاد ارشد ارتباطات بصری و رسانه‌های دیجیتال در دانشگاه RMIT و رایان جی. توماس (Ryan J. Thomas)، استادیار مطالعات خبرنگاری در دانشگاه میزوری - کلمبیا

 

این مطلب در نشریه The Conversation منتشر شده بود و با رعایت مجوز حق نشر، در اینجا دوباره منتشر می‌شود. مقاله اصلی را می‌توانید اینجا بخوانید. 

تصویر از Tara Winstead