اگر اخیراً خبرهای مربوط به فنآوری بهخصوص هوش مصنوعی را در اینترنت دنبال کرده باشید، شاید برخی از تصویرهای خارقالعادهای را که توسط پلتفرمهای متن به تصویر مثل Midjourney و DALL-E 2 تولید شدهاند، دیده باشید. این تصویرها شامل عکسهای متفاوتی از طبیعینما (مثل تصویر چهره یک بازیکن فوتبال) گرفته تا تصویرهای سوررئال (مثل سگ فضانوردی که در این تصویر میبینید) هستند. این تصویر از حساب توییتری که اینجا میتوانید آن را ببینید، برداشته شده است.
تولید تصویر با هوش مصنوعی از هر زمان دیگری آسانتر شده است. در عین حال آخرین تحقیقات ما نشان میدهد که این تصاویر میتواند با سوگیری تولید شده باشد و نابرابریها را افزایش دهد.
بیشتر بخوانید: استفاده از هوش مصنوعی در تهیه گزارش همزمان با حفظ اعتماد مخاطبان
تولیدکنندههای تصویر با هوش مصنوعی، چگونه کار میکنند؟
تولیدکنندههای تصویر با هوش مصنوعی با کارگیری از مدلهای آموزش سیستمهای کامپیوتری، وقتی یک متن وارد آنها میشود، یک یا چند تصویر که با توضیح متن مطابقت داشته باشد تولید میکنند. هرچند Midjourney درباره شیوه استفاده الگوریتمهای خود به درستی توضیح نداده است، بسیاری از تولیدکنندههای تصویر با هوش مصنوعی، از روندی استفاده میکنند که diffusion (انتشار یا پخش چیزی در سطح گسترده) نامیده میشود.
مدلهای دیفیوژن با افزودن «نویز» تصادفی به دادههای آموزشی، و سپس یادگیری بازیابی دادهها با حذف این نویز کار میکنند. مدل تا زمانی این روند را ادامه میدهد که تصویری مطابق خواسته کاربر به وجود بیاید.
این روند با کار مدلهای زبانی بزرگی که زیربنای ابزارهای دیگر هوش مصنوعی مثل ChatGPT (چت جیپیتی) هستند، تفاوت دارد. مدلهای زبانی بزرگ بر روی دادههای متنی بدون برچسبی آموزش دیدهاند که آنها را برای یادگیری الگوهای زبانی تجزیه و تحلیل میکنند و در پاسخ به درخواستها، پاسخهایی مشابه پاسخهای انسانی تولید میکنند.
سوگیری چگونه به وجود میآید؟
در هوش مصنوعی مولد، ورودی بر خروجی تفوق دارد. اگر کاربری تعیین کند که میخواهد افرادی با یک رنگ پوست یا جنسیت مشخص در تصویر باشند، مدل، این موضوع را در نظر میگیرد.
اما اگر این ویژگیها مشخص نشوند، مدل به طور پیشفرض به تولید خروجیهای مشخص تمایل دارد. این معمولاً نتیجه شیوه طراحی الگوریتم بنیادی و یا عدم تنوع در دادههای آموزشی است. ما در بررسیهای خود به این موضوع پرداختیم که Midjourney چگونه اصطلاحات به ظاهر همگانی را در چارچوب مشاغل رسانهای تخصصی (مثل تحلیلگر اخبار، مفسر اخبار و راستیآزما) و مشاغل غیرتخصصی (مثل خبرنگار، گزارشگر، گزارشگر ویژه و مطبوعات) به تصویر تبدیل میکند.
تجزیه و تحلیل نتایج را در ماه اوت سال گذشته شروع کردیم. شش ماه بعد، برای آن که ببینیم آیا با گذر زمان چیزی تغییر کرده یا نه، با درخواستهای مشابه، تصویرهای بیشتری تولید کردیم.
در کل بیش از ۱۰۰ تصویر تولیدشده با هوش مصنوعی را طی این دوره تجزیه و تحلیل کردیم. نتایج آنها تا حد زیادی در گذر زمان، مشابه بود.
در ادامه این مطلب، هفت سوگیری را که در نتایج مشاهده کردهایم بخوانید:
۱ - سنگرایی و ۲- جنسیتگرایی
Midjourney برای مشاغل تخصصی، تنها تصویرهای مردان و زنان جوان را تولید کرد. برای مشاغل تخصصی، هم جوانان و هم افراد مسن نشان داده شدند، اما افراد مسن، تنها مرد بودند.
این نتایج به طور غیرمستقیم، برخی از سوگیریها را تقویت میکند؛ از جمله این تصور را که مسنترها مشاغل غیرتخصصی ندارند (یا نمیتوانند چنین مشاغلی داشته باشند)، یا آنکه تنها مردان مسن مناسب کارهای تخصصی هستند و این که کارهایی که به تخصص زیادی نیاز ندارند، در حوزه کار زنان قرار میگیرند.
در شیوه به تصویر کشیدن مردان و زنان هم تفاوتهای قابل توجهی وجود داشت. برای مثال، زنان، جوان و بدون چین و چروک به تصویر کشیده میشوند، در حالی که داشتن چین و چروک برای مردان «مجاز» است.
همچنین به نظر میرسد که هوش مصنوعی به جای نشان دادن مثالهایی گستردهتر از بیان هویت جنسیتی، جنسیت را تنها مرد یا زن در نظر میگیرد.
هوش مصنوعی در پاسخ به درخواستهایی درباره تصویر افرادی که در شغلهای غیرتخصصی مثل خبرنگاری کار میکنند، تصویر زنان را نشان میدهد (تصویر سمت راست). اما برای شغلهای تخصصی مثل تفسیر اخبار، تنها تصویر مردان مسن (و نه زنان مسن) را تولید میکند (تصویر سمت چپ).
۳- سوگیری نژادی (تبعیض نژادی)
تمام نتایج درخواست یا جستجوی عباراتی مثل «خبرنگار»، «گزارشگر» یا «خبرنگار ویژه» منحصراً تصویر افرادی با رنگ پوست روشن را نشان میدهد. این روند که هوش مصنوعی به طور پیشفرض، افراد را سفیدپوست بیانگارد، نشانه تبعیض نژادی است که در این سیستم ایجاد شده است. این موضوع شاید نشاندهنده عدم تنوع و حضور افرادی از گروههای مختلف در دادههای اصلی آموزش داده شده به هوش مصنوعی باشد - عاملی که به نوبه خود تحت تأثیر کمبود کلی تنوع [نژادی] در محیطهای کاری صنعت هوش مصنوعی قرار دارد.
هوش مصنوعی برای تمام تصویرهای درخواستی برای مشاغل، از جمله گزارشگر (تصویر سمت راست) و مفسر اخبار (تصویر سمت چپ)، منحصراً تصویرهای سفیدپوستان را تولید کرد. Midjourney
۴- طبقهگرایی و ۵ - محافظهکاری
ظاهر تمام افراد در تصویرهای تولید شده با هوش مصنوعی، «محافظهکار» بود. برای مثال، هیچ کدام از آنها تتو (خالکوبی)، پیرسینگ (سوراخی برای آویز زینتی)، مدل موی غیرمتعارف و یا هر ویژگی دیگری که بتواند آنها را از ظاهر افراد پایبند به جریان اصلی محافظهکارانه متمایز کند، نداشت. همچنین بیشتر آنها لباسهایی مثل پیراهنهایی با دکمههای بسته و کراوات داشتند که نشانه انتظارات طبقاتی است. هرچند شاید این لباسی باشد که انتظار میرود افراد در مشاغل مشخصی مثل گویندگی تلویزیون بپوشند، لزوماً بازتابدهنده شیوه پوشش گزارشگران و خبرنگاران نیست.
بیشتر بخوانید: پیچیدگی مبارزه با اطلاعات نادرست در پی ایجاد تصاویر تولید شده با هوش مصنوعی
۶- شهرگرایی
هوش مصنوعی بدون آن که مکان یا زمینه جغرافیایی برای آن مشخص شود، تمام شخصیتها را در محیطهای شهری با آسمانخراشهای سر به فلک کشیده و ساختمانهای بزرگ شهری دیگر به تصویر کشید. این در حالی است که تنها اندکی بیش از نیمی از جمعیت جهان در شهر زندگی میکنند. این سوگیری برای دید ما نسبت به خود و میزان ارتباط ما با بخشهای دیگر جامعه پیامدهایی دارد.
هوش مصنوعی بدون آن که زمینه جغرافیایی برای آن مشخص شود، برای شغلی که مکان مشخصی ندارد، شخصیتها را در محیط شهری نشان داد؛ از جمله خبرنگار اعزامی (تصویر سمت راست) و خبرنگار (تصویر سمت چپ). Midjourney
۷- واپسگرایی
فنآوری دیجیتال، در این نمونه درست نمایش داده نشده بود. به جای آن، فنآوریهای مربوط به یک دوران کاملاً متفاوت، که در آن وسایلی چون ماشین تحریر، ماشین چاپ و دوربینهای بسیار قدیمی بزرگ به کار میآمدند، نمایش داده شدند.
از آنجایی که بسیاری از متخصصان، امروزه یکسان به نظر میرسند، گمان میرود که هوش مصنوعی به این علت فنآوریهای متمایزتری (از جمله فنآوریهای قدیمی) را به تصویر میکشد که بازنمایی خود از مشاغل را واضحتر نشان دهد.
دفعه بعد که از تصویرهای تولید شده با هوش مصنوعی استفاده کردید، از خود بپرسید که این تصویرها چقدر نشاندهنده جمعیت گستردهتر است و از بازنمایی آن، چه کسی سود خواهد برد.
همچنین، اگر خودتان با هوش مصنوعی تصویر تولید میکنید، هنگام دادن درخواست، سوگیریهای محتمَل را درنظر بگیرید. در غیر این صورت، ممکن است ناخواسته همان کلیشههای مخربی را تقویت کنید که جامعه دههها برای فراموش شدن آنها کوشیده است.
تی.جی. تامسن (T.J. Thomson)، استاد ارشد ارتباطات بصری و رسانههای دیجیتال در دانشگاه RMIT و رایان جی. توماس (Ryan J. Thomas)، استادیار مطالعات خبرنگاری در دانشگاه میزوری - کلمبیا
این مطلب در نشریه The Conversation منتشر شده بود و با رعایت مجوز حق نشر، در اینجا دوباره منتشر میشود. مقاله اصلی را میتوانید اینجا بخوانید.