رشیدا کمال: میشود کمی راجع به فعالیتهایتان در حوزه داده صحبت کنید؟
جان کیف: در حال حاضر در کوارتز تمرکز من روی «یادگیری ماشین» است و درک اینکه «یادگیری ماشین» تا چه اندازه میتواند به روزنامه نگاری تحقیقی و روزنامهنگاران در سرتاسر جهان کمک کند.
پیش از این با رادیوی «WNYC» کار میکردم که بزرگترین رادیوی عمومی شهر نیویورک است. آنجا هم با تیم داده رادیو همکاری میکردم و سعی میکردیم با استفاده خلاقانه از داده، محتوای رسانهای تولید کنیم. در تولید برخی از آن مطالب از «انبوهسپاری» و روزنامهنگاری سنسور (استفاده از سنسورها برای ایجاد یا جمعآوری داده و نهایتا تحلیل داده) استفاده کردیم.
یکی از مطالبی که در «WNYC» با کمک روزنامهنگاری سنسور تولید کردیم و خیلی هم مطلب خوب و جالبی از آب در آمد «پروژه سیکادا» بود. برای آن مطلب از مردم خواستیم تا هر کجا که هستند، دمای کف زمین را اندازهگیری کنند. در اصل از آنها خواستیم تا دماسنج را چند اینچ داخل زمین فرو کنند و دما را یادداشت کنند. نهایتا متوجه شدیم که اگر دمای داخل زمین را بدانیم، و از آنجایی که چرخه خروج سیکاداها (نوعی ملخ) از زیر زمین تا حدی است، میتوان پیشبینی کرد که سیکاداها چه زمانی دقیقا قرار است از زیر زمین بیرون بیایند.
وقتی پروژه را شروع کردیم، فکر میکردیم شاید چند ده نفر در آن مشارکت کنند، اما نهایتا صدها نفر در آن شرکت کردند. از این طریق ما توانستیم دمای زمین را در نقاط مختلف دریافت کنیم و نقشهای تهیه کنیم و ببینیم سیکاداها چه زمان از زمین خارج میشوند.
کار کردن با دادههای انبوه و بزرگ چه مشکلاتی به همراه دارد؟
برای هر نوع «انبوهسپاری»، به ویژه وقتی برای جمع آوری داده نیاز به استفاده از دستگاه خاصی است، تو با سه مسئله اصلی مواجهی. اول این که چطور میخواهی کار با دستگاه را آموزش بدهی. دوم، چطور میخواهی داده را دریافت بکنی. و سوم این که این دادهها صد در صد دقیق نخواهند بود و دقت هم در روزنامهنگاری بسیار مهم است.
یادم است روی پروژهای در هارلم نیویورک کار میکردیم و میخواستیم دما و رطوبت داخل خانهها را در تابستان اندازهگیری بکنیم. تمرکزما روی خانههایی بود که کولر نداشتند. ۵۰ سنسور کوچک ساختیم و از مردم خواستیم آنها را داخل آپارتمانشان بگذارند. بیشتر سنسورها را خودم درست کردم و این سنسورها صد در صد دقیق نیستند، اما در نهایت آنچه مشخص بود این که دمای داخل این خانهها، به ویژه شبها، بسیار بالا بود. همین که این را بدانیم کافی بود که بفهمیم که این یک مسئله جدی است. در کنارش هم از متخصصین و محققین کمک گرفتیم و آنها نیز همراه ما روی این پروژه کار کردند و هر زمانی که لازم بود اندازهگیریهای خودشان را انجام میدادند.
وقتی پس از «انبوهسپاری» دادهها را تحویل میگیرید، پروژه تمیزکردن داده و حذف دادههای بد به چه صورت است؟
بله خب، داده بد همیشه وجود دارد. دادههای دولتی هم خالی از اشکال نیست. در دادههای دولتی هم نهایتا یک شخصی به صورت دستی دارد اطلاعات را وارد میکند و ممکن است اشتباه کند. بنابراین برای کار با داده از ابتدا باید مشخص کنی که چه میزان از خطا برایت قابل گذشت است. آیا میزان خطا به کلیت داستان آسیب میزند؟ این خطا تا چه اندازه اهمیت دارد یا قابل گذشت است؟
در مورد پروژه سیکاداها، یک مقدار خطا به داستان آسیبی نمیزند. اما وقتی روی مسئله حیاتیتری کار میکنی، میزان خطا باید خیلی پایینتر باشد. زمانی که طوفان سندی به نیویورک رسید، میخواستیم روی یک پروژه «انبوهسپاری» کار کنیم. در برق رسانی اختلال ایجاد شده بود و روی خیلی داستانها میشد کار کرد. یکی از آنها این بود که ببینیم در این شرایط کدام پمپ بنزینها برق دارند و میتوانند بنزین ارائه دهند. شرایط آن موقع را تصور کنید و در آن شرایط ما از شنوندهها میخواستیم به ما بگویند وضعیت پمپ بنزینها چگونه است. در رادیو در این مورد صحبت کردیم و نهایتا به این نتیجه رسیدیم که الان وقت کار روی این پروژه نیست. از یک طرف این داستان به مردم کمک میکرد بفهمند به کدام پمپ بنزینها میتوانند مراجعه کنند. میتوانستیم نقشهای منتشر کنیم و به مردم کمک کنیم. ولی از یک طرف هم سرعت دریافت داده مطرح بود. ممکن بود دادهای که دریافت میکردیم کهنه شود. مثلا ممکن بود که یک پمپ بنزین ساعت یک ظهر برق و بنزین داشته باشد ولی ساعت سه که داستان آماده بود دیگر برق و بنزین نداشته باشد، یا برعکس.
به طور کلی هیچ دادهای صد درصد دقیق نیست. برای همین هم از همان اول باید به میزان خطای قابل پذیرش فکر کنی و این میزان خطا بسته به داستانی که داری روی آن کار میکنی تغییر میکند.
در خصوص پروژه سیکادا، سنسورهای خود را چطور تولید کردید؟
این سنسورها را با کمک قطعاتی که از فروشگاههای معمولی لوازم الکترونیک قابل تهیه بود ساختیم. در ابتدا تصمیم داشتیم این سنسورها را به موبایل یا دستگاه متصل به وایفای وصل کنیم تا اطلاعات به صورت خودکار گزارش شود. پیادهسازی این روش مشکلاتی را به همراه داشت. برای همین تصمیم گرفتیم سنسورهایی بسازیم که دمای زمان را روی صفحه اِلایدی نشان میداد و مردم هم دمایی را که میدیدند یادداشت میکردند.
اگر شرکتکنندگان میخواستند که خودشان سنسورهای خودشان را بسازند، چه راهنماییهایی در اختیارشان قرار میدادید؟
یک آموزش گام به گام داشیم که با رسم شکل و به طور دقیق نحوه ساخت این سنسورها را نشان میداد. این اطلاعات را به صورت آنلاین و همچنین فایل پیدیاف قابل چاپ در اختیارشان قرار میدادیم. تمام جزئیات را توضیح داده بودیم و بنابراین کاملا مشخص بود چطور باید این سنسور را بسازند. خیلی از شرکتکنندگان هم از همین روش سنسورهای خود را ساختند که خیلی هیجانانگیز بود.
ایده طراحی این سنسورها در جریان کنفرانس «نایکار»، یک کنفرانس حوزه روزنامهنگاری فنآوری، پرداخته شد. در این کنفرانس افرادی که با فنآوری و کدنویسی آشنا بودند کمکمان کردند تا این ایده را اجرایی کنیم.
یادم است که از طریق پادکست «Radiolab» از مردم خواسته بودید تا در این پروژه مشارکت کنند. برای مشارکت مردم در پروژه سیکادا دیگر از چه طریقی فراخوان دادید؟
از هر طریق ممکن. به کسانی که میشناختیم تلفن زدیم. روی توییتر اطلاعرسانی کردیم. در یک مورد از کسانی که مایل به همکاری بودند دعوت کردیم که به ما در ساخت سنسورها کمک کنند و مکانی را برای این کار در نظر گرفتیم. عده زیادی آمدند و کمک کردند تا این سنسورها را بسازیم.
از زمان پروژه سیکادا به بعد چندین پروژه انبوهسپاری دیگر نیز انجام دادهاید. آیا نحوه فعالیتتان در این حوزه نسبت به گذشته تغییر کرده است؟
بله، هر پروژهای بسته به محتوایش برنامهریزیهای خاص خودش را دارد. در بسیاری از پروژهها، نیازی به استفاده از سنسور و فنآوریهای پیچیده نیست. همه چیز بستگی به این دارد که چه داستانی را میخواهید روایت کنید و چه نوع دادهای میخواهید تولید کنید. اول باید به داده مورد نظر فکر کرد و بعد تصمیم گرفت که خب، چطور میخواهیم این داده را تهیه کنیم.
پروژه انبوهسپاریای دارید که مورد علاقهتان باشد؟
اولین پروژه انبوهسپاریای که «WNYC» انجام داد جالب بود. از ساکنین نیویورک خواستیم تا به بقالیهای محلهشان بروند و قیمت سه قلم جنسی را که از آنها خواسته بودیم به ما گزارش دهند. خیلی پروژه ساده و در عین حال جالبی بود. به ما کمک کرد نقشهای از اقلام مشخصی داشته باشیم که قیمتشان در محلههای مختلف نیویورک متفاوت بود.
پروژههای خوب زیاد است. از جمله پروژه اسوشیتد پرس در جریان المپیک بیجینگ که به بررسی آلودگی هوا در بیجینگ میپرداخت که خیلی پروژه جالبی بود. برای آن پروژه چالشهای جالبی داشتیم. باید در چین که کسی ما را نمیشناخت، مردم را قانع میکردیم تا از سنسورهای ما استفاده کنند. برای این کار از فعالان حوزه محیط زیست محلی کمک گرفتیم. آنها محله و افراد را میشناختند و برای پیشبرد پروژه با ما مشارکت کردند. همکاری خیلی جالبی بود و نتیجهاش هم یک مقاله علمی خوبی شد که چند ماه پیش منتشر شد.