گفت و گو با جان کیف، روزنامه نگار و فعال حوزه داده، پیرامون داده نگاری و انبوه سپاری

byرشیدا کمالMar 31, 2020 in داده‌نگاری
انتشار تصویر با مجوز Bloomicon/Shutterstock.com

رشیدا کمال: می‌شود کمی راجع به فعالیت‌هایتان در حوزه داده صحبت کنید؟

جان کیف: در حال حاضر در کوارتز تمرکز من روی «یادگیری ماشین» است و درک اینکه «یادگیری ماشین» تا چه اندازه می‌تواند به روزنامه نگاری تحقیقی و روزنامه‌نگاران در سرتاسر جهان کمک کند.

پیش از این با رادیوی «WNYC» کار می‌کردم که بزرگترین رادیوی عمومی شهر نیویورک است. آنجا هم با تیم داده رادیو همکاری می‌کردم و سعی می‌کردیم با استفاده خلاقانه از داده، محتوای رسانه‌ای تولید کنیم. در تولید برخی از آن مطالب از «انبوه‌سپاری» و روزنامه‌نگاری سنسور (استفاده از سنسورها برای ایجاد یا جمع‌آوری داده و نهایتا تحلیل داده) استفاده کردیم.

یکی از مطالبی که در «WNYC» با کمک روزنامه‌نگاری سنسور تولید کردیم و خیلی هم مطلب خوب و جالبی از آب در آمد «پروژه سیکادا» بود. برای آن مطلب از مردم خواستیم تا هر کجا که هستند، دمای کف زمین را اندازه‌گیری کنند. در اصل از آن‌ها خواستیم تا دماسنج را چند اینچ داخل زمین فرو کنند و دما را یادداشت کنند. نهایتا متوجه شدیم که اگر دمای داخل زمین را بدانیم، و از آن‌جایی که چرخه خروج سیکاداها (نوعی ملخ) از زیر زمین تا حدی است، می‌توان پیش‌بینی کرد که سیکاداها چه زمانی دقیقا قرار است از زیر زمین بیرون بیایند.

وقتی پروژه را شروع کردیم، فکر می‌کردیم شاید چند ده نفر در آن مشارکت کنند، اما نهایتا صدها نفر در آن شرکت کردند. از این طریق ما توانستیم دمای زمین را در نقاط مختلف دریافت کنیم و نقشه‌ای تهیه کنیم و ببینیم سیکاداها چه زمان از زمین خارج می‌شوند.

کار کردن با داده‌های انبوه و بزرگ چه مشکلاتی به همراه دارد؟

برای هر نوع «انبوه‌سپاری»، به ویژه وقتی برای جمع آوری داده نیاز به استفاده از دستگاه خاصی است، تو با سه مسئله اصلی مواجهی. اول این که چطور می‌خواهی کار با دستگاه را آموزش بدهی. دوم، چطور می‌خواهی داده را دریافت بکنی. و سوم این که این داده‌ها صد در صد دقیق نخواهند بود و دقت هم در روزنامه‌نگاری بسیار مهم است.

یادم است روی پروژه‌ای در هارلم نیویورک کار می‌کردیم و می‌خواستیم دما و رطوبت داخل خانه‌ها را در تابستان اندازه‌گیری بکنیم. تمرکزما روی خانه‌هایی بود که کولر نداشتند. ۵۰ سنسور کوچک ساختیم و از مردم خواستیم آن‌ها را داخل آپارتمانشان بگذارند. بیشتر سنسورها را خودم درست کردم و این سنسورها صد در صد دقیق نیستند، اما در نهایت آن‌چه مشخص بود این که دمای داخل این خانه‌ها، به ویژه شب‌ها، بسیار بالا بود. همین که این را بدانیم کافی بود که بفهمیم که این یک مسئله جدی است. در کنارش هم از متخصصین و محققین کمک گرفتیم و آن‌ها نیز همراه ما روی این پروژه کار کردند و هر زمانی که لازم بود اندازه‌گیری‌های خودشان را انجام می‌دادند.

وقتی پس از «انبوه‌سپاری» داده‌ها را تحویل می‌گیرید، پروژه تمیز‌کردن داده و حذف داده‌های بد به چه صورت است؟

بله خب، داده بد همیشه وجود دارد. داده‌های دولتی هم خالی از اشکال نیست. در داده‌های دولتی هم نهایتا یک شخصی به صورت دستی دارد اطلاعات را وارد می‌کند و ممکن است اشتباه کند. بنابراین برای کار با داده از ابتدا باید مشخص کنی که چه میزان از خطا برایت قابل گذشت است. آیا میزان خطا به کلیت داستان آسیب می‌زند؟ این خطا تا چه اندازه اهمیت دارد یا قابل گذشت است؟

در مورد پروژه سیکاداها، یک مقدار خطا به داستان آسیبی نمی‌زند. اما وقتی روی مسئله حیاتی‌تری کار می‌کنی، میزان خطا باید خیلی پایین‌تر باشد. زمانی که طوفان سندی به نیویورک رسید، می‌خواستیم روی یک پروژه «انبوه‌سپاری» کار کنیم. در برق رسانی اختلال ایجاد شده بود و روی خیلی داستان‌ها می‌شد کار کرد. یکی از آن‌ها این بود که ببینیم در این شرایط کدام پمپ بنزین‌ها برق دارند و می‌توانند بنزین ارائه دهند. شرایط آن موقع را تصور کنید و در آن شرایط ما از شنونده‌ها می‌خواستیم به ما بگویند وضعیت پمپ بنزین‌ها چگونه است. در رادیو در این مورد صحبت کردیم و نهایتا به این نتیجه رسیدیم که الان وقت کار روی این پروژه نیست. از یک طرف این داستان به مردم کمک می‌کرد بفهمند به کدام پمپ‌ بنزین‌ها می‌توانند مراجعه کنند. می‌توانستیم نقشه‌ای منتشر کنیم و به مردم کمک کنیم. ولی از یک طرف هم سرعت دریافت داده مطرح بود. ممکن بود داده‌ای که دریافت می‌کردیم کهنه شود. مثلا ممکن بود که یک پمپ بنزین ساعت یک ظهر برق و بنزین داشته باشد ولی ساعت سه که داستان آماده بود دیگر برق و بنزین نداشته باشد، یا برعکس.

به طور کلی هیچ داده‌ای صد درصد دقیق نیست. برای همین هم از همان اول باید به میزان خطای قابل پذیرش فکر کنی و این میزان خطا بسته به داستانی که داری روی آن کار می‌کنی تغییر می‌کند.

در خصوص پروژه سیکادا، سنسورهای خود را چطور تولید کردید؟

این سنسورها را با کمک قطعاتی که از فروشگاه‌های معمولی لوازم الکترونیک قابل تهیه بود ساختیم. در ابتدا تصمیم داشتیم این سنسورها را به موبایل یا دستگاه متصل به وایفای وصل کنیم تا اطلاعات به صورت خودکار گزارش شود. پیاده‌سازی این روش مشکلاتی را به همراه داشت. برای همین تصمیم گرفتیم سنسورهایی بسازیم که دمای زمان را روی صفحه اِل‌ای‌دی نشان می‌داد و مردم هم دمایی را که می‌دیدند یادداشت می‌کردند.

اگر شرکت‌کنندگان می‌خواستند که خودشان سنسورهای خودشان را بسازند، چه راهنمایی‌هایی در اختیارشان قرار می‌دادید؟

یک آموزش گام به گام داشیم که با رسم شکل و به طور دقیق نحوه ساخت این سنسورها را نشان می‌داد. این اطلاعات را به صورت آنلاین و همچنین فایل پی‌دی‌اف قابل چاپ در اختیارشان قرار می‌دادیم. تمام جزئیات را توضیح داده بودیم و بنابراین کاملا مشخص بود چطور باید این سنسور را بسازند. خیلی از شرکت‌کنندگان هم از همین روش سنسورهای خود را ساختند که خیلی هیجان‌انگیز بود.

ایده طراحی این سنسورها در جریان کنفرانس «نایکار»، یک کنفرانس حوزه روزنامه‌نگاری فن‌آوری، پرداخته شد. در این کنفرانس افرادی که با فن‌آوری و کدنویسی آشنا بودند کمکمان کردند تا این ایده را اجرایی کنیم.

یادم است که از طریق پادکست «Radiolab»  از مردم خواسته بودید تا در این پروژه مشارکت کنند. برای مشارکت مردم در پروژه سیکادا دیگر از چه طریقی فراخوان دادید؟

از هر طریق ممکن. به کسانی که می‌شناختیم تلفن زدیم. روی توییتر اطلاع‌رسانی کردیم. در یک مورد از کسانی که مایل به همکاری بودند دعوت کردیم که به ما در ساخت سنسورها کمک کنند و مکانی را برای این کار در نظر گرفتیم. عده زیادی آمدند و کمک کردند تا این سنسورها را بسازیم.

از زمان پروژه سیکادا به بعد چندین پروژه انبوه‌سپاری دیگر نیز انجام داده‌اید. آیا نحوه فعالیتتان در این حوزه نسبت به گذشته تغییر کرده است؟

بله، هر پروژه‌ای بسته به محتوایش برنامه‌ریزی‌های خاص خودش را دارد. در بسیاری از پروژه‌ها، نیازی به استفاده از سنسور و فن‌آوری‌های پیچیده نیست. همه چیز بستگی به این دارد که چه داستانی را می‌خواهید روایت کنید و چه نوع داده‌ای می‌خواهید تولید کنید. اول باید به داده مورد نظر فکر کرد و بعد تصمیم گرفت که خب، چطور می‌خواهیم این داده را تهیه کنیم.

پروژه انبوه‌سپاری‌ای دارید که مورد علاقه‌تان باشد؟

اولین پروژه انبوه‌سپاری‌ای که «WNYC» انجام داد جالب بود. از ساکنین نیویورک خواستیم تا به بقالی‌های محله‌شان بروند و قیمت سه قلم جنسی را که از آن‌ها خواسته بودیم به ما گزارش دهند. خیلی پروژه ساده و در عین حال جالبی بود. به ما کمک کرد نقشه‌ای از اقلام مشخصی داشته باشیم که قیمتشان در محله‌های مختلف نیویورک متفاوت بود.

پروژه‌های خوب زیاد است. از جمله پروژه اسوشیتد پرس در جریان المپیک بیجینگ که به بررسی آلودگی هوا در بیجینگ می‌پرداخت که خیلی پروژه جالبی بود. برای آن پروژه چالش‌های جالبی داشتیم. باید در چین که کسی ما را نمی‌شناخت، مردم را قانع می‌کردیم تا از سنسورهای ما استفاده کنند. برای این کار از فعالان حوزه محیط زیست محلی کمک گرفتیم. آن‌ها محله و افراد را می‌شناختند و برای پیشبرد پروژه با ما مشارکت کردند. همکاری خیلی جالبی بود و نتیجه‌اش هم یک مقاله علمی خوبی شد که چند ماه پیش منتشر شد.