Как использовать в журналистике небольшие наборы данных

Автор Juan Pablo Marín Díaz
Oct 30, 2018 в Журналистика данных

Во всех областях человеческой деятельности много ожиданий связано с большими данными, и журналистика здесь не исключение. Публикация "Панамских документов" и награждение команды журналистов, проводивших это расследование, Пулитцеровской премией стали важной вехой и продемонстрировали, как технологии, сотрудничество и данные помогают создавать значимые материалы.

В Datasketch мы предлагаем журналистам простые инструменты, которые помогают понять значение наборов данных и использовать их в материалах.

Одна из самых сложных проблем – необходимость снять налет таинственности с больших данных и роли, которую они играют в журналистских расследованиях.

Например, общий объем полученных журналистами данных в проекте "Панамские документы" составил около 2,6 терабайта (ТБ). Но только 22 мегабайта (MB) информации вошли в базу данных проекта, которая используется в большинстве публикаций.

Для сравнения давайте представим, что цена одного MB – одна копейка. Тогда 1 ТБ будет стоить 10 000 рублей. Получается, что из 26 000 рублей доступной информации только 22 копейки были использованы в публикациях. А это значит, что большой объем информации не использовался.

Поиск правды требует получения информации из различных источников и организации этих данных в меньшие по объему группы, на которых и строится история. Для построенных на данных журналистских работ каждый источник информации может стать путем для расследования уникальной истории. Вот почему, хотя журналистам очень помогают инструменты для анализа больших наборов данных, довольно трудно использовать эти технологии для проведения проектов, масштаб которых может меняться.

Пришествие "больших маленьких данных"

Насколько большими должны быть большие наборы данных? Ответ зависит от того, кого вы спрашиваете. Некоторые считают, что мы можем говорить о больших данных, если их объем превышает 1 TB (что примерно соответствует 2 миллионам фотографий).

Я предпочитаю использовать другое правило: "Большим можно назвать набор данных, который не вмещается в электронную таблицу".

Как я уже упоминал выше, даже в таких проектах, как "Панамские документы", окончательный набор данных, которые использовались в большинстве материалов, был коллекцией небольших наборов. Людям нужно представлять информацию в доступной форме. Независимо от того, насколько велик ваш журналистский материал, вы, скорее всего, будете использовать много разных небольших наборов данных.

Не будем себя обманывать – большие данные подходят для машин. Вместо того чтобы фокусироваться на больших данных, нам лучше стать мастерами в использовании в журналистике маленьких наборов данных. Представьте пару электронных таблиц в сопровождении не более двух тысяч строчек агрегированной информации.

Многие журналисты до сих пор не могут найти простой способ поиска небольших наборов данных – им также не хватает умения их исследовать и создавать на основе их материалы.

Где искать небольшие наборы данных

Одно из моих любимых мест для поиска данных – data.world. Организаторы используют технологии семантической паутины, позволяющие открывать наборы данных в различных форматах, и инструменты визуализации для анализа этих данных. Другой интересный сайт – Statista, на котором собраны миллионы единиц статистической информации, имеющей отношение к разным проектам. Этот набор данных будет особенно полезен для визуализации информации о тенденциях рынка и бизнеса.

Один из инновационных способов поиска небольших наборов данных – использовать данные, собранные гражданами. Такие небольшие наборы данных не только дают журналистам полезный источник информации, но и помогают лучше взаимодействовать с читателями и находить интересные темы для будущих материалов. В последнее время количество пользователей, публикующих в социальных медиа данные на интересующие их темы, только увеличивается.

Комбинирование небольших наборов данных

Для комбинирования небольших наборов данных лучше всего использовать такие инструменты визуализации, как datawrapper или flourish. Другой инструмент – Figshare первоначально был разработан для ученых: он помогал им делиться графиками и данными. Сейчас любой исследователь может найти на этом сайте много полезной информации.

Больше информации о ресурсах для работающих с данными журналистов можно найти на нашем портале Datasketch.

Использование небольших наборов данных в журналистских материалах

Умение работать с данными открывает двери новым, инновационным формам журналистики, которая приводит к ощутимым результатам. В прошлом году журналисты Datasketch связались с пользователем Twitter, собиравшим информацию об убийствах женщин. Это привело к созданию отчета о насилии в отношении женщин в Колумбии.

Вместе мы создали самую полную базу данных по убийствам женщин в Колумбии – мы использовали различные источники, включая запросы на основании Акта о свободе информации (FOIR) с нашей платформы QueremosDatos, наборы данных, онлайн-опросы и многое другое.

Результат помог нам сформировать окончательный вариант отчета, в котором мы предоставили читателям доступ к 30 небольшим наборам данных. Эта работа не только рассказывает историю о насилии, но также способствует переменам. Благодаря собранной информации мы смогли оказать давление на правительство Колумбии и заставить его действовать. Мы провели мероприятие, в ходе которого люди демонстрировали собранные нами данные об убийствах женщин.

Источник основной фотографии Kevin Ku, лицензия CC ресурса Pexels.