Как журналисты могут извлечь максимальную пользу из имеющихся данных

АвторAlex Ludka
Jul 10, 2015 в Журналистика данных

Многие журналисты могут использовать в своих материалах общедоступные данные. Но даже когда у журналистов есть свободный доступ к информации, ее не всегда легко найти. И зачастую уже найденные данные бывает еще труднее расшифровать, чем найти.

Джефф Cayc, профессор и директор программ бакалавриата Школы массовых коммуникаций Университета содружества штата Вирджиния, поговорил с шестнадцатью латиноамериканскими журналистами, приехавшими в США в рамках организованной ICFJ программы "Цифровой путь к предпринимательству и инновациям для стран Латинской Америки", которая была посвящена лучшим способам находить, понимать и визуализировать данные.

Используя график, созданный Полом Брэдшоу из OnlineJournalismBlog.com, Саус рассказал о шагах, необходимых для эффективной работы в журналистике данных.

Сбор данных из разных источников

"Первым шагом, конечно, должен быть поиск данных, – сказал Саус. – Вы можете найти их в Интернете, где они могут храниться в PDF-формате. В таком случае вам необходимо будет извлечь данные".

Кроме таких привычных тактик поиска информации, как использование социальных медиа или поисковых систем, Саус подчеркнул необходимость глубокого поиска в Интернете.

"Большое количество доступной онлайн информации нельзя найти в открытой сети. Такая информация может находиться в государственных базах данных, и вы должны знать, где найти эти базы данных, – сказал он. – Многие государственные данные открыты, но если вы не знаете, где их искать, вы их не найдете".

Саус рассказал членам группы о полезных базах данных, которые они могут использовать в своей работе, включая сайты Федерального Реестра, Государственной комиссии по ценным бумагам и фондовому рынку США и Федеральной избирательной комиссии.

Очистка данных

Очень часто нам приходится иметь дело с "грязными данными" – это значит, что они содержат разрозненную информацию, – сказал Саус. – В такой базе данных мое имя в одном документе могло бы значиться как "Саус, Джефф", в другом – как "Саус, Джеффри", а в третьем – как "Саус, Дж. C.". Данные могут быть очень грязными, и нам нужно очистить их, прежде чем мы сможем их использовать".

Саус предложил использовать для очистки грязных данных такие бесплатные онлайн-инструменты, как TextWrangler или OpenRefine.

Контекст

После того как вы собрали данные и очистили их, нужно понять, что они значат. Это означает, что нужно задать себе такие вопросы, как: "Кто собирал данные?", "Когда они были собраны?", "Какой метод использовался?".

Разобравшись в данных, вы можете использовать их в своих материалах.

Комбинирование

Журналисты в работе часто используют более чем один набор данных. Саус привел пример использования двух списков: списка всех водителей автобусов в городе и списка всех людей этого города, осужденных за вождение в нетрезвом виде. Объединив эти два списка, можно обнаружить, что среди водителей автобусов высок процент тех, кто был осужден за вождение в нетрезвом виде. Это может стать основой для хорошего материала.

Но Саус также предупредил, что на этом этапе чрезвычайно важно использовать данные без отрыва от контекста. "Корреляция – это не то же самое, что выяснение причин, – сказал он. – Важно знать о внешних факторах, которые могут повлиять на данные".

К четырем шагам, представленным в графике Брэдшоу, Саус добавил пятый: визуализацию.

"Визуализация данных очень важна для того, чтобы рассказать общественности о том, что мы делаем", – сказал он.

Для создания визуализации, которая поможет журналистам рассказывать свои истории, Саус предложил использовать такие инструменты, как Timeline JS для создания интерактивных таймлайнов, Infogram для инфографики и Chartbuilder для диаграмм.

Это сообщение первоначально было опубликовано на сайте Международного центра для журналистов и публикуется на сайте IJNet с разрешения.

Верхнее изображение Intel Free Press, лицензия CC сайта Flickr. Второе изображение предоставлено Павлом Брэдшоу – OnlineJournalismBlog.com.