Как находить, извлекать и использовать открытые данные

АвторJuan Manuel Casanueva
Mar 4, 2015 в Журналистика данных

Во времена Интернета защитники прозрачности много работают над тем, чтобы сделать открытые данные доступными для аудитории. Такие группы, как ILDA из Латинской Америки и рабочая группа по открытым данным международной организации "Открытое правительство", ставят своей целью не только изучать и анализировать открытость публичных данных, но и оценивать, как их используют информационные посредники.

Журналисты, "гражданские хакеры", научные и общественные организации активно используют открытые данные, преобразуя их в доступные форматы. В Латинской Америке репортеры проявили особенную изобретательность в поиске различных источников данных для своих расследований и публикаций. Но, поскольку движение за открытые данные в этом регионе относительно молодо, найти чистые, удобные для использования и доступные наборы данных все еще нелегко.

Являясь стипендиатом программы ICFJ Knight и сопромоутером Escuela de Datos и сообществ, занимающихся открытыми данными в Латинской Америке, я близко знаком с проблемами, с которыми журналисты сталкиваются при поиске и использовании данных, и с приемами, которые помогают им в этом. Я провел на эту тему семинар на Media Party Miami – прошедшем во Флориде двухдневном мероприятии, организованном стипендиатом программы ICFJ Knight Мариано Блейманом, в котором приняли участие журналисты, хакеры, ученые и студенты из США и Латинской Америки, работающие в области инноваций в сфере СМИ. Вот тезисы этого семинара:

Где найти данные?

– В очень немногих странах и городах Латинской Америки существуют порталы с открытыми данными (например, в Чили и Буэнос-Айресе). Поэтому, в отличие от США и некоторых европейских стран, те, кто ищет открытые данные, должны по крупицам искать их на возникающих государственных порталах или порталах гражданского общества. Тем не менее в таких странах, как Мексика или Перу, журналисты, "гражданские хакеры" и организации гражданского общества находят много данных и делают их доступными для аудитории.

– Движение за открытые данные показало, что данные можно найти везде и что занимающиеся этим группы могут найти и сделать доступными данные, важные для разных городов или стран. Так что, если данные доступны, но еще не открыты, журналисты всегда могут брать в качестве примера Voz Data – проект ресурса La Nación Data.

– Но помните, что мы живем в информационную эру, и собирать эту информацию становится все легче каждый день – с [новыми] мобильными приложениями, носимой электроникой и программами для сбора данных из широкого круга источников – от персональных медицинских данных до социальных медиа.

Как извлечь и очистить данные?

– Доступные данные обычно существуют в таких закрытых или полузакрытых форматах, как PDF. В таких случаях очень важно, чтобы журналисты научились выбирать данные и использовать различные инструменты для импортирования данных с веб-сайтов, из формата PDF и с отсканированных документов. Список учебных материалов и инструментов [по этой теме] доступен на schoolofdata.org.

– Умение очищать и стандартизировать данные – еще один основной навык, необходимый журналистам. Использование таких инструментов, как OpenRefine, или даже умелое использование таблиц даст вам возможность избавиться от дублированных данных, объединить переменные и соотнести друг с другом базы данных.

Как можно использовать открытые данные?

– Данные в основном используются для анализа, но способ анализа данных может быть разным. Например, "рассказчики" используют анализ данных для подтверждения уже готовой гипотезы (обычно это новость или история). Этот подход может быть очень эффективным, если журналист заботится о точном использовании данных и высока вероятность того, что он или она найдут в наборе данных ответы на интересующие их вопросы. С другой стороны, более аналитически настроенные пользователи (программисты или специалисты, занимающиеся данными) подходят к этому вопросу с более агностической точки зрения. Они анализируют все возможности и выдвигают и доказывают гипотезы, которые им подсказывают сами данные.

– Анализ данных может быть сложным, но обрабатывать и изучать данные будет гораздо легче, если у вас есть команда, включающая как "рассказчиков", так и технических специалистов. Вы можете увидеть результат такой коллективной работы на примере этой истории в La Nación.

– Не все латиноамериканские журналисты соглашаются друг с другом в том, как использовать данные в журналистике. Но, не углубляясь в дебаты о визуализации данных, полезным для некоторых журналистов подходом было бы использование данных в качестве источника для разговора и основы для истории. Выводы, сделанные на основе данных, стоит использовать для придания веса основным частям истории, а не для того, чтобы диктовать саму историю.

Изображение Stockmonkeys.com, лицензия СС.