Как использовать Google Refine при очистке данных для вашей очередной статьи

АвторMaite Fernandez
Oct 24, 2011 в Цифровая журналистика

Несколько месяцев электронной переписки, телефонных звонков и запас терпения - и вот вы наконец-то получили необходимую вам информацию от одного из государственных агентств.

Прежде чем мечтать о Пулитцеровской премии за все те замечательные статьи, которые вы напишете, обратите внимание на то, что ваши данные имеют неупорядоченный вид и в них очень сложно разобраться.

Google Refine позволит вам очистить данные перед тем, как начать с ними работу и делать какие-либо выводы. Для начала вам нужно загрузить Google Refine. Согласно этому руководству, Refine открывается с помощью вашего интернет-браузера, но при этом является автономным приложением, поэтому вам не придется волноваться об отправке в интернет особо важной информации. Эта программа совместима с Windows, Mac и Linux и, что самое приятное, она бесплатна.

Создав имя для своего проекта, нажмите кнопку «Создать проект» и Google Refine отобразит ваши данные. Теперь вы можете приступать к работе над вашим проектом. Прежде всего вам стоит обратить внимание на то, что существуют различные способы форматирования одинаковой информации. Например, существует множество способов записи дат: 6 октября 2011, 6.10.2011 и т.д. То же самое касается и числовых и текстовых полей (D.C. можно записать как DC, District of Columbia, и т.д.).

Если одинаковая информация будет иметь различный формат, то при поиске закономерностей среди вашего набора данных вы получите неполные и, следовательно, недостоверные результаты, которые не смогут быть использованы в вашей статье.

Исправить это вы сможете при помощи текстовой или числовой функции Google Refine, которая объединяет идентичные ячейки и показывает вам, как часто они повторяются. Например, эта функция покажет вам, сколько полей содержат вариант DC, а сколько - District of Columbia. (Больше об этой функции вы можете узнать из этого учебного видео-руководства).

Данная функция поможет вам установить, есть ли среди вашего набора данных одинаковые поля, записанные с помощью различных названий. Например, в этом измененном наборе данных об экономической поддержке США другим странам мира, данные, обозначающие «Камерун», были внесены двумя различными способами. Вы также можете исправить эту проблему здесь же, изменив названия полей.

Еще одна похожая интересная функция - «кластеризация» - находит группы ячеек с различными значениями, которые могут нести одинаковую информацию. О функции кластеризации и способах ее использования вы можете прочитать здесь.

Google Refine также дает вам возможность удалить лишние пробелы для получения более однородных данных. Хотя вы можете и не заметить лишний пробел в слове, он может стать проблемой при анализе данных. Вы можете избавиться от лишних пробелов при помощи функции «убрать лишние пробелы перед и после слов», как описано в этом руководстве, составленном Полом Брэдшо.

Если вы сделаете ошибку при редактировании данных, вы можете легко ее исправить, отменив выполненное действие. Google Refine запоминает все изменения, сделанные вами в ходе работы, чтобы при необходимости вы могли легко вернуться назад.

Вы можете загрузить Refine здесь. Несколько обучающих программ помогут вам начать работу с приложением. Refine также включает образцы наборов данных, что позволит вам потренироваться в работе с программой.

Вам также предлагается очень полезное руководство об использовании данного приложения редакцией ProPublica для написания своей статьи «Доллары для докторов. Как деньги фармацевтической промышленности попадают в карманы ваших врачей», которая принесла редакции Пулитцеровскую премию. Вы также можете посмотреть руководство Пола Брэдшо здесь.