Платформа Analice.me помогает журналистам автоматически анализировать тысячи документов

АвторMariano Blejman
Jun 9, 2014 в Miscellaneous

Святой Грааль цифрового журналиста – это инструмент, умеющий извлекать неструктурированные данные, систематизировать их и осуществлять перекрестную проверку.

Относительно легко проанализировать данные, собранные в таблицу. Но анализ тысячи документов – дело гораздо более сложное, даже если цель поиска та же самая – найти имена, названия мест и организаций, даты и заданные глаголы и понять, как эти данные связаны друг с другом.

Кому-то эта миссия может показаться невыполнимой, но два года назад на встрече команды Hacks/Hackers из Буэнос-Айреса мы с Мартином Сарсале начали искать способ облегчить анализ данных, полученных сразу из множества документов. Затем мы набрали команду, создавшую Analice.me, инструмент, который позволяет проводить семантический анализ документов, выявлять нужное и сравнивать информацию.

Работа началась с проекта Mapa76, анализа данных, связанных с временем последней аргентинской военной диктатуры, бывшей у власти с 1976 по 1983 год. 24 марта 2012 года, в 38-ю годовщину военного переворота в стране, мы нашли и проанализировали данные о тысячах людей, пропавших в период диктатуры.

Этот проект использован в качестве примера в Руководстве по журналистике данных. Mapa76 стал родоначальником Analice.me, начавшего теперь жить самостоятельной жизнью.

Analice.me обнаруживает данные, собирает их вместе и показывает связи между ними. В настоящее время возможен анализ только документов на испанском языке, но в ближайшие месяцы мы планируем включить и другие языки.

Analice.me отличается от большинства инструментов для анализа данных, которые обычно имеют сложные интерфейсы программирования, рассчитанные на разработчиков, а не на простых смертных. Если DocumentCloud – это фантастический менеджер документов, а Overview хорошо конвертирует данные в точки, то Analice.me дает документам возможность "говорить друг с другом" и находит взаимоотношения между различными данными.

Версия, доступная на веб-сайте в настоящее время, позволяет пользователям загружать документы (pdfs, txts и DOC), в которых система может обнаружить информационные точки. Она организует эту информацию в базу данных и дает возможность ее загрузки. Эти базы данных могут быть объединены с другими приложениями для создания графиков, карт и различных визуальных эффектов.

Программное обеспечение было разработано на Ruby on Rails, Freeling, DocSplit, Resque, Elasticsearch и MongoDB. Наша великолепная команда разработчиков базируется в Буэнос-Айресе. В нее также входит Маркос Ванетта, стипендиат программы Knight Mozilla Open News, недавно переехавший в Остин, штат Техас, для работы в Texas Tribune.

Analice.me ставит перед собой амбициозную цель: разработать набор алгоритмов и функций, который будет искать информацию об определенных событиях в текстах и соотносить ее с данными о других событиях, интересных для журналиста, занимающегося расследованиями. О некоторых экспериментах, связанных с этой темой, можно прочитать в замечательном блоге Untangled лаборатории Knight Северо-Западного университета.

Анализ социальных медиа для выявления соотношения сил и связей – новая тенденция в области журналистских расследований, но СМИ пока не используют эту возможность в полной мере. Они больше сосредоточены на обработке естественного языка, что позволяет им больше знать о потребителях, потому что бренды готовы платить за информацию о том, что люди думают о них. Но до сих пор ни одна из существующих платформ не могла автоматически анализировать факты.

Analice.me заполняет этот пробел.

Изображение предоставлено analice.me