Paradise Papers: методы и инструменты для проведения обширного журналистского расследования

Автор Fabiola Torres López
Oct 30, 2018 в Расследовательская журналистика

Публикации материалов расследования Paradise Papers ("Документы райских островов") открывают нам все больше секретной информации о том, как корпорации, политики и знаменитости всего мира скрывают свои деньги в налоговых убежищах. Журналисты, проводящие это международное расследование, подтверждают важность совместной работы и ценность компьютерных технологий, дающих нам возможность переосмыслить методы поиска и анализа данных и способы освещения новостей.  

Специально для этого расследования Международный консорциум журналистов-расследователей (ICIJ) создал три рабочих платформы, которыми пользовались 383 репортера из 67 стран: одну – для общения участников проекта (Global I-Hub), вторую – для поиска документов (Global Knowledge Center) и третью – для поиска связей между найденными данными (Linkurius). "Это единственный возможный способ проводить такую масштабную работу", – рассказала нам заместитель директора ICIJ Марина Уокер, когда мы встретились с ней в Мюнхене в марте 2017 года, чтобы скоординировать детали этого проекта, который был представлен публике семь месяцев спустя.

Как и в случае с расследованием "Панамских документов", новая утечка 13,4 млн. документов офшорных юридических фирм Appleby и Asiaciti Trust появилась благодаря двум журналистам немецкой газеты Süddeutsche Zeitung: Бастиану Обермайеру и Фредерику Обермайеру. Они предоставили найденные данные ICIJ, чтобы организовать то, что теперь называют расследованием "Документов райских островов". Большинство занятых в проекте журналистов уже участвовали в других международных расследованиях ICIJ и знали, что нужно делать. Однако каждый новый проект сталкивался с новыми трудностями.

Расследованию потребовалось несколько месяцев на изучение документов, электронных писем, PDF-файлов и индексированных изображений, которое проходило на зашифрованной платформе Global Knowledge Center. В результате этой работы мы получили большое количество материалов. Обнаружив данные, имеющие отношение к какой-либо компании или публичному лицу, заслуживающим того, чтобы мы включили их в наш проект, мы начинали работу на местах. Такая работа во многих случаях включала поездки, перекрестную проверку информации и изучение внешних баз данных, а также проведение интервью и поиски других источников информации – это давало нам возможность понять потенциальное значение истории.

Команда ICIJ во главе с Мариной Уокер стала постоянным организующим и направляющим работу звеном для всех журналистов, сотрудничающих с проектом "Документы райских островов". Специалисты этой организации Мар Кабра, Эмилия Диаз-Страк, Сесиль С. Галлего и Ригоберто Карвахаль помогли нам разобраться в миллионах единиц информации, доступных в разных форматах. Сначала мы имели дело с неструктурированными данными. После того как они были организованы, мы увидели финансовые транзакции, контракты, банковские переводы и списки клиентов, а также методы, которые такие многонациональные компании, как Glencore, используют, чтобы обойти правила, уклоняться от налогов и скрывать свои активы в офшорных зонах.  

Мы получили огромный объем данных, охватывающих период почти в 70 лет: с 1950 по 2016 год – и это одно из основных отличий между документами фирм Appleby и Asiaciti Trust, ставших основой расследования "Документы с райских островов", и утечкой документов компании Mossack Fonseca, легших в основу расследования "Панамские документы". Клиенты этих фирм тоже отличаются друг от друга: новые документы имеют отношение к многонациональным компаниям и сверхбогатым людям, информацию о которых можно найти в 19 налоговых гаванях, включая Бермудские и Багамские острова, Барбадос, Мальту и остров Мэн. Среди имен, информация о которых встречается в базе данных, – королева Елизавета, члены кабинета президента Дональда Трампа, певцы Боно и Шакира, а также корпорации Apple, Nike и Facebook.

Расследование "Документы райских островов" основывается на около 1,4 терабайта данных – что составляет немногим больше половины объема прошлогодней утечки данных, ставших основой "Панамских документов"

Если бы участвующие в проекте журналисты работали сами по себе и не использовали новые методы и технологии, наработанные командой ICIJ, на расследование ушли бы не месяцы, а годы. Для всего мира ICIJ стал образцом организации, проводящей трансграничные расследования.

Теперь я расскажу об инструментах и программах, которые мы использовали, работая в проекте "Документы райских островов". Они делятся на три категории: цифровая безопасность, поиск документов и сопоставление данных.

Цифровая безопасность

VeraCrypt

ICIJ хранит 13,4 миллиона документов, которые составляют основу расследования "Документы райских островов", в зашифрованной с помощью VeraCrypt системе с открытым исходным кодом, позволяющей скрывать информацию. Эта программа предлагает двойное шифрование: необходим один пароль для доступа к первому уровню информации и второй пароль – для доступа ко второму – невидимому – уровню. Такая система делает маловероятной возможность, что человек, не входящий в проводящую расследование команду, заметит существование второго секретного уровня данных.

Шифрование электронных писем

Каждый член команды ICIJ и люди, предоставляющие нам информацию, общаются и обмениваются документами с помощью зашифрованных электронных писем, используя такие расширения, как Mailvelope. Для этого необходимо обменяться только ключами PGP (Pretty Good Privacy).

Global I-Hub

Своего рода внутренний Facebook для журналистов – участников проекта, Global I-Hub предоставляет доступ через регистрацию пользователей и двухфакторную систему аутентификации. На этой платформе группы делятся по темам. Существует также общая лента новостей и внутренняя система обмена сообщениями. "Это наша виртуальная редакция", – говорит Мар Кабра, редактор по работе с данными ICIJ. Для создания этой платформы использовалось программное обеспечение с открытым исходным кодом Oxwall.

Поиск документов

Knowledge Center

Для работы с документами журналистам необходимо было получить доступ к зашифрованной платформе Knowledge Center – для этого нужны имя пользователя и код для аутентификации. Эта поисковая система теперь объединяет базы данных трех последних крупных утечек документов в мире: Offshore Leaks, "Панамские документы" и "Документы райских островов".

Поисковая система позволяет видеть папки документов, организованные по годам и типу файлов, а также облегчает поиск данных по определенным словам. Когда документ найден, его можно просмотреть и загрузить.

Техническая команда ICIJ использовала для создания Knowledge Center три программы: Apache Tika для извлечения и обработки данных; Apache Solr для их систематизации и Blacklight, с помощью которой была создана понятная и удобная поисковая система.

Nuix

Разработчики ICIJ и команда Süddeutsche Zeitung использовали программное обеспечение Nuix для обработки более 10 миллионов документов, включая электронные письма, отсканированные документы, PDF-файлы и изображения. Эта программа позволила нам провести своего рода экспертизу информации и использовать оптическое распознавание изображений, превращая их в доступные для анализа текстовые документы. Например, сканируя контракт или билет, мы сохраняем их как изображения, но Nuix может также распознать, есть ли на них текст, и извлечь его.

После обработки введенных данных техническая команда проекта "Документы райских островов" создала базу данных, внутри которой журналисты могли исследовать все типы файлов.

Взаимосвязь данных

Linkurious и Neo4j

Для визуализации огромного объема данных проекта "Документы райских островов" журналисты использовали лицензированное программное обеспечение Linkurious, превращающее данные в графику, которая использовалась для иллюстрации изменчивых, сложных связей между людьми и организациями, обладающими богатствами и властью. Этот инструмент работает очень просто: в него встроена система поиска, в которую можно ввести интересующие вас имена и в результате получить график всех связей, информация о которых есть в базе данных.

Посмотрите на эту визуализацию данных, сделанную с помощью Linkurius

Для начала работы с системой Linkurius ее нужно было подготовить, что сделала техническая команда ICIJ: она перевела информацию о "Документах райских островов" из формата SQL в графический формат Neo4j, используя программу Talend.

Фабиола Торрес Лопес работает с журналистами в Центральной Америке, Мексике и Колумбии, помогая им освоить новейшие методы цифровой расследовательской журналистики, чтобы улучшить освещение тем коррупции, прозрачности и организации управления. Более подробно о ее работе в качестве стипендиата программы ICFJ Knight можно узнать здесь.

Верхняя фотография предоставлена ICIJ; вторая фотография сделана Фабиолой Торрес Лопес.