Советы по поиску труднодоступных данных

Автор Rowan Philp
Jan 7, 2022 в Журналистика данных
Two people reviewing data.

Большая часть инфраструктуры, необходимой для проведения эффективных журналистских расследований – от всемирных баз данных до передовых инструментов на основе открытого исходного кода, – уже создана, и участники 12-й Глобальной конференции журналистов-расследователей (12th Global Investigative Journalism Conference (#GIJC21)) призывали журналистов всего мира использовать эти методы в своей работе.

Во время блицраунда на #GIJC21 у каждого из выступающих – членов группы репортеров и редакторов – было всего по пять минут, чтобы рассказать о том, что журналистам следует использовать для сбора труднодоступной информации.

Вот некоторые из прозвучавших на этой сессии советов.

Распознавание лиц

Подумайте о возможности использовать инструменты, позволяющие распознавать лица, – включая Findclone – для отслеживания и опознания людей, подозреваемых в экстремизме и занимающих неожиданные позиции во власти (например, неонацистов в правоохранительных органах). Независимый журналист Себастьен Бурдон, занимающийся расследованиями действий ультраправых, объяснил, что Findclone может подобрать пять совпадений – по шкале вероятности от нуля до единицы, – ориентируясь на фотографии лиц, размещенных на таких платформах социальных сетей, как российская ВК (ВКонтакте), и – что очень важно – инструмент ищет совпадения даже в удаленных аккаунтах. Занимающаяся расследованиями некоммерческая организация Bellingcat отметила, что применение таких систем, как Findclone, "очень ограничено, но дает отличные результаты, если нужно найти человека во ВК". При этом организация предупредила журналистов, что необходимо учитывать серьезные этические проблемы, связанные с использованием программ для распознавания лиц, и помнить, что эти системы часто используются в недобросовестных целях.

[Читайте также: Как проверять данные и источники информации]

Краудсорсинг

Попробуйте собирать данные и свидетельства с помощью таких инструментов, как CrowdNewsroom. Директор швейцарского отделения CrowdNewsroom Марк Энгельхардт рассказал, что инструмент позволяет журналистам запускать краудсорсинговые кампании, собирать данные с помощью простого в использовании инструмента для редактирования, а затем анализировать и проверять поступающую информацию. "Люди могут делиться своими данными или личными историями через эту платформу – и делать это безопасным для себя образом", – сказал он. 

 

CrowdNewsroom

 

По словам Энгельхардта, независимая платформа Correctiv уже использовала CrowdNewsroom для проведения нескольких расследований, включая отслеживание денег, стоящих за кампанией рекламных постеров в поддержку одной ультраправой европейской политической партии. В сборе данных для проекта приняли участие 3 500 человек.

Энгельгардт утверждает, что, поскольку этот метод зависит от привлечения помощи общественности, чтобы стать успешными, проектам нужно сотрудничать с НПО и партнерами из СМИ, их также продвигать свои идеи офлайн на общественных мероприятиях в заинтересованных сообществах.

Базы данных

Используйте возможности инструмента Aleph, созданного Проектом по освещению организованной преступности и коррупции (Organized Crime & Corruption Reporting Project (OCCRP)). Редактор данных OCCRP Ян Строжик рекомендует Aleph как интерактивный глобальный архив для проведения расследований. Основная работа во время проведения расследований на основе данных приходится на извлечение, очистку, разбор и преобразование информации – вся эта работа представляет собой "нижнюю часть айсберга", которую аудитория обычно не видит. По словам Строжика, несколько функций, которые предоставляет этот архив, помогут журналистам справиться с этой менее гламурной частью работы с данными.

Сейчас Aleph включает 309 общедоступных наборов данных, 200 скрейперов и данные о более чем 150 миллионах организаций. Строжик добавил, что платформа также позволяет репортерам безопасно делиться своими расследованиями с коллегами, загружать практически любые типы файлов, осуществлять поиск в различных скриптах и превращать данные в интерактивные графики, показывающие последующие связи.

Если вы хотите составить карту заявок на добычу полезных ископаемых и соблюдения нормативных требований в ЮАР – а также помочь журналистам, живущим в других странах, разобраться в том, как работает угольная промышленность, – ознакомьтесь с инструментом #MineAlerts, разработанным занимающейся экологическими расследованиями некоммерческой организацией Oxpeckers. Журналистка и менеджер по работе с данными Oxpeckers Андисва Матикинча говорит, что платформа сочетает цифровую базу данных и инструмент геожурналистики и включает документы, связанные с заявками на получение лицензий и действующими шахтами, а также информацию по важнейшему вопросу использования воды в шахтах.

 

Oxpeckers

 

Аналогичным образом база данных Offshore Leaks Database позволяет журналистам искать информацию для расследований, касающихся компаний, ведущих деятельность в нескольких странах. По словам дата-журналистки Международного консорциума журналистов-расследователей (International Consortium of Investigative Journalists (ICIJ)) Дельфины Рейтер, эта бесплатная база данных на основе открытого исходного кода уже содержит данные о 800 000 юридических лиц, и это число скоро увеличится, когда к ней будет добавлена информация из "Архива Пандоры". Рейтер также предложил несколько советов по использованию этого инструмента:

  • Во время поиска попробуйте использовать разные написания – например, "limited" и "ltd", или "corporation" и "corp." – и ставьте кавычки вокруг названий.
  • Работая с разделом "Могущественные игроки" (Power Players), включающим данные, которые были получены в ходе таких расследований, как Panama Papers и Paradise Papers, обращайте внимание на источник и дату, когда были собраны данные, и помните, что эти данные представляют информацию на тот момент, когда эти расследования проводились. Рейтер советует журналистам также проверять обновленные корпоративные записи для получения последней информации.
  • Хотя в базе данных можно проводить поиск по имени, адресу или стране, Рейтер отметила, что для получения точных результатов часто важно искать информацию о трастах и офшорных компаниях в категории "юрисдикция".

[Читайте также: Как находить и использовать в журналистике данные о конфликтах]

Ресурсы по конкретным странам

Обратите внимание, что существуют также новые базы данных по отдельным странам, например Украине и Казахстану. IT-специалист украинского издания Bihus.info Дмитрий Чаплинский советует журналистам, которые ищут информацию из государственных реестров, документы о раскрытии активов, данные о государственных закупках и другие государственные документы из Украины и Казахстана, обратить внимание на две новые, регулярно обновляемые базы данных с открытым исходным кодом. Ring – это система поиска документов по более чем 20 базам данных в Украине, включающим 29 миллионов публичных записей. Open Base – это аналогичное хранилище данных по Казахстану, содержащее около десятка источников данных. По словам Чаплинского, поиск в Ring можно осуществлять на украинском, английском и русском языках.

"Мои самые любимые инструменты – это R и R Studio", – признается редактор данных Мохаммад Хаддад из Al Jazeera.

Набор инструментов для ежедневной работы журналиста

Конечно, совершенно новые инструменты осваивать очень интересно, но не менее ценно, как мне кажется, изучать инструменты, которыми давно пользуются редакции, проводящие расследования. Мохаммад Хаддад, редактор данных в Al Jazeera Media Network, рассказал о пяти своих любимых инструментах, которые он использует каждый день.

  • Mapbox – и его функция Scrollytelling. "Если вы хотите рассказать историю, связанную с географией, то это именно тот инструмент, который вам нужен, – сказал Хаддад. – Это, безусловно, наш любимый инструмент для работы с картами. Вы можете взять с собой читателей даже в кругосветное путешествие – с помощью этого инструмента мы провели наших читателей по реке Нил и через спорный пограничный район, расположенный между Индией и Китаем".
  • Nivo. "Это отличный инструмент для визуализации данных, он требует минимального знания кодирования, а в результате мы получаем очень сложные визуализации данных,объяснил Хаддад. – "Аль-Джазира" использовала Nivo для анализа и создания визуализации информации о том, как страны в ООН голосовали по разным вопросам начиная с 1946 года".
  • AMP Stories. "Этой мобильной платформой для создания онлайн-историй легко пользоваться. Она отлично подходит для работы над историями, в центре которых стоят персонажи, и очень хорошо работает на мобильных телефонах, с которых, скорее всего, приходит большая часть вашего трафика, – отметил он. – Мы использовали AMP Stories для создания серии "100 лиц народа рохинджа", а также серий, посвященных чернокожим людям, убитым в США, и людям, убитым в Палестине и Мьянме".
  • Chartbeat. "Чтобы понять, какой отклик находит ваша история у аудитории, используйте в режиме реального времени аналитику Chartbeat, – советует Хаддад. – Для меня самая полезная функция этого инструмента – индикатор эффективности в социальных сетях, который помогает увидеть, как вашими историями делились в социальных медиа".
  • R coding и R Studio. "Мои самые любимые инструменты – это R и R Studio, – признается Хаддад. – Инструменты приходят и уходят, поэтому лучший инструмент – тот, который можно создать на языке программирования. R популярен у всей нашей команды, мы используем его для решения многих задач – начиная со сбора данных и заканчивая редактированием. Что можно делать с помощью R? Практически все".

 

Data visualization tool

 

Одна из поразительных общих особенностей всех инструментов, о которых рассказали участники дискуссии, – они делают огромные объемы информации управляемыми – и показывают, что любой репортер потенциально может найти в интернете доступные на различных языках данные в виде разных скриптов, типов файлов и изображений.

________________________________________

Эта статья была опубликована на сайте Глобальной сети журналистов-расследователей. Публикуется IJNet с разрешения.

Фото: UX Indonesia с сайта Unsplash.