Анализ данных помогает журналистам находить интересные, малоизвестные истории и создавать визуализации, помогающие привлекать аудиторию.
Но прежде вам нужно получить информацию в понятном и удобном для использования формате. Потому что данные чаще всего представлены в формате pdf или находятся на веб-сайтах, и журналистам трудно с ними работать. Значит, им нужно извлечь данные, а потом конвертировать их в формат, дающий возможность легко искать, сортировать и фильтровать информацию.
Существует много разных способов извлечения данных. В этой статье мы поговорим о двух простых в использовании (и бесплатных!) инструментах, для работы с которыми не нужно разбираться в программировании.
Извлечение данных с веб-страниц
Если вы видите интересные данные на веб-страницах, вам, скорее всего, интуитивно хочется просто скопировать их и вставить в таблицу Excel. Однако этот подход, как правило, дает не очень хорошие результаты.
В такой ситуации вам поможет Table Capture. Это бесплатное расширение Google Chrome дает возможность копировать таблицы в формате HTML с онлайн-страниц и переводить их в форматы Microsoft Excel, Open Office или Google Sheets.
На приведенном внизу примере мы использовали Table Capture. С его помощью мы извлекли данные о туберкулезе с сайта TBFacts, бесплатно публикующего информацию об этом заболевании, и перевели эти данные в формат Google Sheets.
1. Для начала вам потребуется установить приложение Table Capture из интернет-магазина Chrome. После этого вы всегда сможете им пользоваться (иконка будет в верхнем правом углу вашего браузера). На расположенном ниже скриншоте на нее указывает стрелка.
2. Когда приложение замечает таблицы HTML на веб-сайте, иконка Table Capture меняет цвет с черного на красный. Клик на красную иконку открывает выпадающее меню, в котором показаны расположенные на веб-странице и доступные для копирования данные. На приведенной ниже фотографии вы можете видеть одну таблицу с данными, доступными для извлечения.
3. Для извлечения набора данных сначала кликните на "(123 x 4)" в выпадающем меню – инструмент автоматически выберет и скопирует данные. Затем кликните на зеленую иконку с изображением таблицы в верхнем правом углу меню, чтобы открыть Google Sheets, и вставьте данные в таблицу.
Обратите внимание: если на странице расположено несколько таблиц, выберите функцию "Выделить все таблицы", чтобы скопировать их одновременно.
Извлечение данных из документов в формате PDF
Если вам нужно извлечь данные из документа в формате PDF и вставить их в таблицу, вам поможет бесплатный и легкий в использовании инструмент Tabula. Tabula обрабатывает текстовые PDF-документы – и не работает с отсканированными документами. Давайте попробуем!
1. Загрузите и установите Tabula на свой компьютер. Ссылку для скачивания можно найти на веб-сайте Tabula. Эта программа совместима с компьютерами PC и Mac.
2. Откройте Tabula – и вы увидите синюю кнопку "Скачать". Кликните на нее, чтобы выбрать pdf-файл, который вы хотите загрузить с компьютера – это займет 20-30 секунд. Файл будет добавлен в папку "Импортированные pdf-файлы" – пример списка вы видите на размещенной внизу иллюстрации.
3. Tabula покажет вам превью импортированного pdf-файла. Пролистайте страницы и найдите данные, которые вы хотите извлечь.
4. Нажмите на кнопку мыши и проведите курсором над таблицей, данные которой вы хотите извлечь. Tabula выделит нужное красным.
5. Кликните на зеленую кнопку "Просмотреть и экспортировать извлеченные данные", расположенную в верхней части страницы.
6. Tabula покажет, как будут выглядеть выбранные данные. Выберите функцию "Экспортировать в формат CSV". CSV, что означает "значения, разделенные запятыми", – широко распространенный и легкий в использовании файловый формат.
7. Нажмите на "Экспорт" и загрузите CSV-файл на свой компьютер.
8. Откройте файл – данные готовы для анализа в формате Excel.
Извлечение данных не должно быть неоправданно сложным делом – и этот навык может быть очень полезен для журналистов – например, для поиска неизвестных историй, которые иначе так и остались бы незамеченными. Table Capture и Tabula – отличные инструменты для новичков в деле извлечения данных, а после того как вы научитесь использовать эти инструменты, они предложат вам дополнительные возможности. Так что не бойтесь экспериментировать.
И – удачной охоты за данными!
Санджит Обера – бывший стипендиат программы ICFJ Knight. Он живет в Индии и сотрудничает с PROTO.
Источник основной фотографии Markus Spiske, лицензия CC сайта Unsplash.