2 легких в использовании бесплатных инструмента для извлечения данных

АвторSanjit Oberai
Jun 16, 2019 в Журналистика данных
Data

Анализ данных помогает журналистам находить интересные, малоизвестные истории и создавать визуализации, помогающие привлекать аудиторию.

Но прежде вам нужно получить информацию в понятном и удобном для использования формате. Потому что данные чаще всего представлены в формате pdf или находятся на веб-сайтах, и журналистам трудно с ними работать. Значит, им нужно извлечь данные, а потом конвертировать их в формат, дающий возможность легко искать, сортировать и фильтровать информацию.

Существует много разных способов извлечения данных. В этой статье мы поговорим о двух простых в использовании (и бесплатных!) инструментах, для работы с которыми не нужно разбираться в программировании.

Извлечение данных с веб-страниц

Если вы видите интересные данные на веб-страницах, вам, скорее всего, интуитивно хочется просто скопировать их и вставить в таблицу Excel. Однако этот подход, как правило, дает не очень хорошие результаты.

В такой ситуации вам поможет Table Capture. Это бесплатное расширение Google Chrome дает возможность копировать таблицы в формате HTML с онлайн-страниц и переводить их в форматы Microsoft Excel, Open Office или Google Sheets.

На приведенном внизу примере мы использовали Table Capture. С его помощью мы извлекли данные о туберкулезе с сайта TBFacts, бесплатно публикующего информацию об этом заболевании, и перевели эти данные в формат Google Sheets.

1. Для начала вам потребуется установить приложение Table Capture из интернет-магазина Chrome. После этого вы всегда сможете им пользоваться (иконка будет в верхнем правом углу вашего браузера). На расположенном ниже скриншоте на нее указывает стрелка.

data scrape 1

2. Когда приложение замечает таблицы HTML на веб-сайте, иконка Table Capture меняет цвет с черного на красный. Клик на красную иконку открывает выпадающее меню, в котором показаны расположенные на веб-странице и доступные для копирования данные. На приведенной ниже фотографии вы можете видеть одну таблицу с данными, доступными для извлечения.data scrape 2

3. Для извлечения набора данных сначала кликните на "(123 x 4)" в выпадающем меню – инструмент автоматически выберет и скопирует данные. Затем кликните на зеленую иконку с изображением таблицы в верхнем правом углу меню, чтобы открыть Google Sheets, и вставьте данные в таблицу.

data scrape A

Обратите внимание: если на странице расположено несколько таблиц, выберите функцию "Выделить все таблицы", чтобы скопировать их одновременно.

Извлечение данных из документов в формате PDF

Если вам нужно извлечь данные из документа в формате PDF и вставить их в таблицу, вам поможет бесплатный и легкий в использовании инструмент Tabula. Tabula обрабатывает текстовые PDF-документы – и не работает с отсканированными документами. Давайте попробуем!

1. Загрузите и установите Tabula на свой компьютер. Ссылку для скачивания можно найти на веб-сайте Tabula. Эта программа совместима с компьютерами PC и Mac.

2. Откройте Tabula – и вы увидите синюю кнопку "Скачать". Кликните на нее, чтобы выбрать pdf-файл, который вы хотите загрузить с компьютера – это займет 20-30 секунд. Файл будет добавлен в папку "Импортированные pdf-файлы" – пример списка вы видите на размещенной внизу иллюстрации.

data scrape 3

3. Tabula покажет вам превью импортированного pdf-файла. Пролистайте страницы и найдите данные, которые вы хотите извлечь.

 data scrape 5

4. Нажмите на кнопку мыши и проведите курсором над таблицей, данные которой вы хотите извлечь. Tabula выделит нужное красным.

data scrape 6

5. Кликните на зеленую кнопку "Просмотреть и экспортировать извлеченные данные", расположенную в верхней части страницы.

data scrape 7

6. Tabula покажет, как будут выглядеть выбранные данные. Выберите функцию "Экспортировать в формат CSV". CSV, что означает "значения, разделенные запятыми", – широко распространенный и легкий в использовании файловый формат.

data scrape 8

7. Нажмите на "Экспорт" и загрузите CSV-файл на свой компьютер.

data scrape 9

8. Откройте файл – данные готовы для анализа в формате Excel.data scrape 10

Извлечение данных не должно быть неоправданно сложным делом – и этот навык может быть очень полезен для журналистов – например, для поиска неизвестных историй, которые иначе так и остались бы незамеченными. Table Capture и Tabula – отличные инструменты для новичков в деле извлечения данных, а после того как вы научитесь использовать эти инструменты, они предложат вам дополнительные возможности. Так что не бойтесь экспериментировать.

И – удачной охоты за данными!


Санджит Обера – бывший стипендиат программы ICFJ Knight. Он живет в Индии и сотрудничает с PROTO.

Источник основной фотографии Markus Spiske, лицензия CC сайта Unsplash.