Dos herramientas gratuitas para raspar datos

por Sanjit Oberai
Jun 14, 2019 en Periodismo de datos
Data

El uso de datos en tu trabajo periodístico te permite encontrar historias ocultas y crear visualizaciones interesantes para mostrar a las audiencias.

Pero primero, necesitas que tus números estén en un formato amigable y utilizable. Los conjuntos de datos a menudo están atrapados en archivos PDF o en sitios web, lo que puede dificultar su análisis. Para poder estudiarlos, primero debes "raspar" los datos de esas fuentes y luego convertirlos a un formato que te permita buscar, clasificar y filtrar información.

Existen muchas maneras de raspar datos. Te presentamos dos herramientas simples que no requieren ningún conocimiento de programación o codificación previo. Además son gratuitas.

Extraer datos de un sitio web

Cuando encontramos datos que nos gustaría extraer de una página web, el primer impulso es intentar copiarlos y pegarlos directamente en una hoja de cálculo de Excel. Esto, sin embargo, generalmente no funciona tan bien.

Aquí es donde Table Capture te puede ayudar. Esta extensión gratuita de Google Chrome permite copiar tablas en formato HTML desde la web y pegarlas en Microsoft Excel, Open Office o Google Sheets.

En el siguiente ejemplo, usamos Table Capture para raspar datos sobre la tuberculosis del sitio TBFacts, que publica información gratuita sobre la enfermedad. A esos datos los trasladaremos a Google Sheets.

1) Para comenzar, deberás instalar la aplicación Table Capture desde Chrome Web Store. Después de hacerlo, podrás acceder al programa desde la esquina superior derecha de tu navegador. La flecha en la imagen de abajo apunta al ícono de Table Capture.

data scrape 1

2) El ícono de Table Capture cambia de negro a rojo cuando detecta tablas HTML en un sitio web. Al hacer clic en el ícono rojo se abre un menú desplegable que muestra los datos de la página web que puedes copiar. En este ejemplo, una tabla que contiene datos que pueden extraerse:

data scrape 2

3) Para extraer ese conjunto de datos, primero haz clic en "(123 x 4)" en el menú desplegable; esa acción seleccionará y copiará automáticamente los datos. Luego haz clic en el ícono de la hoja verde en la parte superior derecha del menú desplegable para abrir Google Sheets y pegar los datos en la hoja de cálculo.

data scrape A

Nota: si una página web tiene varias tablas, hacer clic en "Seleccionar todas las tablas" te permitirá copiar todas a la vez.

Extraer datos de un archivo PDF

Si quieres raspar datos de un PDF a una hoja de cálculo, Tabula es otra herramienta gratuita y fácil de usar. Atención: funciona con archivos PDF basados en texto; la herramienta no es compatible con documentos PDF escaneados. ¡Probémosla!

1) Descarga e instala Tabula en tu computadora. El enlace de descarga está disponible en el sitio web de Tabula. El software es compatible con PC y Mac.

2) Cuando abras Tabula, verás un botón azul de "Explorar". Haz clic allí para seleccionar el archivo PDF que deseas cargar desde la computadora, una acción que tomará entre 20 y 30 segundos en completarse. El archivo se agregará a la lista de "PDFs importados" que se ve en la imagen de abajo.

data scrape 3

3) Tabula te muestra una vista previa del PDF que importaste. Desplázate por las páginas para encontrar los datos que deseas raspar. 

data scrape 5

4) Haz clic y arrastra el cursor sobre la tabla de la que quieres raspar datos. Tabula resaltará tu selección en rojo.

data scrape 6

5) Haz clic en el botón verde "Vista previa y exportación de datos extraídos" en la parte superior de la página.

data scrape 7

6) Tabula te muestra una vista previa de los datos seleccionados. Selecciona el formato de exportación CSV. CSV, que significa valores separados por comas (comma separated values, en inglés), es un formato de archivo común y fácil de usar.

data scrape 8

7) Haz clic en “Exportar” y el archivo CSV se descargará a tu computadora.

data scrape 9

8) Abre el archivo y los datos estarán listos y a la espera de que los analices en Excel.

data scrape 10

El raspado de datos no tiene que ser complejo ni intimidante, y puede ser enormemente beneficioso para encontrar historias ocultas que de otra manera podrían pasar desapercibidas. Table Capture y Tabula son excelentes herramientas para principiantes, y tienen más para ofrecer una vez que aprendas lo básico. ¡Comienza a experimentar y feliz raspado!


Sanjit Oberai es un ex becario ICFJ Knight. Vive en la India y trabaja en PROTO.

Imagen con licencia Creative Commons en Unsplash, vía Markus Spiske.