Cómo extraer datos de la Web

porSandra Crucianelli Nov 21, 2021 en Periodismo de datos
Ilustración de una pantalla en la que se intenta pescar datos

Saber encontrar datos se está convirtiendo en una habilidad cada vez más valiosa en el periodismo.

Ya mencionamos en los toolkits anteriores cómo buscar información en la Web profunda a través de búsquedas avanzadas. Y también cómo encontrar datos en bases de datos.

Ahora veremos algunas herramientas para la extracción de datos.

El ejemplo más sencillo de la extracción de datos es el de obtener el contenido de una tabla alojada en un PDF, cuando lo que se requiere para procesar los datos es disponerlos en una hoja de cálculo. 

Para lograr ese objetivo, existen recursos sofisticados y software de descarga pagos. Este es el plano en el que muchas veces necesitamos de un programador para que nos asista en la tarea.

Pero no siempre es necesario. Vamos desde lo más sencillo a lo que aplicaremos en la práctica: 

1. Conversores: A veces copiar y pegar funciona, pero otras veces no y hay que recurrir a conversores como Zamzar.com, que es gratuito y no requiere suscripción.

2. No olvides que las tablas y los gráficos pueden estar subidos a la Web en formato de imagen o estar encerradas en un PDF. En estos casos se recurre a programas de reconocimiento óptico de caracteres. Hay algunos que pueden funcionar bien si el tamaño del archivo no supera cierto tamaño.

Uno es este. Y el otro, este.

Pero no siempre funcionan. Solo son eficaces para archivos pequeños  y si no tienen sellos ni firmas manuscritas. 

Para texto, funciona muy bien Easy PDF to Text 

Y tiene opciones de conversión en varios formatos.

[Lee más: Cómo buscar datos en la Web profunda]

 

3. Un recurso muy bueno para extracción de datos es Document Cloud: al mismo tiempo que sube un documento PDF (una vez que se obtiene una cuenta), corre un OCR (sistema de reconocimiento óptico de caracteres) que permite extraer texto de imágenes escaneadas. El texto extraído se lee en la pestaña “texto”.

Sirve para texto, pero no para tablas.

Mira un ejemplo aquí.

Abajo a la izquierda, puedes seleccionar ver el documento (document) o Plain text (la versión con la extracción ya realizada) 

4. Una de las mejores herramientas gratis para extraer tablas de PDFs y obtener los datos en formato tabla es Tabula

Deberás descargar el archivo a su computadora. Es seguro. Y se abre sobre la Web, es decir, si tienes Chrome abierto como navegador. No funciona sobre otros navegadores. 

El procedimiento es sencillo: se sube un PDF; luego se selecciona la tabla y es posible repetir esta acción en diferentes páginas para finalmente descargar el documento en CSV, que es formato de datos separados por comas: este se puede estructurar nuevamente en columnas, marcando la primera columna, luego yendo a la pestaña datos, ordenar en columnas, delimitados por comas y finalizar. 

También se puede copiar y pegar el resultado desde el cuadro de datos a una hoja de cálculo en blanco.

[Lee más: Periodismo de datos: ¿Qué productos y qué formatos?]

Resumiendo:

El web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web; un método que te permite extraer datos escondidos en un documento, como páginas web y PDF, y los hace útiles para usarlos después

Finalmente no olvides herramientas de seguridad digital a tener en cuenta.

En español, el mejor recurso que disponemos por el momento es este.

Y si deseas recorrer los enlaces que seleccioné en LiveBinders sobre el tema, puedes ingresar a esta URL.

Recuerda que en Livebinders a cada carpeta –azul– le corresponde un enlace, que puedes abrir, y dentro de cada carpeta hay subcarpetas –grises–, cada una con la URL de la herramienta. 

Otras herramientas para extracción de datos que puedes probar:

Cometdocs

Octoparse

Small pdf

Chrome Data Scraper (extensión para Chrome) 

Chrome Table Capture (extensión para Chrome) 

Chrome Web Scraper (extensión para Chrome) 

Import html, de Google

La función Import permite llevar datos de una tabla publicada en la Web a una hoja de cálculo en Google Spreadsheet.


Imagen de Jonathan Quezada.