Cómo buscar información en la web profunda: extracción de datos

por Sandra Crucianelli
Jun 12, 2012 en Miscellaneous

Saber encontrar datos se está convirtiendo en una habilidad cada vez más valiosa en el periodismo.

En la primera parte de esta serie vimos cómo buscar información en la web profunda a través de búsquedas avanzadas. En este post explicaré algunas técnicas y herramientas para la búsqueda y extracción de datos.

Extracción de datos

El ejemplo más sencillo de la extracción de datos es el de obtener el contenido de una tabla alojada en un PDF, cuando lo que se requiere para procesar los datos es disponerlos en una hoja de cálculo de Excel. Para lograr ese objetivo, existen recursos sofisticados y software de descarga pagos, pero también hay una larga lista de herramientas online y sin costo alguno.

  1. A veces copiar y pegar funciona, pero otras veces no y hay que recurrir a conversores como Zamzar.com, que es gratuito y no requiere suscripción.
  2. No olvides que las tablas y los gráficos pueden estar subidos a la web en formato de imagen, por lo que siempre conviene buscar en plataformas como Flickr o Google Imágenes. En estos casos se recurre a programas de reconocimiento óptico. Uno sencillo y sin necesidad de descarga es Free Ocr.

• Otros servicios de Google:

  1. Explora Google Public Data.
  2. Del mismo modo, Google Books y Google Blogs podrían contener información de interés, ya que permite filtrar los resultados por fecha. Un ejemplo es esta crónica publicada en Solo Local basada en una búsqueda en Google Books, teniendo en cuenta el posicionamiento geográfico y la selección de la línea temporal: en 2009 se buscaron libros publicados en los últimos tres años.

• Puedes probar recursos de la web semántica, como Wolfram|Alpha.

• Puedes buscar en repositorios académicos, como Scholar, Scirus o Scielo.

• Usa la versión gratis de Copernic. Es una potente herramienta de búsqueda que permite definir búsquedas por categorías tales como “documentos del gobierno estadounidense” (Advertencia: funciona sólo para Windows).

• Busca datos de tu país fuera de tu país. Por ejemplo, la base de datos de importaciones del censo de Estados Unidos contiene el detalle actualizado de las importaciones a EE.UU. (o lo que es equivalente a las exportaciones de cada país a EE.UU.). Como la ruta para llegar a la lista de países no es sencilla de localizar a simple vista, les comparto el enlace de acceso. Lo bueno de este caso es que por cada país aparece una serie completa, del 2002 al 2011, lo cual permite estudiar las variables a lo largo del tiempo e incluso comparar el comportamiento de algunas de ellas con el que han tenido en otros países de la región.

• Rescata datos que pudieron haber sido eliminados de la web pero quedaron en la versión “caché” o como capturas de pantalla. Usa Internet Archive a través de su máquina del tiempo (the "Wayback Machine”).

• Recorta dominios para llegar al index o al directorio madre de un sitio, cuando esto sea posible: Por ejemplo este link: http://www.justiciachaco.gov.ar/listas/C_A_Civ_y_Com_Sala_II_Pro/Cam_Civ_Sala_II_Pro_2009-11-13.Txt puede convertirse en este otro: http://www.justiciachaco.gov.ar/listas/. Solo se eliminó desde la derecha hacia la izquierda la porción del URL entre las dos últimas barras invertidas.

• Localiza bases de datos de interés usando Incywincy, un metabuscador que devuelve resultados de la “Deep web”. Puedes ver un ejemplo de lista de bases de datos aquí.

• Monitorea las redes sociales (documentos compartidos, comentarios) usando herramientas como SocialMention, 48ers o buscadores en tiempo real de Twitter como Twitterfall donde puedes seleccionar una búsqueda geo-referenciada o bien buscar por nombre propio (estas dos opciones son más específicas) o por tema (menos específica). Los mensajes suelen contener links con información que no siempre es indexada por los motores de búsqueda.

Una perla en el fondo del mar

Lo más fascinante del tema que nos ocupa es que, pese a las estimaciones, nadie conoce con exactitud la dimensión real de la web profunda. Sería imposible cuantificarla porque se trata de un espacio dinámico, en variación permanente. Esto nos abre un terreno inexplorado, una tierra virgen, al que con paciencia y perseverancia podemos llegar como conquistadores de nuevos mundos.

Esta es la segunda y última entrega de una serie de artículos con consejos sobre cómo encontrar información en la web.

Sandra Crucianelli, Knight International Journalism Fellow, es periodista, investigadora y profesora. Crucianelli se especializa en recursos digitales y el periodismo de datos. Ella es la fundadora y editora de Sololocal.info, una revista online que proporciona noticias hiperlocales sobre la ciudad de Bahía Blanca, Argentina, y ha sido instructora y consultora para el Centro Knight para el Periodismo en las Américas en la Universidad de Texas, Austin, desde el 2004.

Crucianelli se encuentra trabajando como consultora en La Nación, uno de los periódicos y sitio web de noticias más importantes de Argentina. Crucianelli trabajará en la creación del primer equipo de periodistas de investigación que rastrearán los ingresos fiscales destinados a los servicios públicos en el país. Como parte de este esfuerzo, está ayudando a La Nación a crear el primer blog sobre periodismo de datos, La Nación Data, un lugar donde los periodistas pueden publicar historias basadas en datos e invitar al público a responder y participar.

Foto: altemark en Flickr. Licencia Creative Commons.