Cómo buscar información en la web profunda

por Sandra Crucianelli
Oct 30, 2018 en Miscellaneous

En tiempos en los que el periodismo de datos contribuye a mejorar la calidad de los contenidos periodísticos, la captura de información es el primer eslabón de una sucesión de pasos entre los que se incluyen el procesamiento, la depuración, la contextualización y la visualización.

No solamente es suficiente “ver” datos a través de una pantalla, sino tener la capacidad para capturarlos, lo cual se convierte en pieza clave de esta estrategia.

Hay muchas formas de obtener datos: el rastreo de la web, conocido como searching, es una de ellas y probablemente la más utilizada.

Sin embargo, hay una importante cantidad de información que puede ser recuperada por los mecanismos comunes de búsqueda.

El espacio de la Red donde se alojan esos contenidos es conocido como “web profunda” o deep web, que es donde se incluye información que no es indexada por los motores de búsqueda como Google, Bing, etc. Por el contrario, en la “web superficial” es donde podemos encontrar los resultados más comunes que devuelven los buscadores, como páginas de sitios comerciales o aquellos con alto tráfico.

Vale mencionar que también existe otra zona definida por algunos autores como la “Internet oscura”, impenetrable por su naturaleza, como los servidores protegidos por diferentes razones (seguridad nacional o militar), cuyo contenido queda aislado de nuestro campo de búsqueda.

Sin embargo, la web profunda es más accesible de lo que imaginamos.

En ella podemos encontrar documentos que no han sido almacenados bajo estructura HTML, como archivos para abrir o descargar en diferentes formatos: PDF, Excel, PPT (Power Point), incluso Flash y las extensiones que utiliza Google Earth.

Pero para esto se requiere paciencia y un elemento clave: sistematicidad.

Un ejemplo de cómo el rastreo sistemático profundo de la web puede ayudar a reportar hechos desconocidos al público puede leerse en este artículo publicado en el sitio de noticias Solo Local relacionado con el estudio del impacto ambiental del dragado marítimo, necesario para la instalación de una planta regasificadora en cercanías a la ciudad de Bahía Blanca, Argentina.

La publicación permitió reportar el acceso a los documentos que los ciudadanos venían exigiendo durante semanas y demostró que la municipalidad de esa ciudad demoró 34 días en subir esos contenidos a su sitio web, hasta entonces desconocidos.

Una búsqueda simple del tipo: "estudio de impacto ambiental + dragado + YPF" no arrojaba ningún resultado.

Pero otra estrategia sí dio en el blanco: para probar lo que se afirma en el artículo, hubo que apelar a capturas de pantalla, previa búsqueda avanzada de Google, restringiendo el formato (en ese caso PDF), acotando la fecha a los últimos siete días y buscando sólo dentro del dominio con la extensión “.gov.ar”.

Tips para periodistas:

  • Si deseas explorar un sitio web comienza con un método sencillo: explora el mapa del sitio, una práctica no común que será como una brújula capaz de orientar la búsqueda.
  • Es recomendable aprender a usar la búsqueda avanzada de todos los buscadores como la de Google: http://www.google.com/advanced_search.
  1. Para ello: utiliza el posicionamiento geográfico para obtener información desconocida de último momento. Ingresa el nombre de la ciudad en la que vives o sobre la que deseas obtener información en cualquiera de los dos primeros cuadros de texto. Si se trata de la ciudad de Bogotá, por ejemplo, deberás usar el primer casillero; si se trata de Buenos Aires, usarás el segundo, ya que por tratarse de un nombre compuesto es necesario que los resultados incluyan la frase exacta.

  2. Limita los resultados a la línea temporal más reciente: por ejemplo, última semana o últimas 24 horas. Del mismo modo, conforme el tipo de información que deseas encontrar, debes decidir el formato, por ejemplo, Excel, donde tendrás mayor posibilidad de encontrar tablas con estadísticas o evolución de gastos.

  3. Utiliza la restricción de dominios para encontrar información en sitios gubernamentales, añadiendo el nombre del sitio, sin las tres "W" o apelando solamente a la extensión del dominio, por ejemplo “.gov.ar” para sitios de Argentina.

  4. Aunque puedes hacerlo desde la búsqueda avanzada, también es posible usar la herramienta “tiempo” en la columna izquierda de Google, para buscar enlaces de último momento, por ejemplo, los publicados en la última hora.

  5. Debes conocer la ubicación del acceso a las búsquedas avanzadas de otros buscadores, como Bing.

Esta es la primer entrega de una serie de artículos con consejos sobre cómo encontrar información en la web.

Sandra Crucianelli, Knight International Journalism Fellow, es periodista, investigadora y profesora. Crucianelli se especializa en recursos digitales y el periodismo de datos. Ella es la fundadora y editora de Sololocal.info, una revista online que proporciona noticias hiperlocales sobre la ciudad de Bahía Blanca, Argentina, y ha sido instructora y consultora para el Centro Knight para el Periodismo en las Américas en la Universidad de Texas, Austin, desde el 2004.

Crucianelli se encuentra trabajando como consultora en La Nación, uno de los periódicos y sitio web de noticias más importantes de Argentina. Crucianelli trabajará en la creación del primer equipo de periodistas de investigación que rastrearán los ingresos fiscales destinados a los servicios públicos en el país. Como parte de este esfuerzo, está ayudando a La Nación a crear el primer blog sobre periodismo de datos, La Nación Data, un lugar donde los periodistas pueden publicar historias basadas en datos e invitar al público a responder y participar.

Foto: Danard Vincente en Flickr. Licencia Creative Commons.