Cómo buscar datos en la web profunda

porSandra Crucianelli Nov 14, 2021 en Periodismo de datos
Ilustración que muestra la punta de un iceberg como metáfora para encontrar datos más profundos

En nuestro Kit de herramientas de ICFJ tratamos de ayudar a periodistas para que recopilen datos almacenados en la web de manera eficiente y segura. 

La idea es guiarlos en este proceso, ya que por la autopista informática circula una inmensa cantidad de información, y en ese contexto hemos desarrollado recursos para guiarlos a través de varias herramientas, técnicas y pautas de su trabajo.

Con estos recursos podrán encontrar datos relevantes en lo que se conoce como la “web profunda”: es el contenido de internet que no está indexado por los motores de búsqueda convencionales.

¿Cómo buscar datos y no perderse en el intento? 

En general, los periodistas de investigación usamos buscadores y bases de datos como vía de recuperación documental en la web.

La herramienta más eficaz para este proceso, es la búsqueda avanzada de Google.

Dominar las búsquedas utilizando las opciones avanzadas es lo que marca la diferencia entre un resultado malo o mediocre, de uno bueno o excelente.

Consejo: cualquier investigación en la web requiere tiempo y búsquedas sistemáticas. 

  • No pienses que la tarea diagnóstica se podrá agotar en 24 horas. Dependiendo de la complejidad del caso podría demorar hasta meses.
  • Cuando investigues un tema de fondo, trata de dedicar un tiempo específico cada día, sin interrupción. Ejemplo: media hora por día durante siete días.
  • Analiza las URLs antes de abrirlas. Una URL nos dice mucho del contenido y a veces al abrir cada URL se pierde un tiempo precioso. 
  • Ve guardando en tu carpeta de favoritos los resultados de sus búsquedas

¿El searching es un método? 

Si fuera un método, podría ser descrito y replicado de idéntica manera por otros, con similares resultados.

Más bien es una actitud, marcada profundamente por el uso del entorno digital, pero dominada por la resistencia a creer que en un día no encontraremos nada nuevo.  

[Lee más: Consejos y recursos esenciales para practicar el periodismo de datos]

¿Cuál es el repositorio donde encuentro capturas de pantalla de páginas web antiguas? 

Ese recurso es este

Noten que en la página de inicio hay un buscador denominado “Way Back Machine”, donde deberán colocar la URL cuyo contenido buscan. Las capturas aparecerán en una suerte de calendario, con línea de tiempo incluidas.
 

  • Archive es una organización sin fines de lucro, fundada en 1996 con la misión de crear una biblioteca en Internet. 
  • El sitio es de consulta obligada para investigadores, periodistas, historiadores y académicos, entre otros, ya que contiene varias colecciones históricas en formato digital compuestas por textos, audio, imágenes y software, así como páginas web inactivas.
  • Dispone de bases de datos dentro de las que se destaca la colección de filmes y videos, acaso la más completa que existe en su tipo.

¿Cuál es la mejor base de datos para periodistas? 

No hay una. Hay una larga lista de bases de datos que nos suelen ser de utilidad dependiendo del tema. Y todas son buenas. 

En este recurso hay una colección de bases de datos agrupadas temáticamente en pestañas y subpestañas, debajo de las cuales encontrarán los links de acceso.

¿Dónde encontrar información académica como ensayos y estudios científicos? 

En Scholar o “el Académico”Se trata del buscador de información académica de Google, un recurso aliado del periodista, en especial para quienes cubren noticias de fondo o hacen periodismo de investigación.

  • Permite buscar por fechas y por idiomas
  • Son fuentes académicas que pueden ser contactadas por la vía formal (universidades) 
  • La diferencia fundamental con el buscador genérico de Google es que Google Académico es un buscador especializado en el que se ordenan los resultados por relevancia. Además se usa una herramienta especial para el ranking que toma como consideración el texto completo de cada uno de los artículos.

¿Dónde encontrar fotografías?

Google Imágenes

Es el buscador de fotografías de Google. Permite seleccionar el rastreo al tamaño de la fotografía o a su categoría: rostros, bocetos, etc.

Flickr

Es una plataforma para alojar imágenes fotográficas (también videos) y funciona de manera similar a Youtube: como una red social donde los usuarios pueden subir contenidos y compartirlos con todo el mundo o solamente con los contactos que deseen.  

Fotografías de libre uso

La siguiente es una lista de repositorios con fotografías que pueden ser usadas con permiso del autor (libre uso):

Unsplash

Yandex

Istockphoto

Pexels

[Lee más: Utilizar datos para ilustrar el impacto del COVID-19 en comunidades vulnerables]

¿Cómo validar los datos de la web? 

Sin duda, una de las principales metas del reportero frente a la web es conseguir la mejor calidad de información en el menor tiempo posible. Pero que un dato o documento aparezca en Internet no implica que el mismo sea fidedigno. 

Así como el reportero debe distinguir, muy especialmente en el campo del periodismo de investigación, entre los distintos grados de confiabilidad de sus fuentes, este proceso se agudiza aún más en Internet.  

Las sugerencias, para analizar la confiabilidad de los contenidos de un sitio web, podrían resumirse en:

  1.  Analiza la confiabilidad del recurso, buscando dentro de Google las menciones de la URL, en otras fuentes.
  2. Encuentra información sobre el responsable del sitio. Una sección denominada “¿Quiénes somos?” o “Acerca de nosotros” debería visualizarse con facilidad. Allí deberían datos básicos tales como nombre y dirección de correo electrónico. El currículum online de los responsables es un buen indicador de calidad.
  3. Observa la fecha de actualización. Si no es diaria al menos debería ser semanal.
  4. Analiza si el sitio contiene errores de ortografía y si la información está presentada de manera clara y precisa.
  5. Busca información dentro del sitio sobre su  fuente de financiamiento.

Imagen de Jonathan Quezada.