Cómo hacer uso de la inteligencia artificial para transcribir entrevistas automáticamente

Realizar entrevistas es una de las actividades más frecuentes entre periodistas. Para ello es común grabar el audio de las conversaciones en algún dispositivo y, posteriormente, transcribir ese audio a texto.

Una de las prácticas más usuales para convertir el audio a texto es transcribir esas entrevistas de manera manual, lo cual puede tomar demasiado tiempo si la entrevista tiene una duración larga. Debido a la necesidad de realizar esta tarea de transcripción de manera más rápida y precisa, han surgido nuevas alternativas de la mano de la inteligencia artificial.

No obstante, la mayoría de los modelos de inteligencia artificial funcionan adecuadamente para inglés, pero en el caso de otros idiomas es difícil encontrar herramientas disponibles y, cuando las hay, su rendimiento tiende a disminuir comparado con su funcionamiento en inglés. Para que puedas explorar opciones en español, te presentamos un par de aplicaciones que puedes implementar.

Pinpoint

Pinpoint es una herramienta que se ha vuelto muy conocida entre la comunidad periodística, ya que esta herramienta de Google hace uso de inteligencia artificial para realizar diversas tareas, entre ellas convertir audios a textos. De acuerdo a su documentación, está disponible para más de 10 idiomas además del inglés, entre ellos el español y el portugués.

A continuación una serie de pasos para poder hacer uso de Pinpoint:

Solicitar acceso en este enlace e iniciar sesión con una cuenta de Gmail.
Crear una nueva colección privada.
Cargar un archivo para transcribir, ya sea desde Google Drive o desde un archivo local en la computadora. Este paso puede tomar un par de minutos.
Una vez cargado, hacer doble clic sobre el archivo.
Abrir una nueva ventana con la transcripción del audio.
Para descargar, hacer clic en el símbolo de tres puntos en la parte superior derecha y seleccionar “Descargar transcripción”.
Se iniciará la descarga de un archivo con formato txt. Este archivo contendrá el texto plano con la transcripción del audio.

¿Cuáles son las ventajas de Pinpoint?

Se pueden transcribir varios archivos a la vez.
Tiene una interfaz amigable para los usuarios.
Abre una ventana con fragmentos del audio y su correspondiente transcripción.
Admite múltiples formatos de audio como MP3, MP4 y WAV, por mencionar algunos. Aquí te presentamos un listado con todos los archivos disponibles.

¿Cuáles son las desventajas de Pinpoint?

Es necesario tener una cuenta de Gmail.
Cuestiones de privacidad si manejas contenidos sensibles, ya que es un servicio de Google.
Errores en transcripción de nombres propios y lugares.

Whisper

Whisper es un sistema de reconocimiento automático del habla desarrollado por OpenAI, una empresa dedicada a la investigación en inteligencia artificial. Este modelo de transcripción está disponible en 99 idiomas y, de acuerdo con OpenAI, el funcionamiento en estos idiomas se asemeja al rendimiento de transcripciones en inglés.

Para poder acceder a Whisper, se pueden seguir los siguientes pasos:

Entrar a esta interfaz para Whisper.
Carga un archivo local desde la computadora en la sección de audio.
Para la selección del modelo, se recomienda utilizar la opción large, pero también se pueden usar las otras versiones disponibles. Sólo se debe considerar que entre más grande sea el modelo, mayor tiempo requerirá para procesar el audio.
En la parte de transcripción, seleccionar el tipo de archivo a descargar, puede ser un archivo txt, srt o vtt.
Para la sección del idioma, elegir desde las opciones del menú desplegable. Aunque el modelo también tiene la capacidad de detectar automáticamente el idioma en el audio, se recomienda indicarlo si es posible.
Existe una opción adicional si se quiere traducir el audio a inglés, para ello basta con seleccionar la casilla que dice translate.
El resto de las opciones se pueden dejar con los valores por defecto.
Por último, hacer clic en submit para ejecutar el modelo y realizar la transcripción.
Después de un par de minutos, aparecerá el texto de la transcripción con su marca de tiempo correspondiente en el audio.

¿Cuáles son las ventajas de Whisper?

La puntuación es muy acertada.
La cantidad de idiomas disponibles para transcripción.
Reconoce más apropiadamente nombres propios y lugares.

¿Cuáles son las desventajas de Whisper?

Cuenta con una interfaz poco amigable.
Los parámetros de configuración son muy técnicos.
No se recomienda emplear para contenidos sensibles, ya que la plataforma no aclara si los archivos se almacenan remotamente en sus servidores.

En general, y sin importar la herramienta que se utilice, cuanto mejor sea la calidad de audio, mejor será la transcripción.

Imagen de Oscar Ivan Esquivel Arteaga en Unsplash.

Lee más artículos de

Colaboradora de IJNet

Fernanda Aguirre

Fernanda Aguirre trabaja en la intersección del periodismo y la ciencia de datos para contar historias socialmente relevantes, con ayuda de narrativas críticas, análisis y visualizaciones. Actualmente formo parte del equipo de Data Crítica como periodista de datos.