Countryside Bible Church ha estado usando la plataforma VoiceGain para la transcripción en tiempo real desde septiembre de 2018 (cuando nuestra plataforma aún estaba en versión alfa).
Cómo empezó
En agosto de 2018, el personal de CBC se acercó a uno de nuestros empleados con una pregunta sobre un software que permitiría a una persona sorda seguir sermones en vivo mediante transcripción. Una de las miembros de CBC tiene problemas de audición y visión y no puede entender fácilmente el lenguaje de señas; sin embargo, puede leer fuentes grandes en la pantalla de un ordenador desde cerca.
En agosto, Voicegain acaba de iniciar las pruebas alfa de la plataforma, por lo que su respuesta fue que sí conocía ese software y que era Voicegain. En aquel momento, nuestras pruebas se centraban en los casos de uso del IVR, por lo que aún necesitábamos unas semanas para perfeccionar las API de transcripción y desarrollar una aplicación web que pudiera consumir el flujo de transcripciones (a través de websocket) y presentarlo como texto desplazable en un navegador.
Para mejorar el reconocimiento, utilizamos unas 200 horas de sermones previamente transcritos de CBC para adaptar nuestro modelo acústico de DNN. Además, creamos un modelo lingüístico específico del CBC, añadiendo un corpus de texto de varias traducciones de la Biblia, varios sermones transcritos, una lista de los nombres del personal del CBC, etc.
En lo que respecta al audio de entrada, inicialmente, estábamos transmitiendo audio utilizando un protocolo RTP estándar de la herramienta ffmpeg. Tuvimos algunos problemas con la fiabilidad del RTP sin procesar, así que más tarde cambiamos a un cliente Java personalizado que envía el audio mediante un protocolo propietario. El cliente se ejecuta como un daemon en un pequeño Dispositivo Raspberry Pi.
Estado actual
El equipo audiovisual de CBC lleva realizando transcripciones en tiempo real utilizando nuestra plataforma desde septiembre de 2018, prácticamente todos los domingos. Puedes ver un ejemplo de la transcripción en acción en el siguiente vídeo
Planes
Los planes actuales para el servicio de transcripción son integrarlo en el sitio web de CBC y ponerlo a disposición junto con la transmisión de vídeo. Esto permitirá a las personas con problemas de audición seguir los servicios en casa por streaming. Por ahora, el texto de la transcripción se presentará como un elemento de página web incrustado debajo del vídeo incorporado.
Como el vídeo transmitido tiene un retraso de más de 30 segundos en comparación con el tiempo real, enviaremos el audio simultáneamente a dos motores ASR, uno optimizado para la respuesta en tiempo real y otro optimizado para la precisión. Esto es fácil, porque la API web de Voicegain proporciona métodos que permiten conectar dos sesiones de ASR a una sola transmisión de audio. Cada sesión, a su vez, puede alimentar su propia transmisión de websocket. Al acceder a la transmisión de websocket adecuada, la interfaz de usuario web puede mostrar la transcripción en tiempo real o retrasada.
Ejemplo de sermones transcritos
Debido a sus condiciones de uso, no podemos proporcionar resultados directos para ninguno de los principales motores de ASR, pero puede descargar el audio vinculado a continuación, así como las transcripciones exactas correspondientes y realizar pruebas de comparación en el reconocedor de su elección. Ten en cuenta que Voicegain ASR ignora la mayoría de las palabras duplicadas que aparecen en el audio, por lo que en la transcripción se eliminan esos duplicados.
El audio es propiedad de Countryside Bible Church y las transcripciones son propiedad de Voicegain.
1. El plan de Dios para la historia humana (Parte 2)
Tom Pennington | Daniel 2 | 2018-11-04 P. M.
55 minutos, 13 segundos, 7475 palabras
Audio Transcripción Salida VoiceGain
Precisión: 1,08% tasa de error de caracteres
Nota: La salida de Voicegain está formateada para que coincida con la transcripción. Normalmente, también incluye información de temporización. Esta salida específica se obtuvo el 30 de abril de 2019 con un reconocedor en tiempo real, que tiene una precisión ligeramente inferior en comparación con el reconocedor fuera de línea.