Transcripción

Transcripción en tiempo real para personas con problemas de audición

Countryside Bible Church ha estado usando la plataforma VoiceGain para la transcripción en tiempo real desde septiembre de 2018 (cuando nuestra plataforma aún estaba en versión alfa).

Cómo empezó

En agosto de 2018, el personal de CBC se acercó a uno de nuestros empleados con una pregunta sobre un software que permitiría a una persona sorda seguir sermones en vivo mediante transcripción. Una de las miembros de CBC tiene problemas de audición y visión y no puede entender fácilmente el lenguaje de señas; sin embargo, puede leer fuentes grandes en la pantalla de un ordenador desde cerca.

En agosto, Voicegain acaba de iniciar las pruebas alfa de la plataforma, por lo que su respuesta fue que sí conocía ese software y que era Voicegain. En aquel momento, nuestras pruebas se centraban en los casos de uso del IVR, por lo que aún necesitábamos unas semanas para perfeccionar las API de transcripción y desarrollar una aplicación web que pudiera consumir el flujo de transcripciones (a través de websocket) y presentarlo como texto desplazable en un navegador.

Para mejorar el reconocimiento, utilizamos unas 200 horas de sermones previamente transcritos de CBC para adaptar nuestro modelo acústico de DNN. Además, creamos un modelo lingüístico específico del CBC, añadiendo un corpus de texto de varias traducciones de la Biblia, varios sermones transcritos, una lista de los nombres del personal del CBC, etc.

En lo que respecta al audio de entrada, inicialmente, estábamos transmitiendo audio utilizando un protocolo RTP estándar de la herramienta ffmpeg. Tuvimos algunos problemas con la fiabilidad del RTP sin procesar, así que más tarde cambiamos a un cliente Java personalizado que envía el audio mediante un protocolo propietario. El cliente se ejecuta como un daemon en un pequeño Dispositivo Raspberry Pi.




Estado actual

El equipo audiovisual de CBC lleva realizando transcripciones en tiempo real utilizando nuestra plataforma desde septiembre de 2018, prácticamente todos los domingos. Puedes ver un ejemplo de la transcripción en acción en el siguiente vídeo


Planes

Los planes actuales para el servicio de transcripción son integrarlo en el sitio web de CBC y ponerlo a disposición junto con la transmisión de vídeo. Esto permitirá a las personas con problemas de audición seguir los servicios en casa por streaming. Por ahora, el texto de la transcripción se presentará como un elemento de página web incrustado debajo del vídeo incorporado.

Como el vídeo transmitido tiene un retraso de más de 30 segundos en comparación con el tiempo real, enviaremos el audio simultáneamente a dos motores ASR, uno optimizado para la respuesta en tiempo real y otro optimizado para la precisión. Esto es fácil, porque la API web de Voicegain proporciona métodos que permiten conectar dos sesiones de ASR a una sola transmisión de audio. Cada sesión, a su vez, puede alimentar su propia transmisión de websocket. Al acceder a la transmisión de websocket adecuada, la interfaz de usuario web puede mostrar la transcripción en tiempo real o retrasada.

Ejemplo de sermones transcritos

Debido a sus condiciones de uso, no podemos proporcionar resultados directos para ninguno de los principales motores de ASR, pero puede descargar el audio vinculado a continuación, así como las transcripciones exactas correspondientes y realizar pruebas de comparación en el reconocedor de su elección. Ten en cuenta que Voicegain ASR ignora la mayoría de las palabras duplicadas que aparecen en el audio, por lo que en la transcripción se eliminan esos duplicados.

El audio es propiedad de Countryside Bible Church y las transcripciones son propiedad de Voicegain.

1. El plan de Dios para la historia humana (Parte 2)

Tom Pennington | Daniel 2 | 2018-11-04 P. M.

55 minutos, 13 segundos, 7475 palabras

Audio Transcripción Salida VoiceGain

Precisión: 1,08% tasa de error de caracteres

Nota: La salida de Voicegain está formateada para que coincida con la transcripción. Normalmente, también incluye información de temporización. Esta salida específica se obtuvo el 30 de abril de 2019 con un reconocedor en tiempo real, que tiene una precisión ligeramente inferior en comparación con el reconocedor fuera de línea.


Ganancia de voz: La IA de voz bajo tu control

Ganancia de voz: Cree aplicaciones de IA de voz con nuestras API de NLU de voz a texto y LLM. Graba y transcribe reuniones, llamadas a centros de atención al cliente, vídeos, etc. Obtén resúmenes, opiniones y mucho más basados en LLM. Cree bots de voz conversacionales que se integren con su plataforma CCaaS local o en la nube. Comience hoy mismo.

Descubre cómo funciona Voicegain — obtén una demostración de Voicegain hoy mismo.

Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control