El siguiente vídeo muestra un ejemplo de Transcripción en vivo de Voicegain se utiliza para proporcionar la transcripción de un evento transmitido en vídeo.
Estos son algunos detalles sobre esta configuración en particular:
- la parte de vídeo se transmite usando BoxCast
- el audio para la transcripción se graba en vivo en la fuente en el sitio
- el audio se transmite a Voicegain Cloud para su procesamiento mediante un pequeño cliente Java que se ejecuta en Raspberry Pi computadora
- el cliente de audio se descargó preconfigurado del portal Voicegain y lee el audio directamente desde un dispositivo de audio USB conectado a raspberry pi
- la voz se transcribe en la nube mediante el modo Voicegain en tiempo parcial, que ofrece resultados en unos 30 segundos (el modo en tiempo real ofrece los resultados con un retraso de menos de 1 segundo)
- la salida de la transcripción pasa por un componente de retardo que nos permite marcar el retardo preciso para que coincida con el retraso de la transmisión de vídeo; en este caso, el retraso fue de 35,5 segundos
- las palabras transcritas se envían a un cliente web a través de websocket; cada palabra se envía con el retraso establecido
- las palabras se muestran con el tono de fuente gris correspondiente a la confianza en las palabras y el espacio proporcional al espacio entre las palabras pronunciadas
- el modelo acústico utilizado aquí ha sido entrenado a medida con más de 200 horas adicionales con este altavoz en particular
- los datos de capacitación personalizados consistían simplemente en discursos previamente transcritos por el orador que estaban fácilmente disponibles en el sitio web
- también estamos usando un modelo de lenguaje personalizado (encima del NLM base) que se creó a partir del corpus proporcionado por el usuario