Aplicaciones de comandos de voz simplificadas

Nueva opción de reconocimiento continuo

En la última versión de Voicegain (1.16.0) hemos añadido una nueva opción a nuestra /asr/reconocer/asincrónico API para ASR/Speech-to-Text. Se llama ContinuousRecognition y, si está habilitada, modifica el comportamiento predeterminado del reconocimiento basado en la gramática.

Normalmente, cuando se usa la API /asr/recognize/async, el reconocedor volverá cuando la gramática coincida y el tiempo de espera completo caduque. Esto significa que solo es posible obtener un reconocimiento único en una solicitud de la API /asr/recognize/async. Si se detecta que no hay ninguna entrada o no coincide, el reconocimiento finalizará.

Sin embargo, a veces hay casos de uso que exigen que el reconocedor, por ejemplo, ignore todas las coincidencias que no coincidan hasta que se encuentre una coincidencia. Para eso está la opción ContinuousRecognition.

Con ContinuousRecognition, puedes controlar perfectamente cuáles de los 4 eventos (sin entrada, sin coincidencia, coincidencia y error) se devolverán en una devolución de llamada y qué evento (si lo hubiera) terminará el reconocimiento. Si no configuras ningún evento para que finalice el reconocimiento, la sesión de reconocimiento se puede detener cerrando la transmisión de audio o devolviendo stop:true desde la devolución de llamada.

¿Para qué sirve?

Un ejemplo podría ser un caso de uso en el que se está reproduciendo un correo de voz para una persona que llama y, durante la reproducción, queremos interpretar los comandos de la persona que llama, como: detener, seguir, anterior, guardar, eliminar. Si usáramos el reconocimiento normal, nos encontraríamos con situaciones en las que no se entendería lo que se dice. Detener el reconocimiento cuando no coincide no tendría mucho sentido, ya que: (1) volver a preguntar podría estropear el flujo de la llamada, o (2) reiniciar el reconocimiento podría introducir una brecha en el reconocimiento que podría hacer que pasara por alto una parte de lo que dijo la persona que llama.

En un escenario como este, es mejor ignorar la falta de coincidencia y seguir escuchando, la persona que llama no notará ninguna respuesta a lo que dijo y, naturalmente, lo repetirá.

La configuración para el reconocimiento continuo que funcionaría en este caso sería:

StopOn: coincidencia, error
noCallbackFor: no-input, no-match - notes: (1) en este caso, sugerimos establecer un NoInputTimeout muy largo para que internamente no se genere ninguna entrada sin entradas. (2) la aplicación también podría decidir aceptar devoluciones de llamada sin coincidencia; podrían rastrearse y, si son demasiadas, actuar en consecuencia.

El reconocimiento continuo es compatible con la integración de Voicegain para Transmisiones multimedia de Twilio - ya sea en TwiML <Stream>o <Connect><Stream>en Twilio Programmable Voice

Aún no es compatible con las API de Voicegain Telephony Bot.

‍

Casey

AI Voice Agent Platform

Transcribe