Amplia transcripción de vocabulario para desarrolladores de Twilio

En nuestro post anterior describimos cómo Voicegain proporciona un reconocimiento de voz basado en la gramática a la plataforma de voz programable Twilio a través del Transmisión multimedia de Twilio Característica.

A partir de versión 1.16.0 <Gather>de la plataforma y API Voicegain, es posible usar Voicegain de voz a texto para la transcripción de voz (sin gramáticas) para lograr funciones como el uso de TWiML.

Las razones por las que creemos que será atractivo para los usuarios de Twilio son:

menor costo por cada captura de voz a texto
mayor precisión para los clientes que eligen Personalización del modelo acústico
acceso a todas las hipótesis de conversión de voz a texto en el modo de salida de árbol de palabras

El uso de Voicegain como alternativa a <Gather>tendrá pasos similares a los de usar Voicegain para el reconocimiento basado en la gramática; estos pasos se enumeran a continuación.

Inicio de la transcripción de voz con Voicegain

Esto se hace invocando la API de transcripción asíncrona de Voicegain: /asr/transcribir/asincrónico

A continuación se muestra un ejemplo de la carga útil necesaria para iniciar una nueva sesión de transcripción:

‍

Algunas notas sobre el contenido de la solicitud:

solicitamos la devolución de llamada para devolver la transcripción en forma de texto; son posibles otras opciones, como palabras (palabras individuales con confidencias) y árbol de palabras (palabras organizadas en un árbol de hipótesis de reconocimiento)
startInputTimers le dice a ASR que retrase el inicio de los temporizadores; se iniciarán más tarde cuando termine de reproducirse la línea de preguntas
TWIML está configurado como protocolo de transmisión con el formato establecido en PCMU (u-law) y una frecuencia de muestreo de 8 kHz
La configuración de asr incluye los dos tiempos de espera utilizados en la transcripción: sin entrada y tiempos de espera completos.

Esta solicitud, si se realiza correctamente, devolverá la URL del websocket en el campo audio.stream.websocketURL. Este valor se utilizará para realizar una solicitud de TWiML.

Tenga en cuenta que, en el modo de transcripción, la detección de DTMF no es posible actualmente. Háganos saber si esto es algo que sería fundamental para su caso de uso.

<Connect><Stream>Solicitud TWiML

Tras iniciar una sesión de Voicegain ASR, podemos decirle a Twilio que abra la conexión de Media Streams con Voicegain. Esto se hace mediante la siguiente solicitud de TWiML:

‍

Algunas notas sobre el contenido de la solicitud de TWiML:

la URL de websocket es la que devuelve Voicegain /asr/transcribe/async request
se admite más de un mensaje de pregunta: se reproducirán uno tras otro
Se admiten tres tipos de mensajes: 01) grabación recuperada de una URL, 02) mensaje TTS (hay varias voces disponibles), 03) mensaje «clip:» generado mediante el Voicegain Prompt Manager, que admite la concatenación dinámica de mensajes pregrabados
BargeIn está activado: la reproducción inmediata se detendrá tan pronto como la persona que llama comience a hablar

Respuesta de transcripción devuelta

A continuación se muestra un ejemplo de respuesta de la transcripción en el caso de que «content»: {"full»: ["transcript"]}.

‍

Casey

AI Voice Agent Platform

Transcribe