CPaaS

Amplia transcripción de vocabulario para desarrolladores de Twilio

En nuestro post anterior describimos cómo Voicegain proporciona un reconocimiento de voz basado en la gramática a la plataforma de voz programable Twilio a través del Transmisión multimedia de Twilio Característica.

A partir de versión 1.16.0 <Gather>de la plataforma y API Voicegain, es posible usar Voicegain de voz a texto para la transcripción de voz (sin gramáticas) para lograr funciones como el uso de TWiML.

Las razones por las que creemos que será atractivo para los usuarios de Twilio son:

  • menor costo por cada captura de voz a texto
  • mayor precisión para los clientes que eligen Personalización del modelo acústico
  • acceso a todas las hipótesis de conversión de voz a texto en el modo de salida de árbol de palabras

El uso de Voicegain como alternativa a <Gather>tendrá pasos similares a los de usar Voicegain para el reconocimiento basado en la gramática; estos pasos se enumeran a continuación.

Inicio de la transcripción de voz con Voicegain

Esto se hace invocando la API de transcripción asíncrona de Voicegain: /asr/transcribir/asincrónico

A continuación se muestra un ejemplo de la carga útil necesaria para iniciar una nueva sesión de transcripción:


Algunas notas sobre el contenido de la solicitud:

  • solicitamos la devolución de llamada para devolver la transcripción en forma de texto; son posibles otras opciones, como palabras (palabras individuales con confidencias) y árbol de palabras (palabras organizadas en un árbol de hipótesis de reconocimiento)
  • startInputTimers le dice a ASR que retrase el inicio de los temporizadores; se iniciarán más tarde cuando termine de reproducirse la línea de preguntas
  • TWIML está configurado como protocolo de transmisión con el formato establecido en PCMU (u-law) y una frecuencia de muestreo de 8 kHz
  • La configuración de asr incluye los dos tiempos de espera utilizados en la transcripción: sin entrada y tiempos de espera completos.

Esta solicitud, si se realiza correctamente, devolverá la URL del websocket en el campo audio.stream.websocketURL. Este valor se utilizará para realizar una solicitud de TWiML.

Tenga en cuenta que, en el modo de transcripción, la detección de DTMF no es posible actualmente. Háganos saber si esto es algo que sería fundamental para su caso de uso.

<Connect><Stream>Solicitud TWiML

Tras iniciar una sesión de Voicegain ASR, podemos decirle a Twilio que abra la conexión de Media Streams con Voicegain. Esto se hace mediante la siguiente solicitud de TWiML:



Algunas notas sobre el contenido de la solicitud de TWiML:

  • la URL de websocket es la que devuelve Voicegain /asr/transcribe/async request
  • se admite más de un mensaje de pregunta: se reproducirán uno tras otro
  • Se admiten tres tipos de mensajes: 01) grabación recuperada de una URL, 02) mensaje TTS (hay varias voces disponibles), 03) mensaje «clip:» generado mediante el Voicegain Prompt Manager, que admite la concatenación dinámica de mensajes pregrabados
  • BargeIn está activado: la reproducción inmediata se detendrá tan pronto como la persona que llama comience a hablar

Respuesta de transcripción devuelta

A continuación se muestra un ejemplo de respuesta de la transcripción en el caso de que «content»: {"full»: ["transcript"]}.



Ganancia de voz: La IA de voz bajo tu control

Ganancia de voz: Cree aplicaciones de IA de voz con nuestras API de NLU de voz a texto y LLM. Graba y transcribe reuniones, llamadas a centros de atención al cliente, vídeos, etc. Obtén resúmenes, opiniones y mucho más basados en LLM. Cree bots de voz conversacionales que se integren con su plataforma CCaaS local o en la nube. Comience hoy mismo.

Descubre cómo funciona Voicegain — obtén una demostración de Voicegain hoy mismo.

Tell us what you are building!

We love talking with you about generative AI, speech & transcription, & privacy—whether you're a startup, a Fortune 500 company, or anywhere in between.
By sending your message, you agree to Voicegain’s  Terms of Service and Privacy Policies.
Thank you for reaching us!
We will be in touch with you shortly.
Oops! Something went wrong while submitting the form. Please, try again!