CPaaS

Cómo usar Voicegain con Twilio Media Streams

Voicegain añade el reconocimiento de voz basado en la gramática a la plataforma de voz programable Twilio a través del Transmisión multimedia de Twilio Característica.

La diferencia entre el reconocimiento de voz Voicegain y Twilio Twiml <Gather> es:

  1. Voicegain admite gramáticas con etiquetas semánticas (GRXML o JSGF) while <Gather>es un gran reconocedor de vocabulario que solo devuelve texto, y
  2. Voicegain es significativamente más barato (describiremos la diferencia de precio en una próxima entrada del blog).

Cuando utilices Voicegain con Twilio, la lógica de tu aplicación tendrá que gestionar las solicitudes de devolución de llamadas tanto de Twilio como de Voicegain.

Cada reconocimiento implicará dos pasos principales que se describen a continuación:

Inicio del reconocimiento de voz con Voicegain

Esto se hace invocando la API de reconocimiento asíncrono de Voicegain: /asr/recognize/async

A continuación se muestra un ejemplo de la carga útil necesaria para iniciar una nueva sesión de reconocimiento:

Algunas notas sobre el contenido de la solicitud:

  • startInputTimers le dice a ASR que retrase el inicio de los temporizadores; se iniciarán más tarde cuando termine de reproducirse la línea de preguntas
  • TWIML está configurado como protocolo de transmisión con el formato establecido en PCMU (u-law) y una frecuencia de muestreo de 8 kHz
  • La configuración asr incluye los tres tiempos de espera estándar utilizado en el reconocimiento basado en la gramática: tiempos de espera sin entrada, completos e incompletos
  • la gramática se establece en la gramática GRXML cargada desde una URL externa

Esta solicitud, si se realiza correctamente, devolverá la URL del websocket en el campo audio.stream.websocketURL. Este valor se utilizará para realizar una solicitud de TWiML.

Tenga en cuenta que si la gramática se especifica para reconocer el DTMF, el reconocedor Voicegain reconocerá las señales DTMF incluidas en el audio enviado desde la plataforma Twilio.

<Connect><Stream>Solicitud TWiML

Tras iniciar una sesión de Voicegain ASR, podemos decirle a Twilio que abra la conexión de Media Streams con Voicegain. Esto se hace mediante la siguiente solicitud de TWiML:


Algunas notas sobre el contenido de la solicitud de TWiML:

  • la URL de websocket es la que devuelve la solicitud Voicegain /asr/recognize/async
  • se admite más de un mensaje de pregunta: se reproducirán uno tras otro
  • Se admiten tres tipos de mensajes: 01) grabación recuperada de una URL, 02) mensaje TTS (hay varias voces disponibles), 03) mensaje «clip:» generado mediante el Voicegain Prompt Manager, que admite la concatenación dinámica de mensajes pregrabados
  • BargeIn está activado: la reproducción inmediata se detendrá tan pronto como la persona que llama comience a hablar

Respuesta de reconocimiento devuelta

A continuación se muestra un ejemplo de respuesta del reconocimiento. Esta respuesta proviene de la gramática telefónica integrada.


Ganancia de voz: La IA de voz bajo tu control

Ganancia de voz: Cree aplicaciones de IA de voz con nuestras API de NLU de voz a texto y LLM. Graba y transcribe reuniones, llamadas a centros de atención al cliente, vídeos, etc. Obtén resúmenes, opiniones y mucho más basados en LLM. Cree bots de voz conversacionales que se integren con su plataforma CCaaS local o en la nube. Comience hoy mismo.

Descubre cómo funciona Voicegain — obtén una demostración de Voicegain hoy mismo.

Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control