Voicegain Speech-to-Text se integra con Twilio Media Streams

Voicegain lanzó una extensión para Voicegain API /asr/recognize que apoya Twilio Transmisiones multimedia vía TwiML <Connect><Stream>. Con este lanzamiento, los desarrolladores que utilizan la voz programable de Twilio obtienen una preciso, asequible, y un ASR fácil de usar para crear Voice Bots /Speech-IVRs.

Actualización: Voicegain también anunció que su transcripción de vocabulario extenso (/asr/transcribe API) se integra con Twilio Media Streams. Los desarrolladores pueden usarlo para activar por voz un bot de chat desarrollado en cualquier plataforma de bots o desarrollar una aplicación de asistencia para agentes en tiempo real.

Características principales de la compatibilidad con Twilio Media Streams

La compatibilidad con Voicegain Twilio Media Streams ofrece a los desarrolladores las siguientes funciones:

Soporte gramatical para bots e IVR: Los desarrolladores ahora pueden escribir bots de voz o IVR que usen gramáticas. El uso de gramáticas puede mejorar la precisión del reconocimiento y simplificar el desarrollo de bots restringiendo el motor de conversión de voz a texto. Además, muchos IVR tradicionales de VoiceXML se crean utilizando gramáticas. <Gather>Hasta ahora, Twilio Twiml no admitía el uso de gramáticas de voz, ya que el comando solo admite la captura de texto. Esto dificultaba la creación de bots sencillos o la migración de las aplicaciones de IVR de VoiceXML existentes a la plataforma Twilio. La asignación del texto al significado semántico tenía que hacerse por separado, además de que un reconocedor de vocabulario extenso era más probable que devolviera reconocimientos falsos. Voicegain resuelve estos problemas al admitir ambos GRXML y JSGF gramáticas de voz en el nivel básico del motor de conversión de voz a texto (ASR). Esto ofrece una mayor precisión en comparación con un ASR que utiliza un modelo lingüístico de vocabulario extenso para reconocer el texto y, a continuación, aplica la gramática al texto reconocido.
Ahorro del 90% en los costos de licencias de ASR: Una gran ventaja para los desarrolladores de la plataforma de voz programable Twilio ha sido su precio asequible. Sin embargo, eso no era necesariamente cierto en el caso de las opciones de ASR existentes, ya <Gather>que tienen un precio de 8 céntimos por minuto (con un mínimo de 15 segundos). Con Voicegain, el ASR/STT precio es de 1,25 céntimos/minuto medido en incrementos de 1 segundo. Si incluyes el incremento de facturación, los desarrolladores obtenga un ahorro de costos del 90%.
Mejor soporte de tiempo de espera: Voicegain admite tiempos de espera configurables sin entrada, tiempo de espera completo y tiempo de espera incompleto. Gracias a que la gramática está integrada en el reconocedor, Voicegain ASR es capaz de ofrecer una respuesta precisa y completa cuando se agota el tiempo de espera, algo que no es posible con un <Gather>comando, ya que la única forma de saber si la persona que llama ha dejado de hablar es haciendo una pausa lo suficientemente larga.
Simplifica reproducción dinámica de mensajes<Stream>. -- Para que su uso sea lo más <Connect><Stream>fácil posible, admitimos pasar instrucciones al invocar. Las instrucciones se pueden proporcionar como texto o como URL. Si se proporciona como texto, Voicegain utilizará TTS o realizará una concatenación dinámica de las indicaciones pregrabadas. Como parte del portal web de Voicegain, se proporciona un administrador de mensajes para tales mensajes pregrabados. Configurable irrumpir es compatible con las indicaciones.
Afina y prueba las gramáticas. -- El portal web Voicegain incluye una herramienta para revisar y ajustar la gramática. La herramienta también admite pruebas de regresión. Con esta funcionalidad, nunca tendrá que implementar gramáticas sin saber qué tan bien funcionarán después de los cambios.

Cómo funciona Twilio Media Streams con Voicegain

‍

‍

TWiML <Stream>requiere una URL de websocket. Esta URL se puede obtener invocando la API Voicegain /asr/recognize/async. Al invocar esta API, se debe proporcionar la gramática que se utilizará en el reconocimiento. La URL del websocket se devolverá en la respuesta.

‍

Además de la URL wss, los parámetros personalizados del <Connect><Stream>comando se utilizan para transmitir información sobre la línea de pregunta que Voicegain reproducirá a la persona que llama. Puede ser un texto o una URL a un servicio que proporcionará el audio.

Una vez que <Connect><Stream>se ha invocado, la plataforma Voicegain se hace cargo de ella:

Reproduce el mensaje a través del canal posterior de <Stream>
Tan pronto como la persona que llama comience a hablar, la reproducción del mensaje se detiene (si aún se estaba reproduciendo) exactamente igual que en <Gather>
Las palabras habladas se reconocen mediante la gramática. Luego, el resultado del reconocimiento se proporciona como una devolución de llamada desde la plataforma Voicegain. En caso de que no se introduzca ninguna información o no coincida, también se realizará una devolución de llamada adecuada.
<Stream>la conexión se detiene y la aplicación TWiML continuará con el siguiente comando.

Por cierto, también admitimos la entrada DTMF como alternativa a la entrada de voz.

[ACTUALIZACIÓN: puedes ver más detalles sobre cómo usar Voicegain con Twilio Media Streams en esta nueva Entrada de blog.]

Otras funciones de la plataforma Voicegain

1. Soporte Edge local: Si bien las API de Voicegain están disponibles como un servicio de PaaS en la nube, Voicegain también admite la implementación local o perimetral. Voicegain se puede implementar como un servicio en contenedores en un clúster de Kubernetes de un solo nodo o en un clúster de Kubernetes de alta disponibilidad de varios nodos (en el hardware de la GPU o en la VPC).

2. Personalización del modelo acústico: Esto permite lograr una precisión muy alta más allá de lo que es posible sin los reconocedores listos para usar. La herramienta de ajuste gramatical y regresión mencionada anteriormente se puede utilizar para recopilar datos de entrenamiento para la personalización del modelo acústico.

Próximamente más funciones

En nuestra hoja de ruta a corto plazo para los usuarios de Twilio, tenemos varias funciones más:

Avanzado Detección de contestador automático (AMD): se invocará mediante el <Connect><Stream>reconocimiento de voz y proporcionará una detección muy precisa del contestador automático.
Modelo de lenguaje de amplio vocabulario para capturar solo las palabras habladas (no se utilizan gramáticas) e integrarlo con cualquier motor de NLU de su elección. <Gather>Creemos que será atractivo debido al menor costo en comparación con.
Asistencia de agentes en tiempo real - estamos combinando nuestro reconocimiento de voz en tiempo real con el análisis de voz para ofrecer una API que permitirá crear aplicaciones de supervisión y asistencia a los agentes en tiempo real.

Puedes inscribirte en prueba nuestro plataforma. Ofrecemos 600 minutos de uso mensual gratuito de la plataforma. Si tienes preguntas sobre la integración con Twilio, envíanos una nota a support@voicegain.ai.

Twilio, TwiML y Twilio Programmable Voice son marcas comerciales registradas de Twilio, Inc.

‍

Casey

AI Voice Agent Platform

Transcribe