Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Creación de robots de voz con Voicegain Speech-to-Text/ASR
Bot de voz
Creación de robots de voz con Voicegain Speech-to-Text/ASR

El propósito de esta entrada de blog es profundizar en otras publicaciones en las que describimos varias formas de crear un Voice Bot usando Voicegain ASR/Speech-to-Text. También tenemos previsto anunciar una nueva función que pronto facilitará aún más el desarrollo de Voice Bot.

Solo un resumen rápido: ¿qué es un Voice Bot? Un Voice Bot permite a los usuarios hablar con libertad y naturalidad en respuesta a las preguntas que hace el Bot. Puede extraer múltiples «intenciones» de lo que dice un cliente y puede responder de forma inteligente. Al implementar los bots de voz, los clientes pueden retirar sus IVR antiguos y también utilizar una plataforma de bots unificada para impulsar tanto los chatbots como los bots de voz.

Es importante tener en cuenta que Voicegain ASR/Speech-to-Text solo proporciona la «boca» y el «oído» del Voice Bot. Para crear la lógica del bot y todas las integraciones de back-end (es decir, el cerebro), el desarrollador tiene que seleccionar un marco de bots como Flujo de diálogo de Google, RASA, Kore.ai, Servicio Microsoft Azure Bot, o AWS Lex.

Estas son algunas formas en las que puedes crear un Voice Bot.

1. Uso de la API de bots de telefonía de Twilio y Voicegain

Este método se describe en la entrada del blog: Cómo crear un Voicebot con Voicegain, Twilio, RASA y AWS Lambda

Es importante tener en cuenta que la configuración descrita para usar AWS Lambda y S3 para gestionar las devoluciones de llamadas es solo para fines de demostración y no es ideal para la implementación en producción. El servidor de devolución de llamadas debe poder gestionar las devoluciones de Twilio y Voicegain y transmitir información entre ambos. Como AWS Lambda no tiene estado, la información se transmite en este ejemplo a través de S3, lo que hace que el proceso de principio a fin sea lento debido a la necesidad de realizar sondeos. Eso no proporcionará un tiempo de respuesta rápido para su Voice Bot.

Para una configuración lista para la producción, le sugerimos que sustituya AWS Lambda y S3 por un servidor web adecuado que pueda mantener el estado de la sesión; para ello, puede utilizar Node.js o Python Flask.

2. Uso de la CPaaS incorporada de la API Voicegain Telephony Bot

Este método se describe en la entrada del blog: Instrucciones sencillas: cree un robot de voz con Voicegain, RASA y AWS Lambda

Esto es más fácil que el método descrito anteriormente. La API Voicegain Telephony Bot utiliza la CPaaS de Amazon Chime para proporcionar la funcionalidad que de otro modo proporcionaría Twilio y está integrada internamente con la API Voicegain STT. Utiliza devoluciones de llamadas, por lo que necesita un servicio web intermedio para gestionar la interacción con una plataforma de bots, por ejemplo, RASA. Este servicio web puede no tener estado porque la API de Telephone Bot es capaz de mantener la información de estado.

El ejemplo descrito en la entrada de blog anterior utiliza troncales SIP y números de teléfono proporcionados por Amazon Chime, que están integrados como parte de la API Voicegain Telephony Bot. Si prefiere conservar su proveedor de telefonía y CPAAS (p. ej. Cable de señal, Twilio, Telnyx, o Bandwidth.com) puede hacerlo y conectarse a la API de Telephone Bot mediante SIP INVITE. Esto se describe en la entrada del blog: Captación de voz SIP INVITE de Twilio, SignalWire y Telnyx CPaaS

3. Uso de AudioCodes Voice AI Connect

Este método se describe en la entrada del blog: Voicegain anuncia la integración con Audiocodes Voice AI connect.

VoiceAI Connect (VAIC) de AudioCodes permite a las empresas conectar un marco de bots y servicios de voz, como conversión de texto a voz (TTS) y voz a texto (STT), a los canales de voz y telefonía de las empresas para impulsar los casos de uso de Voice Bots, IVR conversacionales y Agent Assist.

AudioCodes proporciona una integración nativa con Bot Frameworks como Kore.ai, Google Dialogflow y Microsoft Bot Framework.

4. Conéctese directamente desde la API de Telephone Bot a su plataforma de bots

Esta configuración le permite especificar directamente un punto final de Voice Bot en lugar de especificar un destino de devolución de llamada http genérico. La ventaja de esto es que no tiene que lidiar con tener que proporcionar el servicio web de devolución de llamadas. Tenga en cuenta que, en esta configuración, cualquier solicitud de back-end desde la lógica de su aplicación a, por ejemplo, los servicios de datos, ahora tendrá que hacerse desde la plataforma de bots.

Las plataformas de bots que ya admitimos son RASA y Google Dialogflow. Actualmente estamos trabajando para integrarnos con Marco de bots de Microsoft. Esperamos terminar esta integración a tiempo para la primera versión de la integración de la plataforma Voicegain-Bot. También tenemos previsto trabajar muy pronto en una integración con Kore.ai.


Read more → 
Cuatro formas de integrar FreeSwitch con Voicegain Speech-to-Text
Edge
Cuatro formas de integrar FreeSwitch con Voicegain Speech-to-Text

Interruptor gratuito es una plataforma de telefonía muy capaz adecuada para crear diversas aplicaciones de telefonía. Algunas de esas aplicaciones se basarán en la conversión de voz a texto, por ejemplo: los ACD (distribución automática de llamadas), los IVR, los bots de voz, la asistencia de agentes en tiempo real, la transcripción de conferencias telefónicas en tiempo real, la supervisión de llamadas, etc.

La plataforma Voicegain Speech-to-Text se puede usar con FreeSWITCH de varias maneras.

1. mod_unimrcp para IVR

La plataforma Voicegain STT es compatible con MRCP (Media Resource Control Protocol) desde hace mucho tiempo. Se puede acceder a nuestro ASR mediante el MRCP y admitimos tanto el reconocimiento basado en la gramática (por ejemplo, GRXML) como la transcripción de vocabulario extenso. El MRCP es un protocolo de comunicación diseñado para conectar los IVR y los bots de voz basados en telefonía con reconocedores de voz (ASR) y sintetizadores de voz (TTS).

FreeSwitch puede interactuar con los reconocedores basados en MRCP utilizando el mod_unimrcp módulo. El Voicegain STT ha sido probado con mod_unimrcp e interactúa con él sin problemas. Puedes obtener más información sobre el uso de Voicegain STT a través de mod_unimrcp en esta entrada de blog.

Voicegain es compatible con MRCP tanto en la nube como en Edge (local). Pronto lanzaremos en OpenSource un complemento de reconocimiento para unimrcp servidor que le dará aún más opciones para implementar FreeSwitch con Voicegain y MRCP.

2. Conecta con la API Voicegain Telephony Bot

Voicegain proporciona una API de bots de telefonía, que es una API de devolución de llamadas, similar en estilo a Twilio TWiML. Puedes realizar una llamada al terminal de Voicegain usando un número de teléfono obtenido de Voicegain o usando un punto final SIP exclusivo de tu aplicación Voicegain. Cuando recibas una llamada, recibirás una llamada web y la respuesta que proporciones determinará las acciones que realizará la plataforma Voicegain, como reproducir un mensaje, reconocer la voz, detectar el DTMF, etc.

Puedes obtener más información sobre esta API en las siguientes publicaciones del blog:

Si tienes una aplicación FreeSWITCH y quieres reconocer el habla hablada, puedes puente al punto final SIP de Voicegain y en una devolución de llamada, especifique un mensaje y el tipo de captura de voz (basada en la gramática o en vocabulario extenso). Cuando finalice el reconocimiento, recibirás una llamada y, a continuación, podrás emitir una orden de desconexión que devolverá el flujo de llamadas a tu aplicación de Freeswitch, o puedes continuar con más preguntas y reconocimientos en la plataforma Voicegain, según sea necesario.

A continuación se muestra un ejemplo de una interacción sencilla con 4 participantes:

  • Interruptor gratuito
  • Su lógica de control para la aplicación FS, por ejemplo, un script de Lua
  • Servicio web que gestionará las devoluciones de llamadas desde la API Voicegain Telephone Bot. Tiene que poder mantener los datos de la sesión.
  • Plataforma API Voicegain Telephone Bot



3. mod_voicegain para usar Voicegain ASR desde aplicaciones/scripts de FS

Esto todavía no está disponible de forma general. Póngase en contacto con nosotros si está interesado en realizar una prueba.

mod_voicegain le proporcionará capacidades similares a las de usar mod_unimrcp con Voicegain, pero sin la sobrecarga de usar un protocolo MRCP: mod_voicegain se comunica directamente con Voicegain ASR.

mod_voicegain aprovecha la transmisión de audio entrante de FreeSwitch y envía los datos de audio a Voicegain ASR en la nube o en Edge. Voicegain ASR procesa el audio de acuerdo con los parámetros de invocación especificados en el argumento de datos. Luego comunica el resultado de la transcripción o el reconocimiento en un evento.

mod_voicegain se instala en FreeSwitch como una aplicación y se puede invocar como tal, por ejemplo:


o desde el script LUA:


Los resultados siempre se devolverán como un evento FreeSwitch, pero también es posible obtener los resultados en una devolución de llamada a la URL especificada en callback.uri

El evento FreeSwitch será de tipo personalizado (Nombre-evento: CUSTOM) y la subclase de evento será «voicegain_asr_update». La carga útil correspondiente estará en el campo «ASR-Response» con formato JSON.

Puedes leer más sobre mod_voicegain es este artículo de la base de conocimientos.


4. mod_vg_tap para la transcripción en tiempo real

mod_vg_tap se ha desarrollado pensando en aplicaciones como Real-Time Agent Assist. Estas aplicaciones necesitan acceder a la transmisión de audio de una llamada de FreeSwitch, pero no necesitan interactuar con FreeSwitch de otro modo (a diferencia del IVR y los Voice-Bots).

mod_vg_tap se instala como una aplicación y tiene comandos sencillos para iniciar o detener la transmisión al motor Voicegain Speech-to-Text.

El comando start puede especificar los siguientes destinos:

  • URL (s) de websocket: devueltas por un comando POST que inicia una nueva sesión de voz a texto
  • socket IP: puerto para comunicación por socket; solo es compatible con Voicegain implementado en Edge (local)
  • (en la hoja de ruta): cuerpo completo de JSON para iniciar una nueva sesión de voz a texto y comenzar a transmitir a ella

Por lo general, los resultados de la transcripción no se devuelven a una aplicación FreeSwitch, sino que se entregan al destino especificado al iniciar la sesión de conversión de voz a texto; los resultados se pueden entregar mediante websocket, sondeo o devolución de llamada.

Si deseas obtener más información sobre cualquiera de estos métodos de integración de Voicegain con FreeSwitch, envíanos un correo electrónico a support@voicegain.ai.


Read more → 
Onvisource se asocia con Voicegain para ASR on the Edge con tecnología de GPU NVIDIA
Anuncio
Onvisource se asocia con Voicegain para ASR on the Edge con tecnología de GPU NVIDIA

Dallas, Texas - 26 de octubre de 2021: Fuente ONVI, un proveedor líder de soluciones de automatización inteligente para la optimización de la fuerza laboral, el análisis y la automatización de las operaciones de los centros de contacto, la gestión de la experiencia del cliente y la automatización de los procesos empresariales, anunció hoy una asociación estratégica con Ganación de voz, una innovadora empresa de voz a texto y ASR. OnviSource ha integrado la plataforma de conversión de voz a texto de Voicegain basada en el aprendizaje profundo en su solución de análisis multicanal Intellecta™, que utiliza la interpretación de voz a texto y lenguaje natural para analizar las interacciones con los clientes y el contenido basado en audio para descubrir conocimientos prácticos y extraer información empresarial.

OnviSource aprovechará la plataforma Voicegain para atender a su creciente base de clientes empresariales de diversos sectores, como proveedores de servicios inalámbricos nacionales, bancos, servicios financieros, servicios públicos, seguros y otros.

«Nos complace anunciar esta asociación con Voicegain, ya que su ASR impulsado por la IA amplía aún más nuestras soluciones de automatización inteligente impulsadas por la IA y nuestra plataforma de hiperautomatización, que ofrece IA integrada, IA conversacional, RPA, BPA y análisis», dijo Ray Naeini, presidente y director ejecutivo de OnviSource. «Nuestra asociación permitirá a ambas compañías desarrollar conjuntamente modelos de IA altamente sofisticados y personalizados para diversas aplicaciones e industrias con el fin de ofrecer una precisión y un rendimiento incomparables».

Para lograr un alto rendimiento, OnviSource implementó el motor Voicegain ASR en servidores con GPU NVIDIA en su centro de datos. Esta arquitectura se conoce como implementación perimetral. Si bien Voicegain también ofrece una solución en la nube para varios usuarios, una arquitectura de implementación perimetral tiene dos beneficios importantes para OnviSource.

El primer beneficio importante es que permite a OnviSource cumplir con los estrictos compromisos contractuales con los clientes relacionados con la privacidad, la seguridad y el control de los datos. La segunda ventaja es que ofrece a OnviSource una reducción de costes de aproximadamente un 75% en comparación con los modelos de precios basados en el uso que ofrecen otros proveedores, lo que permite a OnviSource ofrecer sus soluciones repletas de funciones a precios muy asequibles y flexibles.

«Estamos entusiasmados de haber sido seleccionados por OnviSource para sus productos de análisis de voz empresarial y call center. Esta decisión confirma las tres A con las que Voicegain se diferencia en el mercado de ASR: precisión, asequibilidad y accesibilidad», afirmó Arun Santhebennur, cofundador y director ejecutivo de Voicegain. «Nuestras mejoras conjuntas en los productos ofrecerán modelos de conversión de voz a texto de alta precisión para aplicaciones empresariales complejas».

La selección del producto Voicegain por parte de OnviSource se basó en pruebas exhaustivas y programas piloto relacionados con la precisión, el rendimiento y la aplicabilidad del producto de Voicegain, combinados con un análisis comparativo detallado con otros productos del mercado.

Además, el producto Voicegain ofrece simplicidad en la implementación y el uso, ya que toda la plataforma se implementa en un clúster de Kubernetes. Su implementación en Edge ofrece un script simple para descargar e implementar todos los paquetes y dependencias en cualquier servidor con GPU NVIDIA.

Acerca de OnviSource

Durante más de una década, Fuente ONVI ha permitido a varios cientos de pequeñas y grandes empresas de una amplia gama de sectores gestionar, automatizar y mejorar de forma rentable la experiencia del cliente y los procesos empresariales al ofrecer soluciones avanzadas de captura, unificación, análisis, toma de decisiones y automatización multicanal de datos y medios para toda la empresa, incluidos los centros de contacto, las oficinas administrativas y las organizaciones de TI.

Las soluciones automatizadas inteligentes (IA) de OnviSource IA ofrecen optimización de la fuerza laboral y gestión de la fuerza laboral (WFO/WFM), incluida la gestión de la participación del cliente de teleservicio, el análisis multicanal de la participación del cliente, la encuesta de clientes automatizada de forma inteligente, la automatización de procesos mediante la automatización robótica de procesos (RPA) y la automatización inteligente de procesos (IPA) y el agente virtual inteligente (IVA). La empresa ofrece sus soluciones como productos de software, nube o software como servicio (SaaS), servicios gestionados o cualquier combinación. OnviSource es especial Ventaja Platinum El programa asegura que las soluciones funcionen para las necesidades específicas de los clientes al ofrecer una serie de programas de asistencia al cliente sin obligaciones. Estos programas incluyen consultas, pruebas de concepto y asistencia operativa práctica. OnviSource tiene su sede en Plano, Texas (área del norte de Dallas), con un centro de operaciones adicional en Oklahoma.

Acerca de Voicegain

Voicegain es una plataforma de conversión de voz a texto basada en redes neuronales profundas que se centra en los desarrolladores de aplicaciones de voz. Voicegain ofrece un conjunto completo de API, SDK y aplicaciones SaaS además de su plataforma para automatizar y analizar las interacciones basadas en la voz en los centros de contacto, las ventas y las reuniones. Para obtener más información, visita Voicegain.ai o crea un cuenta gratuita para empezar.

Contacto de prensa:Ganancia de voz: Arun Santhebennur, director ejecutivo

arun@voicegain.ai


Fuente ONVI: Deborah Cromwell, directora de marketing

deborah.cromwell@onvisource.com

Read more → 
Instrucciones sencillas: cree un robot de voz con Voicegain, RASA y AWS Lambda
Bot de voz
Instrucciones sencillas: cree un robot de voz con Voicegain, RASA y AWS Lambda

Uno de los anteriores publicaciones de blog describió un Voice Bot creado con Twilio, Voicegain, RASA y AWS Lambda. Twilio se utilizaba para la telefonía (números de teléfono, enlaces troncales SIP y TWiML para el control de llamadas). Voicegain proporcionaba el reconocimiento de voz y ASR, mientras que AWS Lambda coordinaba las acciones. La configuración funciona, pero es complicada. La necesidad de transmitir los resultados del reconocimiento de voz a través de S3 (dado que Lambda no tiene estado ni memoria entre las llamadas a funciones) puede provocar, en ocasiones, retrasos en las solicitudes y respuestas.

Opción de CPaaS sencilla incorporada

Voicegain ahora se integra con el conector de voz de Amazon Chime para ofrecer un servicio de enlace troncal SIP de pago por uso directamente desde la consola web de Voicegain. También puedes comprar números de teléfono y recibir llamadas entrantes. Se está preparando la compatibilidad para realizar llamadas IVR de voz salientes.

Por supuesto, seguimos apoyando a los desarrolladores que utilizan Twilio y SignalWire mediante un simple SIP INVITE - este blog describe cómo.

¿Cómo funciona?

Los componentes
  • Función AWS Lambda - una única función de Node.js con un activador de API Gateway (tipo de API HTTP simple).
  • Ganación de voz API de bots de telefonía - la API Telephony Bot funciona con las devoluciones de llamadas web. Para los desarrolladores de Twilio y SignalWire, es similar a trabajar con Twilio Twiml y SignalWire LaML, respectivamente.
  • RASA - La lógica de diálogo la proporciona el servidor RASA NLU Dialog, al que se puede acceder a través de la API RestInput.
Los escalones

El diagrama de secuencia se proporciona a continuación. Es muy sencillo. Básicamente, la secuencia de operaciones es la siguiente:

  1. Llame a un número de teléfono proporcionado por Voicegain (con tecnología de Amazon Chime Voice Connector)
  2. La API Voicegain Telephony Bot llama a una función de devolución de llamada en AWS Lambda.
  3. La función Lambda envía «Hola» a RASA y RASA responde con el mensaje de diálogo inicial
  4. La función Lambda responde a la llamada de Voicegain con el mensaje recibido de RASA y le dice a Voicegain Speech-to-Text que capture la respuesta de la persona que llama.
  5. Voicegain usa TTS para generar a partir del texto de la pregunta RASA un mensaje de audio y lo reproduce por teléfono para la persona que llama.
  6. La persona que llama escucha el aviso y dice algo en respuesta
  7. Voicegain ASR transcribe el discurso a texto y devuelve la llamada con el resultado de la transcripción a la función Lambda.
  8. La función Lambda invoca a RASA y le pasa el texto de la respuesta.
  9. RASA procesa la respuesta y genera la siguiente pregunta del diálogo
  10. Continuamos en el siguiente turno igual que en el paso 4.

El código de muestra de la función Lambda (en las versiones python y node.js) está disponible en nuestro github.



¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis


Read more → 
Soporte de dos canales para Twilio Media Streams
CPaaS
Soporte de dos canales para Twilio Media Streams

La plataforma Voicegain Speech-to-Text ya admite desde hace tiempo muchas de las funciones de Twilio, como:

  • <Connect><Stream> for IVR/VoiceBot applications with voice capacity
  • SORBO, INVITACIÓN - para la integración de la API de devolución de llamadas de Voicegain en las llamadas originadas en Twilio, y también se centra principalmente en las aplicaciones de VR y Voicebot
  • SIPREC - for voice analysis to text in time real or of voice to text and without connection
  • medios simples<Stream>, pero hasta ahora solo en aplicaciones de 1 canal con el objetivo de ofrecer una alternativa para <Gather>

La versión 1.26.0 de la plataforma Voicegain finalmente ofrece un soporte completo de 2 canales para Twilio Media Streams. Esto permite la transcripción en tiempo real de los canales entrantes y salientes al mismo tiempo.

How work?

<Stream>El comando Twilio toma un parámetro de URL de websocket como destino al que se transmiten los canales seleccionados, por ejemplo:


La URL de wss se puede obtener iniciando una nueva sesión de transcripción en tiempo real de Voicegain mediante la API https://api.voicegain.ai/v1/asr/transcribe/async. La parte de sesión de la solicitud puede tener el siguiente aspecto (observe que se inician dos sesiones y cada una recibirá un canal diferente a la izquierda/derecha de la transmisión de audio):

También necesitamos decirle a Voicegain que tome la entrada en el protocolo TWIML en estéreo:


Tenga en cuenta que podemos habilitar la captura de audio, lo que además nos dará una grabación estéreo de la llamada una vez que se complete la sesión.

Como respuesta al inicio de la sesión de Voicegain, obtenemos 3 URL de websocket:

  • <Stream>one for the entrante audio; this the pasé to command Twilio TwiML
  • dos para recibir los resultados de la transcripción en tiempo real; los mensajes individuales tendrán un aspecto similar a, por ejemplo, {"utt»: «one», «conf»: 0.4047, «start»: 440}

Example code

In our github proporcionamos un ejemplo de código python que inicia una simple llamada telefónica saliente de Twilio y luego transcribe en tiempo real tanto el audio entrante como el saliente.

El código de ejemplo ilustra un ejemplo de llamada saliente que es algo más simple porque no implica ninguna devolución de llamada. En el caso de una llamada entrante, la solicitud a Voicegain tendría que hacerse desde la función de devolución de llamada de Twilio, que se invoca cuando se recibe una nueva llamada; de lo contrario, el resto del código sería muy similar al de nuestro ejemplo de github.

Casos de uso

Algunos de ellos ya figuran en Twilio Media Streams Page:

  • transcripción en tiempo real
  • NLU: por ejemplo, detectar y responder a eventos durante la llamada
  • search automatische in knowledge base
  • análisis de sentimientos: use texto para determinar el sentimiento durante la llamada

Próximamente

Probaremos la <Stream>funcionalidad en el Lámpara L lenguaje de comandos proporcionado por la plataforma SignalWire, que es muy similar a Twilio Twiml; actualizaremos nuestro blog con los resultados de esas pruebas.

También estamos trabajando en una versión en tiempo real de nuestro Voice analysis API. Una vez completada, todas las funciones de Speech Analytics estarán disponibles en tiempo real para los usuarios de las plataformas Twilio y SignalWire.

Si estás interesado en Voicegain, ¡llévanos a hacer una prueba de manejo!

1. Haga clic here para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestra API, haz clic herepara crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic here.

Read more → 
Voicegain anuncia la integración con VoiceAI Connect de AudioCodes
Anuncio
Voicegain anuncia la integración con VoiceAI Connect de AudioCodes

Nos complace anunciar una nueva API de conversión de voz a texto (STT) que funciona con AudioCodes VoiceAI Connect*. VoiceAI Connect (VAIC) de AudioCodes permite a las empresas conectar un entorno de bots y servicios de voz, como la conversión de texto a voz (TTS) y la conversión de voz a texto (STT), a los canales de voz y telefonía de las empresas para impulsar los casos de uso de Voice Bots, IVR conversacionales y Agent Assist.

Con esta nueva API, las empresas y las plataformas de NLU/IA conversacional pueden aprovechar las capacidades de AudioCodes VAIC con Voicegain como motor ASR o STT para sus iniciativas de IA en centros de contacto.

Los dos casos de uso principales en los centros de contacto son (1) la creación de bots de voz (o la activación por voz de un chatbot) y (2) la creación de Agent Assist en tiempo real.

Si bien AudioCodes admite las opciones de STT en la nube de los grandes reproductores Microsoft, Google y Amazon, la introducción de Voicegain como una opción ASR adicional ofrece tres beneficios clave para los posibles clientes. Estas ventajas se pueden resumir en las tres A: precisión, asequibilidad y accesibilidad.

1. Precisión:

Para obtener una precisión STT muy alta, las empresas ahora comprenden la importancia de entrenar los modelos acústicos subyacentes con datos de audio específicos de la aplicación. Si bien es necesario contar con una precisión razonable y lista para usar, crear bots de voz o extraer análisis de alta calidad de los datos de voz requiere más de lo que se ofrece. Voicegain ofrece una canalización completa de datos de entrenamiento y API fáciles de usar que ayudan a acelerar la creación de modelos acústicos personalizados. Hemos demostrado que es importante reducción de las tasas de error de Word incluso con unos cientos de horas de archivos de audio específicos del cliente.

Como AudioCodes VAIC facilita el cambio entre varios servicios STT, puedes comparar fácilmente el rendimiento de Voicegain STT con el de cualquiera de los otros proveedores de STT compatibles con AudioCodes.

2. Asequibilidad:

Ofertas de Voicegain precios disruptivos en comparación con los 3 principales proveedores de STT, esencialmente el la misma precisión lista para usar. Nuestros precios son entre un 40 y un 75% más bajos que los de los 3 principales proveedores de voz a texto en la nube. Esto es especialmente importante para los casos de uso del análisis en tiempo real (asistencia de agentes en tiempo real) en los centros de atención, ya que los volúmenes de audio y transcripción son muy grandes. Además de las API, también proporcionamos una interfaz de usuario de referencia de marca blanca que los centros de contacto pueden usar para reducir el costo y el tiempo de comercialización asociados con la implementación de aplicaciones de inteligencia artificial.

3. Accesibilidad:

Además de acceder a STT como servicio en la nube, Voicegain se puede implementar en un clúster de Kubernetes en el centro de datos de un cliente o en una VPC dedicada con cualquiera de los principales proveedores de nube. Esto se aplica a las aplicaciones en las que los problemas de cumplimiento, privacidad y control de datos impiden el uso de los motores STT en la infraestructura de nube pública.

Configuración de la integración

La conexión de AudioCodes VAIC a Voicegain se realiza en 3 sencillos pasos. Son:

1) Agregue Voicegain como proveedor de ASR/STT en VAIC. Esto se hace a través de una API (proporcionada por Audiocodes). En este paso, tendrás que introducir un token de JWT desde la consola web de Voicegain para la autenticación (las instrucciones se proporcionan a continuación).

2) Introduzca la URL de entrada del socket web para Voicegain ASR en VAIC. Puede obtener esta URL en la consola web de Voicegain (las instrucciones se proporcionan a continuación)

3) Configure los ajustes del motor de reconocimiento de voz. Esto incluye elegir el modelo correcto y tener los ajustes correctos de tiempo de espera y sensibilidad del modelo. Esto se hace en la consola web de Voicegain (a continuación encontrará las instrucciones para registrarse)

Ponte en contacto con tu contacto de atención al cliente de Audiocodes para conocer los pasos 1 y 2.

Suscripción a la consola web Voicegain

Tendrías que registrarte en una cuenta de desarrollador en la consola web Voicegain. Voicegain ofrece una plataforma de desarrollo abierta y no es necesario que introduzcas tu tarjeta de crédito. Ofrecemos 300 minutos de acceso gratuito a las API de conversión de voz a texto cada mes. Puedes probar nuestras API y comprobar su precisión.

Después de registrarte, ve a Ajustes > Seguridad de la API. Aquí encontrará el token de JWT necesario para el paso 1 y la URL de entrada de la API para el paso 2.

También tendrá que elegir el modelo acústico correcto y establecer el tiempo de espera y la sensibilidad completos especificados en el paso 3. Navegue por Ajustes -> Reconocimiento de voz -> Ajustes de transcripción ASR.

Si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai

* VoiceAI connect es un producto y una marca comercial propiedad de Códigos de audio.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control