Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Nuevos idiomas disponibles en Voicegain Speech-to-Text
Idiomas
Nuevos idiomas disponibles en Voicegain Speech-to-Text

[Actualizado: 27/05/2022]

Además del soporte actual para los idiomas inglés, español, hindi y alemán en su plataforma de conversión de voz a texto, Voicegain lanzará soporte para muchos idiomas nuevos en los próximos meses.

Idiomas disponibles de forma general en este momento
  • Inglés: mezcla principalmente de acentos estadounidenses, británicos e irlandeses, incluye signos de puntuación y soporte de formato de dígito/hora/moneda
  • El español, centrado en los acentos de América Latina, incluye signos de puntuación y soporte de formato de dígitos/hora/moneda
  • hindi
  • alemán

Puede acceder a estos idiomas ahora mismo desde Consola web o a través de nuestro Aplicación Transcribe o mediante la API

Idiomas disponibles ahora mismo en el programa Alpha de acceso anticipado

Si lo solicita, pondremos estos idiomas a su disposición para las pruebas. Por lo general, pueden estar disponibles en cuestión de horas a partir de la recepción de una solicitud. Póngase en contacto con nosotros en support@voicegain.ai

  • Portugués: mezcla de portugués europeo y brasileño
  • polaco
  • coreano
  • holandesa
  • ucraniana
¿Qué significa «acceso anticipado a Alpha»?

Los modelos Alpha de acceso anticipado se diferencian de los modelos de producción con todas las funciones en los siguientes aspectos:

  • No son buenos para rechazar el ruido de fondo, la música, etc.
  • El vocabulario puede ser limitado; es posible que no sean buenos para reconocer nombres de productos, personas, lugares, etc. Por lo general, el vocabulario es el vocabulario básico diario de un idioma determinado.
  • No serán buenos para reconocer acentos fuertes o inusuales.
  • La puntuación y el uso de mayúsculas no están disponibles.
  • El formato de los dígitos, la hora, las fechas y las monedas no está disponible.
  • En el caso de los idiomas que no utilizan el alfabeto latino, es posible que haya fallos ocasionales en los caracteres de la transcripción.
  • Inicialmente, la mayoría de esos modelos solo están disponibles en modo offline o por lotes. Estamos trabajando en la formación de los modelos en tiempo real y en streaming.

A medida que los modelos alfa se entrenen con datos adicionales, su precisión mejorará. También estamos trabajando en la puntuación, el uso de mayúsculas y el formato de cada uno de esos modelos.

Idiomas que estarán disponibles en la primera quincena de junio
  • Francés: mezcla de francés europeo (metropolitano) y francés canadiense (Quebec)

Actualizaremos esta publicación tan pronto como estos idiomas estén disponibles en el programa de acceso anticipado de Alpha.

Idiomas disponibles a finales de junio
  • árabe
  • italiano
¿No ve el idioma que necesita?

Dado que nuestros modelos lingüísticos se crean exclusivamente con aprendizaje profundo de extremo a extremo, podemos realizar el aprendizaje por transferencia de un idioma a otro y admitir rápidamente nuevos idiomas y dialectos para adaptarnos mejor a su caso de uso. ¿No ves tu idioma en la lista de abajo? Póngase en contacto con nosotros en support@voicegain.ai, ya que con frecuencia se publican nuevos idiomas y dialectos.


Read more → 
El entrenamiento con modelos acústicos ofrece grandes avances en la precisión de ASR
Entrenamiento modelo
El entrenamiento con modelos acústicos ofrece grandes avances en la precisión de ASR

Este es un estudio de caso sobre el entrenamiento del modelo acústico de un motor de voz a texto/ASR basado en el aprendizaje profundo para un robot de voz que podría aceptar pedidos de comida india.

El problema

El cliente se puso en contacto con Voicegain porque experimentaba una precisión muy baja en el reconocimiento de voz para un robot de voz basado en telefonía específico para pedir comida.

El robot de voz tenía que reconocer los platos de comida india con una precisión aceptable, de modo que el diálogo pudiera llevarse a cabo de una manera conversacional natural en lugar de tener que recurrir a flujos de llamadas rígidos, como por ejemplo, enumerar una lista.

La respuesta oral la proporcionarían hablantes de origen indio del sur de Asia. Esto significaba que, además de tener que reconocer nombres únicos, el acento también sería un problema.

La precisión lista para usar de Voicegain y otros motores ASR destacados se consideró demasiado baja. Nuestra precisión fue particularmente baja porque nuestros conjuntos de datos de entrenamiento no contenían ningún ejemplo de nombres de platos indios pronunciados con un fuerte acento indio.

Con el uso de las sugerencias, los resultados mejoraron significativamente y logramos una precisión de más del 30%. Sin embargo, el 30% estaba lejos de ser suficiente.

El enfoque

Voicegain recopiló primero los datos de entrenamiento relevantes (audio y transcripciones) y entrenó el modelo acústico de nuestro ASR basado en el aprendizaje profundo. Hemos tenido mucho éxito con él en el pasado, en particular con nuestra arquitectura DNN más reciente, véase p. ej. publicación sobre el reconocimiento de los códigos postales del Reino Unido.

Utilizamos un servicio de generación de datos de terceros para recopilar inicialmente más de 11 000 muestras de expresiones de Indian Food, 75 expresiones por participante. La calidad variaba mucho, pero eso es bueno porque creemos que refleja bien la calidad del audio que se encontraría en una aplicación real. Más tarde, recogimos 4600 muestras adicionales.

Entrenamos a dos modelos:

  • Un modelo «equilibrado», en el que los datos de entrenamiento de Food Dish se combinaron con nuestro conjunto de entrenamiento completo para entrenar el modelo.
  • Un modelo «centrado»: en él, los datos de Food Dish se combinaron con solo un pequeño subconjunto de nuestro otro conjunto de datos de entrenamiento.

También nos entrenamos primero en el conjunto de 10 000, recopilamos los resultados de referencia y luego nos capacitamos con los datos adicionales de 5 000.

Seleccionamos al azar 12 conjuntos de 75 enunciados (un total de 894 después de eliminar algunas grabaciones incorrectas) para un conjunto de puntos de referencia y utilizamos los más de 10.000 restantes para el entrenamiento. Planeamos compartir aquí un enlace al conjunto de datos de prueba dentro de unos días.

Los resultados: ¡una mejora del 75% en la precisión!

Comparamos nuestra precisión con la de Google y Amazon AWS antes y después del entrenamiento y los resultados se presentan en el siguiente gráfico. La precisión que se presenta aquí es la precisión de reconocer el entero nombre del plato correctamente. Si se reconocía erróneamente una de las varias palabras del nombre de un plato, se consideraba que no se había reconocido el nombre del plato. Aplicamos la misma metodología si se reconocía una palabra adicional, excepto aquellas que podían ignorarse fácilmente, por ejemplo, «a», «el», etc. También permitimos variaciones razonables en la ortografía para no introducir ambigüedad, por ejemplo, se consideró que «biryani» coincidía con «biriyani».

Tenga en cuenta que las pruebas en el reconocedor Voicegain se realizaron con varias codificaciones de audio:

  • PCMU 8kHz: es un audio con calidad de telefonía
  • L16 16 kHz: se acerca más a la calidad de audio que cabría esperar de la mayoría de las aplicaciones webrtc y ofrece una mayor precisión

Además, la prueba de AWS se realizó en modo offline (que generalmente ofrece una mayor precisión), mientras que las pruebas de Google y Voicegain se realizaron en modo streaming (en tiempo real).

Hicimos un conjunto de pruebas similar con el uso de sugerencias (no incluimos AWS porque nuestro script de prueba no admitía las sugerencias de AWS en ese momento).



Esto demuestra que se pueden lograr enormes beneficios mediante el entrenamiento de modelos específicos para el reconocimiento de voz. Para este dominio, que era nuevo en nuestro modelo, aumentamos precisión de más del 75% (del 10,18% al 86,24%) como resultado de la capacitación.

Como puedes ver, tras el entrenamiento superamos la precisión de voz a texto de Google en más de un 45% (el 86,24% frente al 40,38%) si no se utilizaron sugerencias. Con el uso de sugerencias, superamos a Google STT en aproximadamente un 36% (el 87,58% frente al 61,30%).

Examinamos los casos en los que aún se cometieron errores y se clasificaron en 3 categorías amplias:

  • A las grabaciones les falta una parte final de la última palabra. Esto se debe a que el botón de detener la grabación se presionó mientras aún se pronunciaba la última palabra. La parte grabada de la última palabra generalmente se reconoce correctamente, por ejemplo, en lugar de «curry» reconocemos «cu». (Planeamos revisar manualmente los puntos de referencia establecidos y modificar los valores esperados de acuerdo con lo que se diga y, a continuación, volver a calcular los números de precisión).
  • Grabaciones de muy mala calidad, en las que el volumen del audio apenas supera el nivel de ruido de fondo. En este caso, solemos omitir algunas palabras o partes de palabras. Esto también explica por qué las sugerencias no mejoran aún más: no hay hipótesis parciales de calidad suficientes como para que las sugerencias puedan mejorar.
  • Ruido de voz de fondo fuerte. En este caso, solemos reconocer palabras adicionales más allá de lo esperado.

Pensamos que el primer tipo de problemas se puede superar entrenando con datos adicionales y eso es lo que tenemos previsto hacer, con la esperanza de conseguir una precisión cercana al 85% (para audio L16 de 16 kHz). El segundo tipo podría resolverse mediante un posprocesamiento en la lógica de la aplicación si devolvemos los valores en dB de las palabras reconocidas.

¿Interesado?

Si su aplicación de voz también tiene una precisión baja y el uso de sugerencias o modelos lingüísticos basados en texto no funciona lo suficientemente bien, el entrenamiento con modelos acústicos podría ser la respuesta. Envíanos un correo electrónico a info@voicegain.ai y podríamos hablar de la realización de un proyecto para mostrar cómo el modelo entrenado por Voicegain puede lograr la mejor precisión en su dominio.

Read more → 
Conseguir una alta precisión de reconocimiento de voz en secuencias alfanuméricas: un estudio de caso con códigos postales del Reino Unido
Punto de referencia
Conseguir una alta precisión de reconocimiento de voz en secuencias alfanuméricas: un estudio de caso con códigos postales del Reino Unido

Los desarrolladores de inteligencia artificial y aprendizaje automático que trabajan con reconocedores de voz y software ASR saben que conseguir una alta precisión en aplicaciones del mundo real en secuencias de caracteres alfanuméricos es una tarea muy difícil. Algunos ejemplos de secuencias alfanuméricas son los números de serie de varios productos, los números de póliza, los números de casos o los códigos postales (por ejemplo, en el Reino Unido y Canadá).

Algunas de las razones por las que los ASR tienen dificultades para reconocer los caracteres alfanuméricos son:

  • algunas letras suenan muy similares, por ejemplo, P y B, T y D
  • A y 8 suenan muy similares
  • las combinaciones de letras y dígitos suenan como palabras, por ejemplo, «E Z» suena como «fácil», «B 9" suena como «benigno», etc.

Otra razón por la que la precisión general es mala es simplemente que los errores se agravan: cuanto más largas sean las secuencias, más probabilidades hay de que al menos un símbolo se reconozca erróneamente y, por lo tanto, toda la secuencia sea incorrecta. Si la precisión de un solo símbolo es del 90%, la precisión de un número compuesto por 6 símbolos será solo del 53% (suponiendo que los errores sean independientes). Por eso, los principales reconocedores obtienen malos resultados en caracteres alfanuméricos. En nuestra interacción con clientes actuales y potenciales, hemos oído hablar constantemente de los desafíos a los que se han enfrentado para obtener una precisión adecuada en las secuencias alfanuméricas. Algunos utilizan el procesamiento posterior de los resultados del vocabulario extenso, en particular, si obtienen un conjunto de hipótesis. Usamos estos enfoques cuando creamos sistemas IVR como Resolvity y tuvimos que usar ASR de terceros. De hecho, nos premiaron con un patente para uno de esos enfoques de posprocesamiento.

Caso práctico: códigos postales británicos

Mientras trabajábamos en un proyecto destinado a mejorar el reconocimiento de los códigos postales del Reino Unido, recopilamos más de 9000 grabaciones de muestra de varias personas que hablaban códigos postales válidos del Reino Unido seleccionados al azar. Aproximadamente un tercio de los hablantes tenían acento británico, mientras que el resto tenía una variedad de otros acentos, por ejemplo, indio, chino, nigeriano, etc.

De ese conjunto de datos, reservamos algunos para probarlos. Los resultados que presentamos aquí provienen de un conjunto de pruebas con 250 códigos postales (pronto proporcionaremos un enlace a este conjunto de pruebas en nuestro Github). En la fecha de esta entrada de blog, Google Speech-to-Text solo había obtenido una precisión del 43% y Amazon del 58% en este conjunto de pruebas.

En Voicegain utilizamos dos enfoques que nos ayudan a lograr una alta precisión en los caracteres alfanuméricos: (a) entrenar al reconocedor con conjuntos de datos realistas que contienen secuencias alfanuméricas de muestra, (b) usar gramáticas para restringir los posibles reconocimientos. En un escenario específico, podemos usar uno u otro o incluso ambos enfoques.

Este es un resumen de los resultados que obtuvimos en el conjunto de códigos postales del Reino Unido.


Mejorar el reconocimiento con el entrenamiento con modelos acústicos

Usamos el conjunto de datos descrito anteriormente en nuestra ronda de capacitación más reciente para nuestro modelo de inglés y hemos logrado una mejora significativa en la precisión al probar un conjunto de 250 códigos postales del Reino Unido que no se usaron durante la capacitación.

  • Para el reconocimiento sin restricciones de vocabulario extenso, la precisión mejoró del 51,60% al 63,60% (una ganancia del 12%). El entrenamiento ayudó tanto a la parte acústica de nuestro modelo (por ejemplo, las letras que se saltaban en el reconocedor básico porque no estaban lo suficientemente enunciadas se recogían después del entrenamiento: el 8 se reconocía correctamente en lugar de la H, etc.) como a la parte lingüística de nuestro modelo (por ejemplo, reconocer correctamente «dos» en lugar de «para» debido al contexto)
  • Para el reconocimiento basado en la gramática (más información en la sección siguiente), la precisión mejoró del 79,31% al 84,03% (una ganancia del 4,72%). Como en el reconocimiento basado en la gramática, el modelo lingüístico está completamente definido por la gramática, la ventaja aquí era poder distinguir más matices acústicos entre varias letras y números (por ejemplo, la R larga de una persona ya no se reconoce como «A R», «L P» ahora se reconoce correctamente en lugar de «A P», etc.).

Mejorar el reconocimiento con el uso de gramáticas

El reconocedor Voicegain DNN tiene la capacidad de usar gramáticas para el reconocimiento de voz, una característica algo única entre los reconocedores de voz modernos. Admitimos los formatos gramaticales GRXML y JSGF. Las gramáticas se utilizan durante la búsqueda (no solo se aplican al resultado del reconocimiento de un gran número de vocabulario), lo que nos proporciona los mejores resultados posibles. (Por cierto, también podemos combinar el reconocimiento basado en la gramática con el reconocimiento de vocabulario extenso, consulte esta entrada de blog para obtener más detalles.)

Para el reconocimiento de los códigos postales del Reino Unido, definimos una gramática que recoge todas las formas en las que se pueden decir los códigos postales válidos del Reino Unido. Puedes ver la gramática exacta que utilizamos aquí.


El reconocimiento de códigos postales del Reino Unido basado en la gramática ofrece resultados significativamente mejores que el reconocimiento de vocabulario extenso.

  • En nuestro modelo base, antes del entrenamiento, la diferencia era del 27,71% (79,31% frente al 51,60%)
  • En el modelo entrenado, la diferencia fue menor, pero aún muy grande: 20,43% (84,03% frente a 63,60%)
  • En comparación con Amazon Recognizer, fuimos un 25,62% mejores después del entrenamiento (un 84,03% frente a un 58,40%)
¿Qué pasa si el posible conjunto de secuencias alfanuméricas no se puede definir mediante una gramática?

Nos hemos topado con situaciones en las que las secuencias alfanuméricas son difíciles de definir exhaustivamente utilizando gramáticas, por ejemplo, algunos números de serie. En esos casos, nuestro reconocedor admite el siguiente enfoque:

  • Defina una gramática que coincida con un superconjunto de secuencias válidas,
  • Utilice una tabla de búsqueda para hacer coincidir la lista conocida de secuencias válidas y probables. Por ejemplo, si se trata de números de serie y la aplicación se ocupa del registro de la garantía, podemos seleccionar un conjunto de posibles SN que quizás tengamos que reconocer.

¿Quieres probar tu caso de uso alfanumérico?

Siempre estamos listos para ayudar a los clientes potenciales a resolver sus desafíos con el reconocimiento de voz. Si su reconocedor actual no ofrece resultados satisfactorios al reconocer secuencias de caracteres alfanuméricos, inicie una conversación por correo electrónico en Correo electrónico: info@voicegain.ai. Siempre nos interesa la precisión.

Read more → 
Voicegain como un único ASR para los IVR de voz y los bots de voz
Voice Bot
Voicegain como un único ASR para los IVR de voz y los bots de voz

Esta publicación destaca cómo el ASR basado en el aprendizaje profundo de Voicegain admite tanto los IVR habilitados para voz como los bots de voz conversacionales.

Esto puede ayudar a las organizaciones de TI empresariales a simplificar su transición del sistema IVR de telefonía con diálogo dirigido a un Voice Bot conversacional moderno.

Esto se debe a una característica muy importante de Voicegain. Se puede acceder al ASR de Voicegain de dos maneras

1) MRCP ASR para voz IVR: la forma tradicional: El ASR de Voicegain se puede invocar a través de MRCP desde una aplicación VoiceXML IVR desarrollada con gramáticas de voz. Voicegain es un sustituto «directo» del ASR utilizado en la mayoría de estos IVR.

2) Conversión de voz a texto/ASR para bots: la forma moderna: Voicegain ofrece API que se integran con (a) plataformas de telefonía SIP o CPaaS y (b) marcos de bots que presentan un punto final REST. Algunos ejemplos de marcos de bots compatibles son Google Dialogflow, RASA y Azure Bot Service.

¡Los IVR de Diálogo Directo no desaparecerán pronto!

En lo que respecta al autoservicio de voz, las empresas entienden que necesitarían mantener y operar los IVR de voz tradicionales durante muchos años.

Esto se debe a que los usuarios actuales han recibido capacitación a lo largo de los años y se han vuelto expertos en estos IVR habilitados para voz. Preferirían no tener que aprender una nueva interfaz de usuario, como los Voice Bots, si pueden evitarlo. Además, las empresas han realizado inversiones sustanciales en el desarrollo de estos IVR y les gustaría seguir respaldándolos siempre que generen un uso adecuado.

Sin embargo, un segmento cada vez mayor de clientes «nativos digitales» exige experiencias de conversación similares a las de Alexa, ya que proporcionan una experiencia de usuario mucho mejor en comparación con los IVR. Esto está despertando un interés considerable entre las empresas por desarrollar bots de voz que sustituyan a largo plazo a los IVR.

Net-net, incluso cuando las empresas desarrollen nuevos bots de voz conversacionales a largo plazo, necesitarían soportar y operar estos IVR a corto plazo.

Los bots y los IVR utilizan diferentes conjuntos de tecnología de aplicaciones, protocolos y ASR

COMO: Si bien tanto los bots de voz como los IVR requieren ASR y conversión de voz a texto, los ASR que admiten los bots de voz conversacionales son diferentes de los ASR que se utilizan en los IVR de diálogo dirigido. Los ASR compatibles con los IVR se basan en los HMM (modelos ocultos de Markov) y las aplicaciones utilizan gramáticas de voz al invocar el ASR. Por otro lado, los bots de voz funcionan con modelos STT basados en el aprendizaje profundo de vocabulario extenso.

Protocolo: Los protocolos de comunicación entre el ASR y la aplicación también son muy diferentes. Una aplicación de IVR, normalmente escrita en VoiceXML, se comunica con el ASR a través de MRCP; los marcos de bots modernos se comunican con los ASR a través de protocolos modernos basados en la web, como WebSockets y gRPC.

Pila de aplicaciones: La lógica de la aplicación de un IVR de diálogo dirigido se basa en un IDE de aplicación compatible con VoiceXML. Los proveedores más populares en este ámbito son Avaya Aura Experience Portal (AAEP), Cisco Voice Portal (CVP) y Genesys Voice Portal o Genesys Engage. Este artículo explora esto con más detalle.

Por otro lado, los bots de voz modernos requieren marcos de bots como Flujo de diálogo de Google, Kore.ai, RASA, AWS Lex y otros. Utilizan la tecnología moderna de NLU para poder extraer la intención del texto transcrito. Bot Frameworks también ofrece una gestión sofisticada de los diálogos para determinar de forma dinámica los turnos de las conversaciones. También permiten la integración con otros sistemas empresariales como el CRM y la facturación.

En lo que respecta a los bots de voz, la mayoría de las empresas quieren «habilitar por voz» la lógica de interacción con los chatbots, que también se desarrolla en el mismo marco de bots, y luego integrarla con la telefonía. - así que utiliza un número de teléfono para «marcar» el chatbot e interactuar mediante conversión de voz a texto y de texto a voz.

La solución: utilice Voicegain ASR para admitir tanto los IVR como los bots

La plataforma Voicegain es la primera y en la actualidad el único ASR/ Speech-to-Text plataforma del mercado que puede soportar tanto un IVR de voz de diálogo dirigido como un bot de voz conversacional utilizando un único modelo acústico y lingüístico.

Las API de conversión de voz a texto en la nube de Google, Amazon y Microsoft admiten el reconocimiento de voz con vocabulario extenso y pueden admitir bots de voz. Sin embargo, no pueden reemplazar «directamente» la funcionalidad MRCP ASR del IVR de diálogo dirigido.

Además, los ASR MRCP tradicionales que admitían IVR de diálogo dirigido (por ejemplo, Nuance, Lumenvox, etc.) no admiten la transcripción de vocabulario extenso.

Integración con marcos de bots y telefonía

Ofertas de Voicegain API de bots de telefonía para ayudar a los desarrolladores de bots a proporcionar la «boca» y la «oreja» del bot.

Estas API son API de tipo callback que una empresa puede usar junto con el marco de bots de su elección.

Además del ASR actual, Voicegain también incorpora una interfaz de telefonía y PSTN. Hay 3 posibilidades:

1. Integración con plataformas CPaaS modernas como Twilio, SignalWire y Telnyx Con esta integración, las personas que llaman ahora pueden «marcar y hablar» con sus chatbots a través de un número de teléfono.

2. SIP INVITE desde la plataforma CCaaS o CPaaS: el desarrollador del bot puede transferir el control de llamadas a Voicegain mediante un SIP INVITE. Una vez transferida la llamada, el Bot Framework puede interactuar utilizando las API mencionadas anteriormente. Al final de la interacción con el bot, puede finalizar la sesión del bot y continuar la conversación en vivo en la plataforma CCaaS/CPaaS.

3. CPaaS integrada con Voicegain: Voicegain también ha incorporado la CPaaS de Amazon Chime, por lo que los desarrolladores pueden comprar un número de teléfono y empezar a crear su bot de voz en cuestión de minutos.

Básicamente, al usar las API de Telephony Bot junto con cualquier marco de bot, una empresa puede: tienen un marco de bots y un ASR que sirva a los 3 medios de autoservicio - Chatbots, robots de voz y IVR de diálogo dirigido.

Para explorar más esta idea, envíenos un correo electrónico a info@voicegain.ai

Read more → 
Punto de referencia de precisión de voz a texto: octubre de 2021
Punto de referencia
Punto de referencia de precisión de voz a texto: octubre de 2021

[ACTUALIZACIÓN DEL 23 DE ENERO DE 22: Tras entrenarse con datos adicionales, el reconocedor Voicegain ahora alcanza un WER promedio del 11,89% (una mejora del 0,35%) y un WER medio del 10,82% (una mejora del 0,21%) en este punto de referencia.

Voicegain ahora es mejor que Google Enhanced en 44 archivos (antes 39).

Voicegain es ahora el reconocedor más preciso en 12 de los archivos (anteriormente 10).

Tenemos datos adicionales sobre los que nos capacitaremos pronto y luego proporcionaremos un conjunto completamente nuevo de resultados y comparaciones.]

Han pasado más de 4 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Amazon y Microsoft (cerca del segundo lugar), luego Google Enhanced y Voicegain (también cerca del cuarto lugar) y, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos modificado la arquitectura de nuestro modelo y lo hemos entrenado con más datos. Esto resultó en un aumento adicional en la precisión de nuestro modelo. En lo que respecta al resto de reconocedores, Microsoft fue el que más mejoró la precisión de su modelo, mientras que la precisión de otros se mantuvo más o menos igual.

Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que el mejor reconocedor no pudo alcanzar una tasa de errores de palabras (WER) inferior al 25%. Nota: anteriormente, utilizábamos el 20% como umbral, pero esta vez hemos decidido conservar más archivos con una precisión baja para ilustrar las diferencias en ese tipo de archivos entre los reconocedores.

Solo tres archivos eran tan difíciles que ninguno de los reconocedores podía alcanzar el 25% de WER. Los dos archivos borrados eran entrevistas radiofónicas con una grabación de mala calidad.

Voicegain ahora es mejor que Google Enhanced

Como puedes ver en el gráfico de resultados anterior, Voicegain ahora es mejor que Google Enhanced, tanto en promedio como en promedio de WER. Al observar los archivos individuales, los resultados también muestran que la precisión de Voicegain es, en la mayoría de los casos, mejor que la de Google:

  • Voicegain fue mejor que Google Enhanced en 39 archivos
  • Google Enhanced fue mejor en 20 archivos
  • Estaban empatados en dos expedientes.

Otros resultados

Observaciones clave sobre otros resultados:

  • Si tenemos en cuenta el WER promedio y la mediana, Voicegain parece empatado, con Amazon con un valor medio mejor en un 0,07%, pero el valor promedio peor en un 0,76%.
  • Si tenemos en cuenta el WER promedio y la mediana, el reconocedor de Microsoft es mejor que el de Amazon, con un promedio mejor del 0,49% y una mediana mejor del 0,69%.
  • Cuando miras los archivos de audio individuales, los mejores reconocedores de puntuación fueron:
  • Amazon: fue el mejor en 29 archivos
  • Microsoft: fue mejor en 20 archivos
  • Voicegain: fue mejor en 10 archivos
  • Google Enhanced: fue mejor en 2 archivos

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - El modelo Voicegain puede entrenarse con sus datos de audio; tenemos demostrada mejora en la precisión del 7 al 10%. De hecho, para uno de nuestros clientes con datos de entrenamiento adecuados y un audio de buena calidad, logramos un WER del 0,5% (precisión del 99,5%)
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Cómo crear un Voicebot con Voicegain, Twilio, RASA y AWS Lambda
Bot de voz
Cómo crear un Voicebot con Voicegain, Twilio, RASA y AWS Lambda

Puede encontrar el código completo (menos la lógica RASA; tendrá que proporcionar el suyo propio) en nuestra github repositorio.

¿Qué es lo que hace?

La configuración le permite llamar a un número de teléfono y luego interactuar con un Voicebot que usa RASA como motor lógico de diálogo.

¿Cómo funciona?

Los componentes

  • Voz programable Twilio - Configuramos un número de teléfono de Twilio para que apunte a una aplicación TWiML que tenga la función AWS Lambda como URL de devolución de llamada.
  • Función AWS Lambda - una única función de Node.js con un activador de API Gateway (tipo de API HTTP simple).
  • API Voicegain STT - estamos usando la api /asr/transcribe/async con entrada a través de un flujo de websocket y salida a través de una devolución de llamada. La devolución de llamada se realiza a la misma función de AWS Lambda, pero la devolución de llamada de Voicegain es POST mientras que la devolución de llamada de Twilio es GET.
  • RASA - La lógica de diálogo la proporciona el servidor RASA NLU Dialog, al que se puede acceder a través de la API RestInput.
  • COMO S3 para almacenar los resultados de la transcripción en cada turno de diálogo.

Actualización de noviembre de 2021: No recomendamos S3 ni AWS Lambda para una configuración de producción. Se describe una revisión más actualizada de varias opciones para crear un Voice Bot aquí. Debería considerar reemplazar la funcionalidad de S3 y AWS Lambda por un servidor web que pueda mantener el estado, como Node.js o Python Flask.

Los escalones

El diagrama de secuencia se proporciona a continuación. Básicamente, la secuencia de operaciones es la siguiente:

  1. Llama a un número de teléfono de Twilio
  2. Twilio realiza una devolución de llamada inicial a la función Lambda
  3. La función Lambda envía «Hola» a RASA y RASA responde con el mensaje de diálogo inicial
  4. La función Lambda llama a Voicegain para iniciar una sesión de transcripción asíncrona. Voicegain responde con la URL de un websocket para la transmisión de audio
  5. La función Lambda responde a Twilio con un comando TWiML <Connect><Stream>para abrir una transmisión multimedia para Voicegain. El comando también contendrá el texto de la línea de pregunta.
  6. Voicegain usa TTS para generar a partir del texto de la pregunta RASA un mensaje de audio y lo transmite a través de websocket a Twilio para su reproducción.
  7. La persona que llama escucha el aviso y dice algo en respuesta
  8. Twilio transmite el audio de la persona que llama a Voicegain ASR para el reconocimiento de voz
  9. Voicegain ASR transcribe el discurso a texto y devuelve la llamada con el resultado de la transcripción a la función Lambda.
  10. La función lambda almacena el resultado de la transcripción en S3
  11. Voicegain cierra la sesión de websocket con Twilio
  12. Twilio se da cuenta del final de la sesión con ASR y devuelve la llamada a la función Lambda para saber qué hacer a continuación
  13. La función Lambda recupera el resultado del reconocimiento de S3 y lo pasa a RASA.
  14. RASA procesa la respuesta y genera la siguiente pregunta del diálogo
  15. Continuamos en el siguiente turno igual que en el paso 4.



Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control