Blog | Speech-to-Text Platform

ASR, punto de referencia

Punto de referencia de precisión de voz a texto: junio de 2022

Jacek Jarmulak

•

min read

•

June 16, 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.

Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

‍

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

‍

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

Microsoft fue el mejor en 35 de los 63 archivos
Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
El último de Google fue el mejor en 4
Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

‍

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

‍

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

‍

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

‍

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

‍

Desarrolladores

Soporte CORS agregado en 1.9.0

Jacek Jarmulak

•

min read

•

July 12, 2020

Recientemente hemos agregado soporte para CORS (intercambio de recursos entre orígenes) en nuestras API. Esto fue en respuesta a la solicitud de nuestros clientes para poder crear aplicaciones web de conversión de voz a texto con un mínimo esfuerzo. Al realizar solicitudes de API web a la API de voz de Voicegain directamente desde sus clientes web, la aplicación puede resultar más sencilla y eficiente.

Algunos ejemplos de aplicaciones sencillas que nuestros clientes están implementando de esta manera son: la captura y transcripción de entradas de micrófono (por ejemplo, para capturar y transcribir notas de reuniones) o la transcripción de archivos de audio sin conexión.

Los usuarios tienen el control total, a través de la configuración de seguridad, sobre qué solicitudes de CORS se les debe permitir a Origins.

Entrenamiento modelo

Ventaja competitiva de los modelos acústicos personalizados

Jacek Jarmulak

•

min read

•

June 30, 2020

No hay duda de que los conjuntos de datos que se utilizan para entrenar modelos de IA tienen mucho valor. Esa es una de las razones por las que Google ofrece su servicio de conversión de voz a texto a dos precios, uno con «registro de datos» y otro sin él, consulte la tabla siguiente.

Sin embargo, en Voicegain, nuestra plataforma de conversión de voz a texto no captura ni utiliza ningún dato de los clientes (sin dejar de ofrecer precios de ASR bajos).

Además, la plataforma Voicegain permite a nuestros clientes usar sus datos para entrenar sus propios modelos acústicos dedicados y personalizados. Como resultado, nuestros clientes se benefician de dos maneras:

La precisión de estos modelos acústicos personalizados es varios% mayor en comparación con nuestros modelos básicos.
Los modelos personalizados se licencian exclusivamente para los clientes y no se comparten con nadie (ni con Voicegain ni con ningún otro cliente de Voicegain), por lo que esta mayor precisión se traduce directamente en una ventaja competitiva.

Al conservar la propiedad de los datos y los modelos acústicos personalizados, nuestros clientes se benefician de una mayor precisión de ASR en general y de una mayor precisión que la de sus posibles competidores en particular.

Perspectivas

¿Cómo la voz impulsada por la inteligencia artificial puede impulsar la primera línea de BPO del centro de contacto?

Arun Santhebennur

•

min read

•

June 27, 2020

Los equipos de liderazgo sénior de la mayoría de los subcontratistas de centros de contacto globales están bajo presión constante. Necesitan centrarse como un láser en las métricas clave, los acuerdos de nivel de servicio y las personas necesarias para gestionar sus negocios. Administran cada vez más un negocio distribuido a nivel mundial que requiere mucha mano de obra y tecnología. Y tienen que hacer todo esto con márgenes cada vez más ajustados.

A pesar de que se mide según métricas como la CSAT y el NPS, gran parte del valor que un subcontratista ofrece a sus clientes suele ser difícil de cuantificar. Y, con demasiada frecuencia, el precio que obtiene el subcontratista no refleja el valor y la calidad que ofrece un subcontratista.

Dos ideas para convertirse en ofertas de SaaS de alto valor

En este artículo, me gustaría proponer dos nuevas ideas innovadoras que pueden ayudar a las BPO de los centros de contacto a convertirse en nuevos ingresos de SaaS (software como servicio).

Servicio CX Speech Insights: Desarrolle un nuevo servicio de información sobre la experiencia del cliente en tiempo real de marca basado en el análisis de voz impulsado por el aprendizaje profundo.
Servicio de automatización de voz CX: Cree nuevas aplicaciones de autoservicio de voz que puedan automatizar algunos de los escenarios comunes de atención al cliente.

Ambas ofertas se pueden ofrecer a los clientes mediante un modelo de negocio basado en software como servicio (SaaS) junto con la parte tradicional de agentes del negocio.

Ambas ofertas de SaaS aprovechan algunos de los puntos fuertes clave de las BPO: una profunda experiencia en el dominio, un conocimiento profundo de los problemas de los clientes y una infraestructura tecnológica que aprovecha ambos

1. Servicio CX Speech Insights

Los centros de contacto tienen un tesoro de datos de audio. Todos los días, los empleados atienden miles de llamadas sobre una amplia variedad de temas. Si bien los subcontratistas utilizan proveedores tradicionales de análisis de voz, el uso tradicional ha sido analizar una muestra de llamadas para facilitar la función de control de calidad. Net-net se considera un centro de costos tanto para los subcontratistas como para sus clientes.

Sin embargo, existe una enorme oportunidad sin explotar para extraer información de dichos datos de audio para usos que van más allá del control de calidad. Esta información puede ser relevante para las partes interesadas de los equipos de producto y marketing de los clientes. Esto puede abrir nuevos presupuestos de marketing y productos no tradicionales para las BPO.

2. Servicio de automatización de voz CX

Los subcontratistas tienen un conocimiento profundo y profundo de los temas actuales por los que llaman los clientes. Disponen de información única y actualizada sobre qué categorías de llamadas están aumentando realmente el volumen de llamadas. Con las herramientas, las metodologías y el personal adecuados, los subcontratistas pueden crear y ofrecer nuevas e innovadoras aplicaciones de autoservicio de voz que pueden automatizar partes de las llamadas. Con las tecnologías adecuadas, los subcontratistas pueden cambiar sin problemas entre las llamadas asistidas por agentes y las interacciones de autoservicio automatizadas.

La base: redes neuronales profundas y modelos acústicos personalizados

La base de estas ofertas de SaaS son las modernas plataformas Speech to Text basadas en redes neuronales profundas (DNN).

Las antiguas tecnologías de conversión de voz a texto se basaban en modelos estadísticos tradicionales (llamados HMM y GMM). Tenían una capacidad limitada para aprender jergas y acentos específicos de la industria. Sin embargo, una plataforma basada en DNN tiene las siguientes ventajas

Una plataforma basada en DNN se puede entrenar fácilmente para que reconozca palabras/jerga únicas, acentos y fondos ruidosos. La capacitación de los modelos aumenta la calidad del reconocimiento y lo hace lo suficientemente preciso como para ofrecer un valor real a las partes interesadas de los clientes.
Un modelo acústico específico de la industria o del cliente tiene el potencial de crear propiedad intelectual para la BPO.
Una plataforma DNN se puede utilizar igual de bien tanto en la parte de automatización inicial como en el servicio de análisis y notificación. El uso de la misma plataforma para ambas ofertas tiene sus ventajas.

Para obtener más información, póngase en contacto con nosotros en info@voicegain.ai.

‍

Punto de referencia

Punto de referencia de precisión de voz a texto: resultados de junio de 2020

Jacek Jarmulak

•

min read

•

June 25, 2020

[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]

«¿Cuál es la precisión de su reconocedor?»

Esa es la pregunta que nos hacen con frecuencia nuestros clientes potenciales. A menudo respondemos «eso depende» y tenemos la sensación de que la otra parte piensa que «debe ser muy mala si no dan una respuesta clara». Sin embargo, «eso depende» es realmente la respuesta correcta. La precisión del reconocimiento automático de voz (ASR) depende del audio de muchas maneras y el efecto no es pequeño. Básicamente, la precisión puede ser generalizada en función de factores como:

¿El discurso sigue la gramática adecuada o el orador está inventando cosas mientras las dice? Los discursos preparados tendrán mejores puntuaciones, es decir, un WER (tasa de error de palabras) más bajas en comparación con los discursos sin guión.
Cuál es el tema del discurso. Las palabras o combinaciones de palabras raras y poco conocidas, como por ejemplo personas u otros nombres, dificultarán la vida del NLM (modelo de lenguaje natural).
¿Hay más de un altavoz? ¿Están cambiando constantemente o incluso hablan unos sobre otros?
¿Hay música de fondo? Es muy común en las producciones de YouTube.
¿Hay ruido de fondo? ¿Cuál es el tipo de ruido?
¿Algunas partes del audio de la voz son inusualmente lentas o rápidas?
¿Hay reverberación ambiental o eco en la grabación?
¿El volumen de grabación es muy bajo? ¿Hay variaciones en el volumen de grabación (por ejemplo, la grabadora está colocada en un extremo de una mesa muy larga)
¿La calidad de grabación es mala? Por ejemplo, debido a un códec o a unos niveles de compresión de archivo excesivos.
etcétera etcétera.

Probar y comparar la precisión de la conversión de voz a texto

Dado que las preguntas sobre precisión o tasa de errores de palabras carecen en cierto modo de sentido sin especificar el tipo de audio de voz, es importante realizar pruebas al elegir un reconocedor de voz. Como conjunto de prueba, se elegiría un conjunto de archivos de audio que representen con precisión el espectro de voz que encontrará el reconocedor en los casos de uso esperados. Para cada archivo de audio de voz del conjunto, se obtendría una transcripción dorada o de referencia con una precisión del 100%. Después, todo se puede automatizar: transcribir cada archivo de los reconocedores que se están evaluando, calcular el WER comparándolo con la referencia de cada una de las transcripciones generadas y cotejar los resultados. Los resultados combinados ofrecerán una imagen clara del rendimiento de los reconocedores en el audio de voz específico que nos interesa. Si vas a repetir este proceso con frecuencia, por ejemplo, para evaluar a los nuevos candidatos con el marcador de reconocimiento, es bueno estandarizar el conjunto de pruebas y, básicamente, crear un punto de referencia repetible al que puedas hacer referencia en el futuro.

Nuestro punto de referencia

Los resultados comparativos que presentamos aquí son algo diferentes a los de las pruebas o puntos de referencia basados en casos de uso. Como estamos creando un reconocedor general para un caso de uso no especificado, decidimos utilizar intencionadamente un conjunto muy amplio de archivos de audio. En lugar de recopilar los archivos de prueba nosotros mismos, decidimos utilizar el conjunto de datos descrito en»¿Qué servicio de transcripción automática es el más preciso? — 2018«de septiembre de 2018 por Jason Kincaid. El artículo presenta una comparación de los reconocedores de voz de varias empresas que utilizan un conjunto de 48 vídeos de YouTube (tomando 5 minutos de audio de cada uno de los vídeos). Cuando decidimos volver a probar el índice de Jason, ya no se podía acceder a 4 vídeos, por lo que el índice de referencia que presentamos aquí utiliza datos de solo 44 vídeos.

Comparamos los resultados presentados por Jason con los resultados de los tres principales reconocedores (Google, Amazon y Microsoft) en junio de 2020. Por supuesto, también incluimos nuestro reconocedor Voicegain, porque queríamos ver cómo nos comparábamos con ellos. Todos los reconocedores probados utilizan redes neuronales profundas. El reconocedor de voz Voicegain se ejecutaba en Google Cloud Platform con las GPU Nvidia T4. Todos los reconocedores se ejecutaron con la configuración predeterminada y no se utilizaron sugerencias ni modelos de lenguaje de usuario.

Es importante mencionar que ninguno de los archivos de referencia está incluido en el conjunto de entrenamiento que utiliza Voicegain. El resto del audio de los altavoces no proviene de los archivos de referencia, ni el mismo contenido pero es dicho por otros altavoces.

Entonces, ¿cuáles son los resultados? ¿Quién tiene el mejor reconocedor?

Una vez más, el mejor reconocedor no es la pregunta correcta, porque todo depende del audio de voz real en el que se utilice. Pero la clave resulta de pruebas en los 44 archivos son las siguientes:

Cada reconocedor ha mejorado. El mayor mejora en la mediana, el WER fue de Microsoft De voz a texto.
El mejor reconocedor en nuestro conjunto de datos estaba Google Speech to Text: mejorado (vídeo), pero el nuevo Microsoft Speech to Text está muy cerca en segundo lugar.
Teniendo en cuenta el precio, Microsoft podría ser declarada Best Buy
Ganación de voz el reconocedor es definitivamente La mejor relación calidad-precio.
Google Speech to Text: Standard, aunque ha mejorado un poco, sigue siendo claramente el que tiene el peor rendimiento del conjunto de datos.
El único punto de datos erróneo de Google Enhanced (vídeo) es real. Realizamos varias pruebas en el archivo y obtuvimos el mismo resultado. El antiguo reconocedor mejorado de Google no tenía problemas con ese archivo.

¿Cómo se compara el reconocedor Voicegain?

Estas son nuestras ideas y algunos detalles:

Hasta octubre de 2019, el conjunto de entrenamiento que utilizábamos para entrenar nuestro reconocedor se mantuvo relativamente inalterado. Además, nuestro conjunto de entrenamiento estaba muy sesgado hacia algunas categorías de audio de voz. Puedes verlo en el gráfico, por ejemplo, en el hecho de que nuestros mejores resultados fueron mejores que los del antiguo Amazon Transcribe, pero nuestros peores resultados fueron bastante peores que los de Amazon Transcribe.
Basándonos en los primeros resultados del punto de referencia, analizamos qué tipo de audio nos causaba problemas y recopilamos datos con las características particulares, pero obtenidos de forma muy amplia (para evitar que nos entrenaran para compararlos) para hacer que nuestro reconocedor fuera más robusto. Ese esfuerzo dio sus frutos y se puede ver que ahora la distribución del reconocedor Voicegain (WER) es mucho más estrecha y, en general, se acerca mucho a la del nuevo Amazon Transcribe.
En general, Voicegain es el reconocedor más mejorado. Hace poco más de 6 meses éramos mejores que Google Standard, pero ahora estamos cerrando el mercado de Amazon Transcribe. Esto se debe tanto a los cambios en la arquitectura de la red neuronal como a un gran aumento en las horas del conjunto de datos de entrenamiento.
Si nos fijamos en los detalles, el reconocedor Voicegain fue mejor que el nuevo Amazon en 11 de los 44 archivos, mejor que Google Video en 5 archivos y mejor que Microsoft también en 5 de los 44 archivos.
Si tenemos en cuenta el precio, creemos que Voicegain presenta una excelente relación calidad-precio. Hemos hablado con clientes que no realizaban transcripciones a gran escala debido al elevado coste de las tres grandes plataformas y, de repente, nuestros bajos precios hicieron viables nuevos usos de la transcripción.

Invitamos a cualquiera a probar nuestra plataforma y comprobar su rendimiento en los tipos de audio de voz que sean importantes para sus casos de uso.

¿Algún software que pueda ayudarme a probar los reconocedores?

Tenemos Open Sourced, el componente clave de nuestra suite de referencia, la utilidad transcribe_compare de python. Está disponible aquí: https://github.com/voicegain/transcription-compare bajo licencia MIT.

Es útil para la evaluación comparativa automática, pero también puede enviar datos a un archivo html que se puede ver en un navegador web. Lo utilizamos con frecuencia de esta manera para revisar manualmente los errores de transcripción o las diferencias de errores entre dos reconocedores o versiones del reconocedor.

¿Cómo puedo probar Voicegain?

Si estás creando una aplicación que requiere transcripción, regístrate hoy para obtener una cuenta de desarrollador y obtén 50$ en créditos gratis (unos 5000 minutos de uso de la plataforma). Puedes comprobar nuestra precisión y probar nuestras API. Se proporcionan instrucciones para registrarse para obtener una cuenta de desarrollador aquí.

3. Si quieres hacer de Voicegain tu propio asistente de transcripción con IA, haz clic aquí. Puedes llevar Voicegain a reuniones, seminarios web, charlas, conferencias y mucho más.

Esperamos ponernos al día pronto

Todavía estamos en medio de un extenso esfuerzo de recopilación de datos y la capacitación aún no ha terminado. Estamos viendo una mejora continua en nuestro reconocedor, ya que las nuevas versiones mejoradas del modelo acústico se ponen en producción aproximadamente dos veces al mes. Dentro de unos meses publicaremos los resultados actualizados de los comparativos en nuestro blog.

Modelo acústico personalizado por el usuario

Tenemos planificada otra entrada de blog que cuantificará el beneficio que se puede esperar del uso de datos de usuario adicionales para entrenar el modelo acústico utilizado en el reconocedor. Hemos seleccionado un gran conjunto de datos con un acento inglés muy específico que actualmente tiene un WER más alto. Informaremos sobre el impacto en el WER de la formación con un conjunto de datos de este tipo. Cuantificaremos la mejora en función del tamaño del conjunto de datos y la duración de la formación.

Voicegain proporciona herramientas fáciles de usar que permiten a los usuarios crear sus propios modelos acústicos personalizados. Esta próxima publicación proporcionará una visión clara sobre las mejoras que se pueden esperar y la cantidad de datos que se necesitan para marcar la diferencia en la reducción del WER.

Referencias

El artículo de referencia original con la descripción del conjunto de datos.
Resultados detallados de los 44 archivos.
Precios de Google Speech-to-Text. Se factura en incrementos de 15 segundos.
Precios de Amazon Transcribe. Se factura en incrementos de un segundo, con un cargo mínimo por solicitud de 15 segundos
Precios de voz a texto de Microsoft. Y aquí están los relevantes Preguntas frecuentes.
Precios de Voicegain. Se factura en incrementos de 1 segundo.

Póngase en contacto con nosotros

Si tiene alguna pregunta sobre este artículo o nuestra plataforma y reconocedor, puede ponerse en contacto con nosotros en info@voicegain.ai

Casos de uso

Transcription for Live Streamed Event - an example

Jacek Jarmulak

•

min read

•

June 24, 2020

El siguiente vídeo muestra un ejemplo de Transcripción en vivo de Voicegain se utiliza para proporcionar la transcripción de un evento transmitido en vídeo.
‍

‍

Estos son algunos detalles sobre esta configuración en particular:

la parte de vídeo se transmite usando BoxCast
el audio para la transcripción se graba en vivo en la fuente en el sitio
el audio se transmite a Voicegain Cloud para su procesamiento mediante un pequeño cliente Java que se ejecuta en Raspberry Pi computadora
el cliente de audio se descargó preconfigurado del portal Voicegain y lee el audio directamente desde un dispositivo de audio USB conectado a raspberry pi
la voz se transcribe en la nube mediante el modo Voicegain en tiempo parcial, que ofrece resultados en unos 30 segundos (el modo en tiempo real ofrece los resultados con un retraso de menos de 1 segundo)
la salida de la transcripción pasa por un componente de retardo que nos permite marcar el retardo preciso para que coincida con el retraso de la transmisión de vídeo; en este caso, el retraso fue de 35,5 segundos
las palabras transcritas se envían a un cliente web a través de websocket; cada palabra se envía con el retraso establecido
las palabras se muestran con el tono de fuente gris correspondiente a la confianza en las palabras y el espacio proporcional al espacio entre las palabras pronunciadas
el modelo acústico utilizado aquí ha sido entrenado a medida con más de 200 horas adicionales con este altavoz en particular
los datos de capacitación personalizados consistían simplemente en discursos previamente transcritos por el orador que estaban fácilmente disponibles en el sitio web
también estamos usando un modelo de lenguaje personalizado (encima del NLM base) que se creó a partir del corpus proporcionado por el usuario

Perspectivas

Diferenciadores clave

Jacek Jarmulak

•

min read

•

March 30, 2020

El mercado empresarial actual de voz a texto se puede dividir en 3 grupos distintos de jugadores. Ten en cuenta que nos estamos centrando en las plataformas de conversión de voz a texto en lugar de en productos completos para el usuario final (por lo que no incluimos productos de consumo como Dragon NaturallySpeaking, etc.)

Los antiguos ASR - por ejemplo, Nuance (y todas las empresas de voz que Nuance adquirió a lo largo de los años) y Lumenvox. Estos motores de conversión de voz a texto se remontan a finales de la década de 1990 y principios de la de 2000. Fueron construidos con tecnología basada en modelos gaussianos y cadenas ocultas de Markov. Requieren una instalación local.
Servicios de conversión de voz a texto en la nube establecidos - como Google, AWS, Microsoft Azure, IBM. Algunos de ellos también comenzaron con reconocedores creados con modelos gaussianos y cadenas ocultas de Markov, pero en 2012 comenzaron la transición a reconocedores que utilizaban modelos de redes neuronales profundas para el reconocimiento de voz.
Nuevos jugadores - se trata de empresas nuevas que se remontan aproximadamente a 2015. Fue entonces cuando Nvidia hizo posible que prácticamente cualquier persona entrenara DNN en las nuevas GPU de Nvidia. Surgieron muchas pequeñas empresas que crearon sus propios motores de conversión de voz a texto partiendo de cero o utilizando bases de código abierto. Ahora, 5 años después, muchas de ellas están ingresando al mercado de conversión de voz a texto con productos maduros y que ofrecen una alta precisión de reconocimiento.

¿Dónde encaja Voicegain aquí?

Nos consideramos uno de los nuevos jugadores, ya que empezamos a trabajar en nuestro propio motor de conversión de voz a texto basado en DNN a finales de 2016. Sin embargo, llevamos trabajando con sistemas ASR antiguos desde 2006, por lo que conocíamos muy bien sus limitaciones. Eso fue lo que nos motivó a desarrollar nuestros propios ASR.

También estamos muy familiarizados con el uso de ASR en aplicaciones de gran volumen del mundo real, por lo que sabemos qué funciones desean los usuarios de ASR, ya sean desarrolladores que crean las aplicaciones o personal de TI que tiene que alojarlas y mantenerlas.

Todo esto nos guió en las decisiones que tomamos al desarrollar nuestra plataforma de conversión de voz a texto.

Entonces, ¿en qué se diferencia el producto Voicegain?

A continuación, enumeramos lo que creemos que son 4 diferenciadores clave de nuestra plataforma de conversión de voz a texto en comparación con la competencia. Tenga en cuenta que el campo competitivo es bastante amplio, y consideramos que una característica en particular es un factor diferenciador si no es una característica común en el mercado.

1) Despliegue perimetral

Por implementación perimetral nos referimos a una implementación en las instalaciones del cliente (centro de datos) o en una VPC. Además, la implementación está totalmente orquestada y gestionada desde la nube (para obtener más información, consulte nuestra entrada de blog sobre Ventajas de la implementación perimetral). El aspecto de la orquestación y la administración integrada hace que sea esencialmente diferente de los antiguos ASR, que también se implementaban localmente y requerían contratos de soporte para implementarlos correctamente y mantenerlos a lo largo del tiempo.

Creemos que Edge Deployment es fundamental para una plataforma de conversión de voz a texto que sustituya a muchos de los antiguos ASR en sus aplicaciones.

2) Personalización del modelo acústico

A lo largo de los años, cuando trabajamos con ASR, nos dimos cuenta de que había casos en los que el ASR mostraba tasas de error consistentemente más altas. Por lo general, esto estaba relacionado con las llamadas IVR procedentes de clientes de regiones del país con distintos acentos.

En algunos de nuestros casos de uso hasta ahora, la capacidad de personalizar los modelos nos ha permitido reducir el WER de manera muy significativa (por ejemplo, del 8% al 3%).

Actualmente estamos trabajando en un riguroso experimento en el que estamos personalizando nuestro modelo para que sea compatible con el inglés irlandés. Planeamos informar detalladamente sobre los resultados en abril.

3) Soporte específico para IVR

La plataforma de conversión de voz a texto Voicegain se desarrolló específicamente teniendo en cuenta los casos de uso de IVR. Actualmente, la plataforma admite los siguientes 3 casos de uso del IVR, y estamos trabajando para añadir la NLU conversacional a finales de este año.

a) ASR compatible con los estándares IVR antiguos

Para que nuestro motor de conversión de voz a texto fuera una solución atractiva para reemplazar los ASR antiguos, lo implementamos para que fuera compatible con estándares antiguos como MRCP y GRXML. Este soporte no es un simple complemento, es decir, simplemente etiquetar una API web en la parte posterior de un servidor MRCP, sino que es más integral: nuestro motor principal de conversión de voz a texto interpreta directamente un superconjunto de comandos del protocolo MCRP.

También admitimos las gramáticas GRXML y JSGF, mediante MRCP, en las devoluciones de llamada de IVR y a través de la API web.

Cuando se usa con gramáticas, la gran ventaja del reconocedor Voicegain es que, en esencia, es un gran reconocedor de vocabulario. Las gramáticas se utilizan para restringir las expresiones reconocidas y facilitar el mapeo semántico, pero el reconocedor también puede reconocer las expresiones que no son gramaticales, lo que abre nuevas posibilidades para afinar el IVR.

b) Soporte de IVR Web-hook (sin VXML)

Los sistemas IVR basados en flujos se han creado tradicionalmente utilizando dos enfoques: (i) interpretar las interacciones de los diálogos en una plataforma VXML (navegador VXML) o (ii) utilizar webhooks que invocan la lógica de la aplicación que se ejecuta en plataformas de back-end web estándar (ejemplos de esto último son las ofertas de, por ejemplo, Twilio, Plivo o Tropo).

Nuestra plataforma admite IVR de estilo webhook. Las llamadas entrantes se pueden interconectar a través de la telefonía SIP/RTP estándar, y el cuadro de diálogo del IVR se puede dirigir desde cualquier plataforma que implemente webhooks (por ejemplo, Node.js o Django)

c) Habilitar los IVR que utilizan el back-end de un chatbot

Muchas empresas han invertido un esfuerzo significativo en crear sus chatbots basados en texto en lugar de utilizar productos como Google Dialogflow. Lo que ofrece la plataforma Voicegain es una forma sencilla de implementar la lógica de chatbot existente en un canal de telefonía vocal. Esto aprovecha la compatibilidad con el IVR webhook-ivr de nuestra plataforma y puede enviar texto en tiempo real (incluidas múltiples alternativas) a una plataforma de chatbot. También proporcionamos salida de audio a través de TTS o clips pregrabados.

4) Soporte integral para conversión continua de voz a texto en tiempo real

Como el IVR siempre ha sido nuestro objetivo, creamos nuestros modelos acústicos para que admitan la conversión de voz a texto en tiempo real de baja latencia (tanto con vocabulario extenso y continuo como con gramáticas sin contexto). También nos centramos en encontrar formas prácticas de transmitir audio a nuestra plataforma de conversión de voz a texto y de consumir la transcripción generada.

Uno de nuestros productos es Transcripción en vivo que permite la transcripción en tiempo real (con solo unos segundos de retraso), que luego se transmite a través de websockets y se puede consumir en los clientes web proporcionados. Esto abre la posibilidad de realizar transcripciones de ponentes en directo, con casos de uso que pueden incluir conferencias, ponencias, etc., lo que facilita la participación de los espectadores con problemas de audición en estos eventos.