Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
A partir del 5 de agosto de 2020, la programación en Python con la API Voicegain Speech-to-Text (STT) se hizo aún más fácil con el lanzamiento de la versión oficial ganancia de voz - voz paquete a Repositorio del índice de paquetes de Python (PyPI).
El paquete SDK está disponible en: https://pypi.org/project/voicegain-speech/
El código fuente del SDK está disponible en: https://github.com/voicegain/python-sdk
Este paquete incluye la API web Voicegain Speech-to-Text. Puede encontrar una vista previa de las especificaciones de la API en: https://www.voicegain.ai/api
La documentación completa sobre las especificaciones de la API está disponible en: https://console.voicegain.ai/api-documentation
Las API principales son para conversión de voz a texto, ya sea para transcripción o reconocimiento (se describen con más detalle a continuación). Otras API disponibles incluyen:
/asr/transcribirLa API Transcribe le permite enviar audio y recibir el texto transcrito palabra por palabra desde el motor STT. Esta API utiliza nuestro modelo de lenguaje de vocabulario extenso y admite audio de formato largo en modo asíncrono.
La API se puede usar, por ejemplo, para transcribir datos de audio, ya sean podcasts, correos de voz, grabaciones de llamadas, etc. En el modo de transmisión en tiempo real, se puede usar, por ejemplo, para crear robots de voz (la aplicación tendrá que proporcionar capacidades de NLU para determinar la intención a partir del texto transcrito).
El resultado de la transcripción se puede devolver en cuatro formatos:
/asr/reconocerEsta API se debe utilizar si desea restringir los resultados del reconocimiento del STT a la gramática del habla que se envía junto con el audio (se utilizan gramáticas en lugar del modelo de lenguaje de vocabulario extenso).
Si bien tener que proporcionar gramáticas es un paso adicional (en comparación con la API de Transcribe), pueden simplificar el desarrollo de aplicaciones, ya que el significado semántico se puede extraer junto con el texto.
Otra ventaja del uso de la gramática es que pueden ignorar palabras del enunciado que están fuera de la gramática, lo que sigue ofreciendo reconocimiento, aunque con menor confianza.
Voicegain admite gramáticas en los formatos JSGF y GRXML, ambos estándares gramaticales utilizados por las empresas en los IVR desde principios de la década de 2000. La API de reconocimiento solo admite audio de formato corto, no más de 60 segundos.
Recientemente hemos agregado soporte para CORS (intercambio de recursos entre orígenes) en nuestras API. Esto fue en respuesta a la solicitud de nuestros clientes para poder crear aplicaciones web de conversión de voz a texto con un mínimo esfuerzo. Al realizar solicitudes de API web a la API de voz de Voicegain directamente desde sus clientes web, la aplicación puede resultar más sencilla y eficiente.
Algunos ejemplos de aplicaciones sencillas que nuestros clientes están implementando de esta manera son: la captura y transcripción de entradas de micrófono (por ejemplo, para capturar y transcribir notas de reuniones) o la transcripción de archivos de audio sin conexión.
Los usuarios tienen el control total, a través de la configuración de seguridad, sobre qué solicitudes de CORS se les debe permitir a Origins.
No hay duda de que los conjuntos de datos que se utilizan para entrenar modelos de IA tienen mucho valor. Esa es una de las razones por las que Google ofrece su servicio de conversión de voz a texto a dos precios, uno con «registro de datos» y otro sin él, consulte la tabla siguiente.
Sin embargo, en Voicegain, nuestra plataforma de conversión de voz a texto no captura ni utiliza ningún dato de los clientes (sin dejar de ofrecer precios de ASR bajos).
Además, la plataforma Voicegain permite a nuestros clientes usar sus datos para entrenar sus propios modelos acústicos dedicados y personalizados. Como resultado, nuestros clientes se benefician de dos maneras:
Al conservar la propiedad de los datos y los modelos acústicos personalizados, nuestros clientes se benefician de una mayor precisión de ASR en general y de una mayor precisión que la de sus posibles competidores en particular.
Los equipos de liderazgo sénior de la mayoría de los subcontratistas de centros de contacto globales están bajo presión constante. Necesitan centrarse como un láser en las métricas clave, los acuerdos de nivel de servicio y las personas necesarias para gestionar sus negocios. Administran cada vez más un negocio distribuido a nivel mundial que requiere mucha mano de obra y tecnología. Y tienen que hacer todo esto con márgenes cada vez más ajustados.
A pesar de que se mide según métricas como la CSAT y el NPS, gran parte del valor que un subcontratista ofrece a sus clientes suele ser difícil de cuantificar. Y, con demasiada frecuencia, el precio que obtiene el subcontratista no refleja el valor y la calidad que ofrece un subcontratista.
En este artículo, me gustaría proponer dos nuevas ideas innovadoras que pueden ayudar a las BPO de los centros de contacto a convertirse en nuevos ingresos de SaaS (software como servicio).
Ambas ofertas se pueden ofrecer a los clientes mediante un modelo de negocio basado en software como servicio (SaaS) junto con la parte tradicional de agentes del negocio.
Ambas ofertas de SaaS aprovechan algunos de los puntos fuertes clave de las BPO: una profunda experiencia en el dominio, un conocimiento profundo de los problemas de los clientes y una infraestructura tecnológica que aprovecha ambos
Los centros de contacto tienen un tesoro de datos de audio. Todos los días, los empleados atienden miles de llamadas sobre una amplia variedad de temas. Si bien los subcontratistas utilizan proveedores tradicionales de análisis de voz, el uso tradicional ha sido analizar una muestra de llamadas para facilitar la función de control de calidad. Net-net se considera un centro de costos tanto para los subcontratistas como para sus clientes.
Sin embargo, existe una enorme oportunidad sin explotar para extraer información de dichos datos de audio para usos que van más allá del control de calidad. Esta información puede ser relevante para las partes interesadas de los equipos de producto y marketing de los clientes. Esto puede abrir nuevos presupuestos de marketing y productos no tradicionales para las BPO.
Los subcontratistas tienen un conocimiento profundo y profundo de los temas actuales por los que llaman los clientes. Disponen de información única y actualizada sobre qué categorías de llamadas están aumentando realmente el volumen de llamadas. Con las herramientas, las metodologías y el personal adecuados, los subcontratistas pueden crear y ofrecer nuevas e innovadoras aplicaciones de autoservicio de voz que pueden automatizar partes de las llamadas. Con las tecnologías adecuadas, los subcontratistas pueden cambiar sin problemas entre las llamadas asistidas por agentes y las interacciones de autoservicio automatizadas.
La base de estas ofertas de SaaS son las modernas plataformas Speech to Text basadas en redes neuronales profundas (DNN).
Las antiguas tecnologías de conversión de voz a texto se basaban en modelos estadísticos tradicionales (llamados HMM y GMM). Tenían una capacidad limitada para aprender jergas y acentos específicos de la industria. Sin embargo, una plataforma basada en DNN tiene las siguientes ventajas
Para obtener más información, póngase en contacto con nosotros en info@voicegain.ai.
[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]
Esa es la pregunta que nos hacen con frecuencia nuestros clientes potenciales. A menudo respondemos «eso depende» y tenemos la sensación de que la otra parte piensa que «debe ser muy mala si no dan una respuesta clara». Sin embargo, «eso depende» es realmente la respuesta correcta. La precisión del reconocimiento automático de voz (ASR) depende del audio de muchas maneras y el efecto no es pequeño. Básicamente, la precisión puede ser generalizada en función de factores como:
Dado que las preguntas sobre precisión o tasa de errores de palabras carecen en cierto modo de sentido sin especificar el tipo de audio de voz, es importante realizar pruebas al elegir un reconocedor de voz. Como conjunto de prueba, se elegiría un conjunto de archivos de audio que representen con precisión el espectro de voz que encontrará el reconocedor en los casos de uso esperados. Para cada archivo de audio de voz del conjunto, se obtendría una transcripción dorada o de referencia con una precisión del 100%. Después, todo se puede automatizar: transcribir cada archivo de los reconocedores que se están evaluando, calcular el WER comparándolo con la referencia de cada una de las transcripciones generadas y cotejar los resultados. Los resultados combinados ofrecerán una imagen clara del rendimiento de los reconocedores en el audio de voz específico que nos interesa. Si vas a repetir este proceso con frecuencia, por ejemplo, para evaluar a los nuevos candidatos con el marcador de reconocimiento, es bueno estandarizar el conjunto de pruebas y, básicamente, crear un punto de referencia repetible al que puedas hacer referencia en el futuro.
Los resultados comparativos que presentamos aquí son algo diferentes a los de las pruebas o puntos de referencia basados en casos de uso. Como estamos creando un reconocedor general para un caso de uso no especificado, decidimos utilizar intencionadamente un conjunto muy amplio de archivos de audio. En lugar de recopilar los archivos de prueba nosotros mismos, decidimos utilizar el conjunto de datos descrito en»¿Qué servicio de transcripción automática es el más preciso? — 2018«de septiembre de 2018 por Jason Kincaid. El artículo presenta una comparación de los reconocedores de voz de varias empresas que utilizan un conjunto de 48 vídeos de YouTube (tomando 5 minutos de audio de cada uno de los vídeos). Cuando decidimos volver a probar el índice de Jason, ya no se podía acceder a 4 vídeos, por lo que el índice de referencia que presentamos aquí utiliza datos de solo 44 vídeos.
Comparamos los resultados presentados por Jason con los resultados de los tres principales reconocedores (Google, Amazon y Microsoft) en junio de 2020. Por supuesto, también incluimos nuestro reconocedor Voicegain, porque queríamos ver cómo nos comparábamos con ellos. Todos los reconocedores probados utilizan redes neuronales profundas. El reconocedor de voz Voicegain se ejecutaba en Google Cloud Platform con las GPU Nvidia T4. Todos los reconocedores se ejecutaron con la configuración predeterminada y no se utilizaron sugerencias ni modelos de lenguaje de usuario.
Es importante mencionar que ninguno de los archivos de referencia está incluido en el conjunto de entrenamiento que utiliza Voicegain. El resto del audio de los altavoces no proviene de los archivos de referencia, ni el mismo contenido pero es dicho por otros altavoces.
Una vez más, el mejor reconocedor no es la pregunta correcta, porque todo depende del audio de voz real en el que se utilice. Pero la clave resulta de pruebas en los 44 archivos son las siguientes:
Estas son nuestras ideas y algunos detalles:
Invitamos a cualquiera a probar nuestra plataforma y comprobar su rendimiento en los tipos de audio de voz que sean importantes para sus casos de uso.
Tenemos Open Sourced, el componente clave de nuestra suite de referencia, la utilidad transcribe_compare de python. Está disponible aquí: https://github.com/voicegain/transcription-compare bajo licencia MIT.
Es útil para la evaluación comparativa automática, pero también puede enviar datos a un archivo html que se puede ver en un navegador web. Lo utilizamos con frecuencia de esta manera para revisar manualmente los errores de transcripción o las diferencias de errores entre dos reconocedores o versiones del reconocedor.
Si estás creando una aplicación que requiere transcripción, regístrate hoy para obtener una cuenta de desarrollador y obtén 50$ en créditos gratis (unos 5000 minutos de uso de la plataforma). Puedes comprobar nuestra precisión y probar nuestras API. Se proporcionan instrucciones para registrarse para obtener una cuenta de desarrollador aquí.
3. Si quieres hacer de Voicegain tu propio asistente de transcripción con IA, haz clic aquí. Puedes llevar Voicegain a reuniones, seminarios web, charlas, conferencias y mucho más.
Todavía estamos en medio de un extenso esfuerzo de recopilación de datos y la capacitación aún no ha terminado. Estamos viendo una mejora continua en nuestro reconocedor, ya que las nuevas versiones mejoradas del modelo acústico se ponen en producción aproximadamente dos veces al mes. Dentro de unos meses publicaremos los resultados actualizados de los comparativos en nuestro blog.
Tenemos planificada otra entrada de blog que cuantificará el beneficio que se puede esperar del uso de datos de usuario adicionales para entrenar el modelo acústico utilizado en el reconocedor. Hemos seleccionado un gran conjunto de datos con un acento inglés muy específico que actualmente tiene un WER más alto. Informaremos sobre el impacto en el WER de la formación con un conjunto de datos de este tipo. Cuantificaremos la mejora en función del tamaño del conjunto de datos y la duración de la formación.
Voicegain proporciona herramientas fáciles de usar que permiten a los usuarios crear sus propios modelos acústicos personalizados. Esta próxima publicación proporcionará una visión clara sobre las mejoras que se pueden esperar y la cantidad de datos que se necesitan para marcar la diferencia en la reducción del WER.
Si tiene alguna pregunta sobre este artículo o nuestra plataforma y reconocedor, puede ponerse en contacto con nosotros en info@voicegain.ai
El siguiente vídeo muestra un ejemplo de Transcripción en vivo de Voicegain se utiliza para proporcionar la transcripción de un evento transmitido en vídeo.
Estos son algunos detalles sobre esta configuración en particular:
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?