Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Recientemente hemos agregado soporte para CORS (intercambio de recursos entre orígenes) en nuestras API. Esto fue en respuesta a la solicitud de nuestros clientes para poder crear aplicaciones web de conversión de voz a texto con un mínimo esfuerzo. Al realizar solicitudes de API web a la API de voz de Voicegain directamente desde sus clientes web, la aplicación puede resultar más sencilla y eficiente.
Algunos ejemplos de aplicaciones sencillas que nuestros clientes están implementando de esta manera son: la captura y transcripción de entradas de micrófono (por ejemplo, para capturar y transcribir notas de reuniones) o la transcripción de archivos de audio sin conexión.
Los usuarios tienen el control total, a través de la configuración de seguridad, sobre qué solicitudes de CORS se les debe permitir a Origins.
No hay duda de que los conjuntos de datos que se utilizan para entrenar modelos de IA tienen mucho valor. Esa es una de las razones por las que Google ofrece su servicio de conversión de voz a texto a dos precios, uno con «registro de datos» y otro sin él, consulte la tabla siguiente.
Sin embargo, en Voicegain, nuestra plataforma de conversión de voz a texto no captura ni utiliza ningún dato de los clientes (sin dejar de ofrecer precios de ASR bajos).
Además, la plataforma Voicegain permite a nuestros clientes usar sus datos para entrenar sus propios modelos acústicos dedicados y personalizados. Como resultado, nuestros clientes se benefician de dos maneras:
Al conservar la propiedad de los datos y los modelos acústicos personalizados, nuestros clientes se benefician de una mayor precisión de ASR en general y de una mayor precisión que la de sus posibles competidores en particular.
Los equipos de liderazgo sénior de la mayoría de los subcontratistas de centros de contacto globales están bajo presión constante. Necesitan centrarse como un láser en las métricas clave, los acuerdos de nivel de servicio y las personas necesarias para gestionar sus negocios. Administran cada vez más un negocio distribuido a nivel mundial que requiere mucha mano de obra y tecnología. Y tienen que hacer todo esto con márgenes cada vez más ajustados.
A pesar de que se mide según métricas como la CSAT y el NPS, gran parte del valor que un subcontratista ofrece a sus clientes suele ser difícil de cuantificar. Y, con demasiada frecuencia, el precio que obtiene el subcontratista no refleja el valor y la calidad que ofrece un subcontratista.
En este artículo, me gustaría proponer dos nuevas ideas innovadoras que pueden ayudar a las BPO de los centros de contacto a convertirse en nuevos ingresos de SaaS (software como servicio).
Ambas ofertas se pueden ofrecer a los clientes mediante un modelo de negocio basado en software como servicio (SaaS) junto con la parte tradicional de agentes del negocio.
Ambas ofertas de SaaS aprovechan algunos de los puntos fuertes clave de las BPO: una profunda experiencia en el dominio, un conocimiento profundo de los problemas de los clientes y una infraestructura tecnológica que aprovecha ambos
Los centros de contacto tienen un tesoro de datos de audio. Todos los días, los empleados atienden miles de llamadas sobre una amplia variedad de temas. Si bien los subcontratistas utilizan proveedores tradicionales de análisis de voz, el uso tradicional ha sido analizar una muestra de llamadas para facilitar la función de control de calidad. Net-net se considera un centro de costos tanto para los subcontratistas como para sus clientes.
Sin embargo, existe una enorme oportunidad sin explotar para extraer información de dichos datos de audio para usos que van más allá del control de calidad. Esta información puede ser relevante para las partes interesadas de los equipos de producto y marketing de los clientes. Esto puede abrir nuevos presupuestos de marketing y productos no tradicionales para las BPO.
Los subcontratistas tienen un conocimiento profundo y profundo de los temas actuales por los que llaman los clientes. Disponen de información única y actualizada sobre qué categorías de llamadas están aumentando realmente el volumen de llamadas. Con las herramientas, las metodologías y el personal adecuados, los subcontratistas pueden crear y ofrecer nuevas e innovadoras aplicaciones de autoservicio de voz que pueden automatizar partes de las llamadas. Con las tecnologías adecuadas, los subcontratistas pueden cambiar sin problemas entre las llamadas asistidas por agentes y las interacciones de autoservicio automatizadas.
La base de estas ofertas de SaaS son las modernas plataformas Speech to Text basadas en redes neuronales profundas (DNN).
Las antiguas tecnologías de conversión de voz a texto se basaban en modelos estadísticos tradicionales (llamados HMM y GMM). Tenían una capacidad limitada para aprender jergas y acentos específicos de la industria. Sin embargo, una plataforma basada en DNN tiene las siguientes ventajas
Para obtener más información, póngase en contacto con nosotros en info@voicegain.ai.
[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]
Esa es la pregunta que nos hacen con frecuencia nuestros clientes potenciales. A menudo respondemos «eso depende» y tenemos la sensación de que la otra parte piensa que «debe ser muy mala si no dan una respuesta clara». Sin embargo, «eso depende» es realmente la respuesta correcta. La precisión del reconocimiento automático de voz (ASR) depende del audio de muchas maneras y el efecto no es pequeño. Básicamente, la precisión puede ser generalizada en función de factores como:
Dado que las preguntas sobre precisión o tasa de errores de palabras carecen en cierto modo de sentido sin especificar el tipo de audio de voz, es importante realizar pruebas al elegir un reconocedor de voz. Como conjunto de prueba, se elegiría un conjunto de archivos de audio que representen con precisión el espectro de voz que encontrará el reconocedor en los casos de uso esperados. Para cada archivo de audio de voz del conjunto, se obtendría una transcripción dorada o de referencia con una precisión del 100%. Después, todo se puede automatizar: transcribir cada archivo de los reconocedores que se están evaluando, calcular el WER comparándolo con la referencia de cada una de las transcripciones generadas y cotejar los resultados. Los resultados combinados ofrecerán una imagen clara del rendimiento de los reconocedores en el audio de voz específico que nos interesa. Si vas a repetir este proceso con frecuencia, por ejemplo, para evaluar a los nuevos candidatos con el marcador de reconocimiento, es bueno estandarizar el conjunto de pruebas y, básicamente, crear un punto de referencia repetible al que puedas hacer referencia en el futuro.
Los resultados comparativos que presentamos aquí son algo diferentes a los de las pruebas o puntos de referencia basados en casos de uso. Como estamos creando un reconocedor general para un caso de uso no especificado, decidimos utilizar intencionadamente un conjunto muy amplio de archivos de audio. En lugar de recopilar los archivos de prueba nosotros mismos, decidimos utilizar el conjunto de datos descrito en»¿Qué servicio de transcripción automática es el más preciso? — 2018«de septiembre de 2018 por Jason Kincaid. El artículo presenta una comparación de los reconocedores de voz de varias empresas que utilizan un conjunto de 48 vídeos de YouTube (tomando 5 minutos de audio de cada uno de los vídeos). Cuando decidimos volver a probar el índice de Jason, ya no se podía acceder a 4 vídeos, por lo que el índice de referencia que presentamos aquí utiliza datos de solo 44 vídeos.
Comparamos los resultados presentados por Jason con los resultados de los tres principales reconocedores (Google, Amazon y Microsoft) en junio de 2020. Por supuesto, también incluimos nuestro reconocedor Voicegain, porque queríamos ver cómo nos comparábamos con ellos. Todos los reconocedores probados utilizan redes neuronales profundas. El reconocedor de voz Voicegain se ejecutaba en Google Cloud Platform con las GPU Nvidia T4. Todos los reconocedores se ejecutaron con la configuración predeterminada y no se utilizaron sugerencias ni modelos de lenguaje de usuario.
Es importante mencionar que ninguno de los archivos de referencia está incluido en el conjunto de entrenamiento que utiliza Voicegain. El resto del audio de los altavoces no proviene de los archivos de referencia, ni el mismo contenido pero es dicho por otros altavoces.
Una vez más, el mejor reconocedor no es la pregunta correcta, porque todo depende del audio de voz real en el que se utilice. Pero la clave resulta de pruebas en los 44 archivos son las siguientes:
Estas son nuestras ideas y algunos detalles:
Invitamos a cualquiera a probar nuestra plataforma y comprobar su rendimiento en los tipos de audio de voz que sean importantes para sus casos de uso.
Tenemos Open Sourced, el componente clave de nuestra suite de referencia, la utilidad transcribe_compare de python. Está disponible aquí: https://github.com/voicegain/transcription-compare bajo licencia MIT.
Es útil para la evaluación comparativa automática, pero también puede enviar datos a un archivo html que se puede ver en un navegador web. Lo utilizamos con frecuencia de esta manera para revisar manualmente los errores de transcripción o las diferencias de errores entre dos reconocedores o versiones del reconocedor.
Si estás creando una aplicación que requiere transcripción, regístrate hoy para obtener una cuenta de desarrollador y obtén 50$ en créditos gratis (unos 5000 minutos de uso de la plataforma). Puedes comprobar nuestra precisión y probar nuestras API. Se proporcionan instrucciones para registrarse para obtener una cuenta de desarrollador aquí.
3. Si quieres hacer de Voicegain tu propio asistente de transcripción con IA, haz clic aquí. Puedes llevar Voicegain a reuniones, seminarios web, charlas, conferencias y mucho más.
Todavía estamos en medio de un extenso esfuerzo de recopilación de datos y la capacitación aún no ha terminado. Estamos viendo una mejora continua en nuestro reconocedor, ya que las nuevas versiones mejoradas del modelo acústico se ponen en producción aproximadamente dos veces al mes. Dentro de unos meses publicaremos los resultados actualizados de los comparativos en nuestro blog.
Tenemos planificada otra entrada de blog que cuantificará el beneficio que se puede esperar del uso de datos de usuario adicionales para entrenar el modelo acústico utilizado en el reconocedor. Hemos seleccionado un gran conjunto de datos con un acento inglés muy específico que actualmente tiene un WER más alto. Informaremos sobre el impacto en el WER de la formación con un conjunto de datos de este tipo. Cuantificaremos la mejora en función del tamaño del conjunto de datos y la duración de la formación.
Voicegain proporciona herramientas fáciles de usar que permiten a los usuarios crear sus propios modelos acústicos personalizados. Esta próxima publicación proporcionará una visión clara sobre las mejoras que se pueden esperar y la cantidad de datos que se necesitan para marcar la diferencia en la reducción del WER.
Si tiene alguna pregunta sobre este artículo o nuestra plataforma y reconocedor, puede ponerse en contacto con nosotros en info@voicegain.ai
El siguiente vídeo muestra un ejemplo de Transcripción en vivo de Voicegain se utiliza para proporcionar la transcripción de un evento transmitido en vídeo.
Estos son algunos detalles sobre esta configuración en particular:
El mercado empresarial actual de voz a texto se puede dividir en 3 grupos distintos de jugadores. Ten en cuenta que nos estamos centrando en las plataformas de conversión de voz a texto en lugar de en productos completos para el usuario final (por lo que no incluimos productos de consumo como Dragon NaturallySpeaking, etc.)
Nos consideramos uno de los nuevos jugadores, ya que empezamos a trabajar en nuestro propio motor de conversión de voz a texto basado en DNN a finales de 2016. Sin embargo, llevamos trabajando con sistemas ASR antiguos desde 2006, por lo que conocíamos muy bien sus limitaciones. Eso fue lo que nos motivó a desarrollar nuestros propios ASR.
También estamos muy familiarizados con el uso de ASR en aplicaciones de gran volumen del mundo real, por lo que sabemos qué funciones desean los usuarios de ASR, ya sean desarrolladores que crean las aplicaciones o personal de TI que tiene que alojarlas y mantenerlas.
Todo esto nos guió en las decisiones que tomamos al desarrollar nuestra plataforma de conversión de voz a texto.
A continuación, enumeramos lo que creemos que son 4 diferenciadores clave de nuestra plataforma de conversión de voz a texto en comparación con la competencia. Tenga en cuenta que el campo competitivo es bastante amplio, y consideramos que una característica en particular es un factor diferenciador si no es una característica común en el mercado.
Por implementación perimetral nos referimos a una implementación en las instalaciones del cliente (centro de datos) o en una VPC. Además, la implementación está totalmente orquestada y gestionada desde la nube (para obtener más información, consulte nuestra entrada de blog sobre Ventajas de la implementación perimetral). El aspecto de la orquestación y la administración integrada hace que sea esencialmente diferente de los antiguos ASR, que también se implementaban localmente y requerían contratos de soporte para implementarlos correctamente y mantenerlos a lo largo del tiempo.
Creemos que Edge Deployment es fundamental para una plataforma de conversión de voz a texto que sustituya a muchos de los antiguos ASR en sus aplicaciones.
A lo largo de los años, cuando trabajamos con ASR, nos dimos cuenta de que había casos en los que el ASR mostraba tasas de error consistentemente más altas. Por lo general, esto estaba relacionado con las llamadas IVR procedentes de clientes de regiones del país con distintos acentos.
En algunos de nuestros casos de uso hasta ahora, la capacidad de personalizar los modelos nos ha permitido reducir el WER de manera muy significativa (por ejemplo, del 8% al 3%).
Actualmente estamos trabajando en un riguroso experimento en el que estamos personalizando nuestro modelo para que sea compatible con el inglés irlandés. Planeamos informar detalladamente sobre los resultados en abril.
La plataforma de conversión de voz a texto Voicegain se desarrolló específicamente teniendo en cuenta los casos de uso de IVR. Actualmente, la plataforma admite los siguientes 3 casos de uso del IVR, y estamos trabajando para añadir la NLU conversacional a finales de este año.
a) ASR compatible con los estándares IVR antiguos
Para que nuestro motor de conversión de voz a texto fuera una solución atractiva para reemplazar los ASR antiguos, lo implementamos para que fuera compatible con estándares antiguos como MRCP y GRXML. Este soporte no es un simple complemento, es decir, simplemente etiquetar una API web en la parte posterior de un servidor MRCP, sino que es más integral: nuestro motor principal de conversión de voz a texto interpreta directamente un superconjunto de comandos del protocolo MCRP.
También admitimos las gramáticas GRXML y JSGF, mediante MRCP, en las devoluciones de llamada de IVR y a través de la API web.
Cuando se usa con gramáticas, la gran ventaja del reconocedor Voicegain es que, en esencia, es un gran reconocedor de vocabulario. Las gramáticas se utilizan para restringir las expresiones reconocidas y facilitar el mapeo semántico, pero el reconocedor también puede reconocer las expresiones que no son gramaticales, lo que abre nuevas posibilidades para afinar el IVR.
b) Soporte de IVR Web-hook (sin VXML)
Los sistemas IVR basados en flujos se han creado tradicionalmente utilizando dos enfoques: (i) interpretar las interacciones de los diálogos en una plataforma VXML (navegador VXML) o (ii) utilizar webhooks que invocan la lógica de la aplicación que se ejecuta en plataformas de back-end web estándar (ejemplos de esto último son las ofertas de, por ejemplo, Twilio, Plivo o Tropo).
Nuestra plataforma admite IVR de estilo webhook. Las llamadas entrantes se pueden interconectar a través de la telefonía SIP/RTP estándar, y el cuadro de diálogo del IVR se puede dirigir desde cualquier plataforma que implemente webhooks (por ejemplo, Node.js o Django)
c) Habilitar los IVR que utilizan el back-end de un chatbot
Muchas empresas han invertido un esfuerzo significativo en crear sus chatbots basados en texto en lugar de utilizar productos como Google Dialogflow. Lo que ofrece la plataforma Voicegain es una forma sencilla de implementar la lógica de chatbot existente en un canal de telefonía vocal. Esto aprovecha la compatibilidad con el IVR webhook-ivr de nuestra plataforma y puede enviar texto en tiempo real (incluidas múltiples alternativas) a una plataforma de chatbot. También proporcionamos salida de audio a través de TTS o clips pregrabados.
Como el IVR siempre ha sido nuestro objetivo, creamos nuestros modelos acústicos para que admitan la conversión de voz a texto en tiempo real de baja latencia (tanto con vocabulario extenso y continuo como con gramáticas sin contexto). También nos centramos en encontrar formas prácticas de transmitir audio a nuestra plataforma de conversión de voz a texto y de consumir la transcripción generada.
Uno de nuestros productos es Transcripción en vivo que permite la transcripción en tiempo real (con solo unos segundos de retraso), que luego se transmite a través de websockets y se puede consumir en los clientes web proporcionados. Esto abre la posibilidad de realizar transcripciones de ponentes en directo, con casos de uso que pueden incluir conferencias, ponencias, etc., lo que facilita la participación de los espectadores con problemas de audición en estos eventos.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?