Punto de referencia

Punto de referencia de precisión de voz a texto: diciembre de 2022

Han pasado otros 6 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft, luego Amazon, seguido de cerca por Voicegain, luego el nuevo Google latest_long y el último Google Enhanced.

Si bien el pedido se ha mantenido igual al del último punto de referencia, tres empresas (Amazon, Voicegain y Microsoft) mostraron una mejora significativa.

Desde el último punto de referencia, en Voicegain hemos invertido en más formación, principalmente en conferencias, impartidas a través de zoom y en directo. La formación con este tipo de datos se tradujo en un aumento adicional de la precisión de nuestro modelo. De hecho, estamos en medio de una nueva ronda de formación centrada en las conversaciones en los centros de llamadas.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron aproximadamente en la misma cantidad.
  • Los reconocedores de Google no mejoraron. De hecho, sus cifras de WER son peores que en junio.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez, solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube) con un WER del 25,48%

Publicamos esto porque queremos asegurarnos de que cualquier tercero (cualquier proveedor, desarrollador o analista de ASR) pueda reproducir estos resultados.

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra la tasa de errores de palabras (WER) promedio y mediana

Solo 3 reconocedores han mejorado en los últimos 6 meses.

  • Amazon ganó un 0,68% en la mediana y un 0,40% en la media
  • La voz gana un 0,47% en la mediana y un 0,45% en la media
  • Microsoft ganó un 0,33% en la mediana y un 0,25% en la media

Los datos detallados de este punto de referencia indican que Amazon es mejor que Voicegain en los archivos de audio con un WER por debajo de la mediana y peor en los archivos de audio con una precisión por encima de la mediana. Por lo demás, AWS y Voicegain tienen una similitud muy similar. Sin embargo, también hemos realizado un análisis de rendimiento específico para cada cliente en el que ha sido al revés: Amazon es ligeramente mejor en los archivos de audio con un WER por encima de la media que en Voicegain, pero Voicegain es mejor en los archivos de audio con un WER por debajo de la media. En realidad, depende del tipo de archivos de audio, pero en general, nuestros resultados indican que Voicegain se parece mucho a AWS.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 36 de los 63 archivos
  • Amazon fue el mejor con 15 archivos.
  • Voicegain fue mejor en 9 archivos de audio
  • La última versión de Google fue mejor en un solo archivo
  • Google Video Enhanced funcionó mejor con 2 archivos: estos fueron los 2 más fáciles (Google obtuvo un WER del 0,82% y el 1,52%), uno era Sherlock Holmes de Librivox y el otro The Art of War de Sun Tzu, también un audiolibro de Librivox.

Mejoras a lo largo del tiempo

Ya hemos realizado el mismo punto de referencia 5 veces para poder dibujar gráficos que muestren cómo ha mejorado cada uno de los reconocedores en los últimos 2 años y 3 meses. (Ten en cuenta que los dos últimos resultados de Google provienen del modelo más reciente, mientras que otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace aproximadamente medio año. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Ganancia de voz: La IA de voz bajo tu control

Ganancia de voz: Cree aplicaciones de IA de voz con nuestras API de NLU de voz a texto y LLM. Graba y transcribe reuniones, llamadas a centros de atención al cliente, vídeos, etc. Obtén resúmenes, opiniones y mucho más basados en LLM. Cree bots de voz conversacionales que se integren con su plataforma CCaaS local o en la nube. Comience hoy mismo.

Descubre cómo funciona Voicegain — obtén una demostración de Voicegain hoy mismo.

Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control