Punto de referencia de precisión de voz a texto: junio de 2021

[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]

Han pasado más de 8 meses desde que publicamos nuestro último punto de referencia de precisión de reconocimiento de voz (descrito aquí). En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Google Enhanced (cerca del segundo lugar), luego Voicegain y Amazon (también cerca del cuarto lugar) y, muy por detrás, Google Standard.

Metodología

Hemos repetido la prueba con la misma metodología que antes: tomamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y elimine todos los archivos en los que el mejor reconocedor no haya podido alcanzar una tasa de errores de palabras (WER) inferior al 20%. La última vez eliminamos 10 archivos, pero esta vez, a medida que los reconocedores mejoraron, solo 8 archivos tenían un WER superior al 20%.

Los archivos eliminados se dividen en 3 categorías:

grabaciones de reuniones: 3 archivos (3 de las 7 grabaciones de reuniones del conjunto original),
conversaciones telefónicas: 3 archivos (3 de las 11 conversaciones telefónicas del conjunto original),
podcasts con varios presentadores y muy animados: 2 archivos (había muchos otros podcasts en el set que sí alcanzaron el límite).

Algunos de nuestros clientes nos dijeron que anteriormente utilizaban IBM Watson, por lo que decidimos añadirlo también a la prueba.

Resultados

En la nueva prueba, como puedes ver en el gráfico de resultados anterior, el orden ha cambiado: Amazon ha superado a todos al aumentar su precisión media en más de un 3% hasta solo el 10,02%, y ahora se encuentra en la primera posición. Microsoft, Google Enhanced y Google Standard obtuvieron aproximadamente el mismo nivel. El reconocedor Voicegain mejoró aproximadamente un 2%. El recientemente probado IBM Watson es mejor que Google Standard, pero está por detrás del resto de reconocedores.

Voicegain está vinculado con Google Enhanced

Los nuevos resultados sitúan al reconocedor Voicegain muy parecido al mejorado de Google:

El WER promedio de Voicegain está solo un 0,66% por detrás de Google, mientras que el WER medio está solo un 0,63% por detrás. Para ponerlo en contexto: Voicegain comete un error adicional cada 155 palabras en comparación con Google Enhanced.
Voicegain fue en realidad marginalmente mejor que Google Enhanced en cuanto al error mínimo, primer cuartil, tercer cuartil y máximo.
En general, Voicegain fue mejor en 20 archivos, mientras que Google fue mejor en 36 archivos.

Sin embargo, los resultados de un caso práctico dependen del audio específico: en algunos casos, Voicegain funcionará un poco mejor y, en otros, Google puede funcionar un poco mejor. Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

¿Qué pasa con los reconocedores de código abierto?

Hemos analizado tanto Mozilla DeepSpeech y Kaldi proyectos. Realizamos nuestra evaluación completa con Mozilla DeepSpeech y descubrimos que está muy por detrás del reconocedor estándar de Google. De 64 archivos de audio, Mozilla superó a Google Standard en solo 5 archivos y empató en 1. Fue peor en los 58 archivos restantes. El WER medio fue un 15,63% peor para Mozilla en comparación con el estándar de Google. El WER más bajo de Mozilla DeepSpeech (9,66%) corresponde al audio de Librivox «El arte de la guerra de Sun Tzu». A modo de comparación, Voicegain logra un WER del 3,45% en ese archivo.

Con respecto a Kaldi, aún no lo hemos comparado, pero según la investigación publicada en línea, parece que Kaldi también está por detrás de Google Standard, al menos cuando se usa con sus modelos estándar Aspire y LibriSpeech.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

Posibilidad de personalizar el modelo acústico - El modelo Voicegain puede entrenarse con sus datos de audio; tenemos demostrada mejora en la precisión del 7 al 10%. De hecho, para uno de nuestros clientes con datos de entrenamiento adecuados y un audio de buena calidad, logramos un WER del 0,5% (precisión del 99,5%)
Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

‍

Casey

AI Voice Agent Platform

Transcribe