Punto de referencia de precisión de voz a texto: septiembre de 2020

[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced. Nuestro precio es ahora de 0,95 céntimos por minuto]

[ACTUALIZAR: Para los resultados notificados utilizando una metodología ligeramente diferente vea nuestra nueva entrada de blog.]

Se trata de una continuación del entrada de blog de junio donde informamos de los resultados anteriores de precisión de voz a texto. Te animamos a que lo leas primero, ya que establece un contexto para entender mejor la importancia de la evaluación comparativa de la conversión de voz a texto.

Además de esa introducción de fondo, las diferencias clave con respecto a la publicación anterior son:

Hemos mejorado nuestro reconocedor y ahora estamos básicamente vinculados con Amazon.
Añadimos otro conjunto de archivos de referencia: 20 archivos publicado por rev.ai . Consulte los datos enlazados aquí al intentar reproducir este punto de referencia.

Estos son los resultados.

Comparación con el índice de referencia de junio en 44 archivos.

‍

Han pasado menos de 3 meses desde la prueba anterior, por lo que no es sorprendente no ver ninguna mejora en los reconocedores de Google y Amazon.

El reconocedor Voicegain ha superado a Amazon por un pelo en cuanto a precisión media, aunque la precisión media de Amazon en este conjunto de datos es ligeramente superior a Voicegain.

El reconocedor de Microsoft ha mejorado durante este período: en los 44 archivos de referencia, ahora es, de media, mejor que Google Enhanced (en el gráfico, conservamos los pedidos de la prueba de junio). El único valor atípico negativo en los resultados de Google Enhanced no explica por sí solo el mejor promedio de WER de Microsoft en este conjunto de datos.

Google Standard sigue siendo muy malo y es probable que dejemos de informar sobre él en detalle en nuestras futuras comparaciones.

Resultados del análisis comparativo en 20 archivos nuevos.

El audio del archivo 20 rev.ai la prueba no es tan difícil como algunos de los archivos del conjunto de referencia de 44 archivos. En consecuencia, los resultados son, en promedio, mejores, pero la clasificación de los reconocedores no cambia.

Como puede ver en este gráfico, en este conjunto de datos, el reconocedor Voicegain es ligeramente mejor que el de Amazon. Tiene un WER más bajo en 13 de los 20 archivos de prueba y supera a Amazon en los valores medios y medianos. En este conjunto de datos, Google Enhanced supera a Microsoft.

Resultados combinados en 44+20 archivos

Finalmente, aquí están los resultados combinados de los 64 archivos de referencia que probamos.

‍

En el índice de referencia combinado, Voicegain supera a Amazon tanto en promedio como en promedio de WER, aunque la ventaja media no es tan grande como en el conjunto rev.ai de 20 archivos. [Tenga en cuenta que, a partir del 2 de octubre de 2021, el WER de Voicegain es ahora 16,46|14,26]

Lo que nos gustaría señalar es que, al comparar Google Enhanced con Microsoft, uno gana si comparamos el WER promedio, mientras que el otro tiene un valor de WER mediano mejor. Esto pone de relieve que los resultados varían mucho según el archivo de audio específico que se esté comparando.

Conclusiones

Estos resultados muestran que la elección del mejor reconocedor para una aplicación determinada solo debe hacerse después de realizar pruebas exhaustivas. El rendimiento de los reconocedores varía mucho según los datos de audio y el entorno acústico. Además, los precios varían significativamente. Le animamos a que prueba Voicegain Speech-to-Text motor para su aplicación. Puede que sea más adecuado para su aplicación. Aunque la precisión esté un par de puntos por detrás de la de los dos mejores jugadores, tal vez quieras considerar Voicegain porque:

Nuestros modelos acústicos se pueden personalizar según el audio de su voz específico y esto puede reducir las tasas de error de palabras por debajo de las mejores opciones listas para usar. Consulte nuestra Precisión mejorada a partir de la entrada del blog Acoustic Model Training.
Si la diferencia de precisión es pequeña, Voicegain aún podría tener sentido dado el precio más bajo.
Estamos entrenando continuamente a nuestro reconocedor y solo es cuestión de tiempo que nos pongamos al día.

‍

Punto de referencia de precisión de voz a texto: septiembre de 2020

Comparación con el índice de referencia de junio en 44 archivos.

Resultados del análisis comparativo en 20 archivos nuevos.

Resultados combinados en 44+20 archivos

Conclusiones

Ganancia de voz: La IA de voz bajo tu control

Tell us what you are building!