Punto de referencia de precisión de voz a texto: resultados de junio de 2020

[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]

«¿Cuál es la precisión de su reconocedor?»

Esa es la pregunta que nos hacen con frecuencia nuestros clientes potenciales. A menudo respondemos «eso depende» y tenemos la sensación de que la otra parte piensa que «debe ser muy mala si no dan una respuesta clara». Sin embargo, «eso depende» es realmente la respuesta correcta. La precisión del reconocimiento automático de voz (ASR) depende del audio de muchas maneras y el efecto no es pequeño. Básicamente, la precisión puede ser generalizada en función de factores como:

¿El discurso sigue la gramática adecuada o el orador está inventando cosas mientras las dice? Los discursos preparados tendrán mejores puntuaciones, es decir, un WER (tasa de error de palabras) más bajas en comparación con los discursos sin guión.
Cuál es el tema del discurso. Las palabras o combinaciones de palabras raras y poco conocidas, como por ejemplo personas u otros nombres, dificultarán la vida del NLM (modelo de lenguaje natural).
¿Hay más de un altavoz? ¿Están cambiando constantemente o incluso hablan unos sobre otros?
¿Hay música de fondo? Es muy común en las producciones de YouTube.
¿Hay ruido de fondo? ¿Cuál es el tipo de ruido?
¿Algunas partes del audio de la voz son inusualmente lentas o rápidas?
¿Hay reverberación ambiental o eco en la grabación?
¿El volumen de grabación es muy bajo? ¿Hay variaciones en el volumen de grabación (por ejemplo, la grabadora está colocada en un extremo de una mesa muy larga)
¿La calidad de grabación es mala? Por ejemplo, debido a un códec o a unos niveles de compresión de archivo excesivos.
etcétera etcétera.

Probar y comparar la precisión de la conversión de voz a texto

Dado que las preguntas sobre precisión o tasa de errores de palabras carecen en cierto modo de sentido sin especificar el tipo de audio de voz, es importante realizar pruebas al elegir un reconocedor de voz. Como conjunto de prueba, se elegiría un conjunto de archivos de audio que representen con precisión el espectro de voz que encontrará el reconocedor en los casos de uso esperados. Para cada archivo de audio de voz del conjunto, se obtendría una transcripción dorada o de referencia con una precisión del 100%. Después, todo se puede automatizar: transcribir cada archivo de los reconocedores que se están evaluando, calcular el WER comparándolo con la referencia de cada una de las transcripciones generadas y cotejar los resultados. Los resultados combinados ofrecerán una imagen clara del rendimiento de los reconocedores en el audio de voz específico que nos interesa. Si vas a repetir este proceso con frecuencia, por ejemplo, para evaluar a los nuevos candidatos con el marcador de reconocimiento, es bueno estandarizar el conjunto de pruebas y, básicamente, crear un punto de referencia repetible al que puedas hacer referencia en el futuro.

Nuestro punto de referencia

Los resultados comparativos que presentamos aquí son algo diferentes a los de las pruebas o puntos de referencia basados en casos de uso. Como estamos creando un reconocedor general para un caso de uso no especificado, decidimos utilizar intencionadamente un conjunto muy amplio de archivos de audio. En lugar de recopilar los archivos de prueba nosotros mismos, decidimos utilizar el conjunto de datos descrito en»¿Qué servicio de transcripción automática es el más preciso? — 2018«de septiembre de 2018 por Jason Kincaid. El artículo presenta una comparación de los reconocedores de voz de varias empresas que utilizan un conjunto de 48 vídeos de YouTube (tomando 5 minutos de audio de cada uno de los vídeos). Cuando decidimos volver a probar el índice de Jason, ya no se podía acceder a 4 vídeos, por lo que el índice de referencia que presentamos aquí utiliza datos de solo 44 vídeos.

Comparamos los resultados presentados por Jason con los resultados de los tres principales reconocedores (Google, Amazon y Microsoft) en junio de 2020. Por supuesto, también incluimos nuestro reconocedor Voicegain, porque queríamos ver cómo nos comparábamos con ellos. Todos los reconocedores probados utilizan redes neuronales profundas. El reconocedor de voz Voicegain se ejecutaba en Google Cloud Platform con las GPU Nvidia T4. Todos los reconocedores se ejecutaron con la configuración predeterminada y no se utilizaron sugerencias ni modelos de lenguaje de usuario.

Es importante mencionar que ninguno de los archivos de referencia está incluido en el conjunto de entrenamiento que utiliza Voicegain. El resto del audio de los altavoces no proviene de los archivos de referencia, ni el mismo contenido pero es dicho por otros altavoces.

Entonces, ¿cuáles son los resultados? ¿Quién tiene el mejor reconocedor?

Una vez más, el mejor reconocedor no es la pregunta correcta, porque todo depende del audio de voz real en el que se utilice. Pero la clave resulta de pruebas en los 44 archivos son las siguientes:

Cada reconocedor ha mejorado. El mayor mejora en la mediana, el WER fue de Microsoft De voz a texto.
El mejor reconocedor en nuestro conjunto de datos estaba Google Speech to Text: mejorado (vídeo), pero el nuevo Microsoft Speech to Text está muy cerca en segundo lugar.
Teniendo en cuenta el precio, Microsoft podría ser declarada Best Buy
Ganación de voz el reconocedor es definitivamente La mejor relación calidad-precio.
Google Speech to Text: Standard, aunque ha mejorado un poco, sigue siendo claramente el que tiene el peor rendimiento del conjunto de datos.
El único punto de datos erróneo de Google Enhanced (vídeo) es real. Realizamos varias pruebas en el archivo y obtuvimos el mismo resultado. El antiguo reconocedor mejorado de Google no tenía problemas con ese archivo.

¿Cómo se compara el reconocedor Voicegain?

Estas son nuestras ideas y algunos detalles:

Hasta octubre de 2019, el conjunto de entrenamiento que utilizábamos para entrenar nuestro reconocedor se mantuvo relativamente inalterado. Además, nuestro conjunto de entrenamiento estaba muy sesgado hacia algunas categorías de audio de voz. Puedes verlo en el gráfico, por ejemplo, en el hecho de que nuestros mejores resultados fueron mejores que los del antiguo Amazon Transcribe, pero nuestros peores resultados fueron bastante peores que los de Amazon Transcribe.
Basándonos en los primeros resultados del punto de referencia, analizamos qué tipo de audio nos causaba problemas y recopilamos datos con las características particulares, pero obtenidos de forma muy amplia (para evitar que nos entrenaran para compararlos) para hacer que nuestro reconocedor fuera más robusto. Ese esfuerzo dio sus frutos y se puede ver que ahora la distribución del reconocedor Voicegain (WER) es mucho más estrecha y, en general, se acerca mucho a la del nuevo Amazon Transcribe.
En general, Voicegain es el reconocedor más mejorado. Hace poco más de 6 meses éramos mejores que Google Standard, pero ahora estamos cerrando el mercado de Amazon Transcribe. Esto se debe tanto a los cambios en la arquitectura de la red neuronal como a un gran aumento en las horas del conjunto de datos de entrenamiento.
Si nos fijamos en los detalles, el reconocedor Voicegain fue mejor que el nuevo Amazon en 11 de los 44 archivos, mejor que Google Video en 5 archivos y mejor que Microsoft también en 5 de los 44 archivos.
Si tenemos en cuenta el precio, creemos que Voicegain presenta una excelente relación calidad-precio. Hemos hablado con clientes que no realizaban transcripciones a gran escala debido al elevado coste de las tres grandes plataformas y, de repente, nuestros bajos precios hicieron viables nuevos usos de la transcripción.

Invitamos a cualquiera a probar nuestra plataforma y comprobar su rendimiento en los tipos de audio de voz que sean importantes para sus casos de uso.

¿Algún software que pueda ayudarme a probar los reconocedores?

Tenemos Open Sourced, el componente clave de nuestra suite de referencia, la utilidad transcribe_compare de python. Está disponible aquí: https://github.com/voicegain/transcription-compare bajo licencia MIT.

Es útil para la evaluación comparativa automática, pero también puede enviar datos a un archivo html que se puede ver en un navegador web. Lo utilizamos con frecuencia de esta manera para revisar manualmente los errores de transcripción o las diferencias de errores entre dos reconocedores o versiones del reconocedor.

¿Cómo puedo probar Voicegain?

Si estás creando una aplicación que requiere transcripción, regístrate hoy para obtener una cuenta de desarrollador y obtén 50$ en créditos gratis (unos 5000 minutos de uso de la plataforma). Puedes comprobar nuestra precisión y probar nuestras API. Se proporcionan instrucciones para registrarse para obtener una cuenta de desarrollador aquí.

3. Si quieres hacer de Voicegain tu propio asistente de transcripción con IA, haz clic aquí. Puedes llevar Voicegain a reuniones, seminarios web, charlas, conferencias y mucho más.

Esperamos ponernos al día pronto

Todavía estamos en medio de un extenso esfuerzo de recopilación de datos y la capacitación aún no ha terminado. Estamos viendo una mejora continua en nuestro reconocedor, ya que las nuevas versiones mejoradas del modelo acústico se ponen en producción aproximadamente dos veces al mes. Dentro de unos meses publicaremos los resultados actualizados de los comparativos en nuestro blog.

Modelo acústico personalizado por el usuario

Tenemos planificada otra entrada de blog que cuantificará el beneficio que se puede esperar del uso de datos de usuario adicionales para entrenar el modelo acústico utilizado en el reconocedor. Hemos seleccionado un gran conjunto de datos con un acento inglés muy específico que actualmente tiene un WER más alto. Informaremos sobre el impacto en el WER de la formación con un conjunto de datos de este tipo. Cuantificaremos la mejora en función del tamaño del conjunto de datos y la duración de la formación.

Voicegain proporciona herramientas fáciles de usar que permiten a los usuarios crear sus propios modelos acústicos personalizados. Esta próxima publicación proporcionará una visión clara sobre las mejoras que se pueden esperar y la cantidad de datos que se necesitan para marcar la diferencia en la reducción del WER.

Referencias

El artículo de referencia original con la descripción del conjunto de datos.
Resultados detallados de los 44 archivos.
Precios de Google Speech-to-Text. Se factura en incrementos de 15 segundos.
Precios de Amazon Transcribe. Se factura en incrementos de un segundo, con un cargo mínimo por solicitud de 15 segundos
Precios de voz a texto de Microsoft. Y aquí están los relevantes Preguntas frecuentes.
Precios de Voicegain. Se factura en incrementos de 1 segundo.

Póngase en contacto con nosotros

Si tiene alguna pregunta sobre este artículo o nuestra plataforma y reconocedor, puede ponerse en contacto con nosotros en info@voicegain.ai

Casey

Transcribe