Punto de referencia

Revisión del punto de referencia de precisión de voz a texto

Algunos de los comentarios que recibimos sobre los datos de referencia publicados anteriormente, consulte aquí y aquí, se refería al hecho de que el Conjunto de datos de Jason Kincaid contenía algo de audio que producía un WER terrible en todos los reconocedores y, en la práctica, nadie utilizaría el reconocimiento de voz automático en esos archivos. Eso es cierto. En nuestra opinión, hay muy pocos casos de uso en los que un WER inferior al 20%, es decir, en los que una media de 1 de cada 5 palabras se reconoce incorrectamente, sea aceptable.

Nueva metodología

Lo que hemos hecho para esta entrada de blog es eliminar del conjunto denunciado aquellos archivos de referencia para los que ninguno de los reconocedores probados podía ofrecer un WER del 20% o menos. Como resultado de este criterio, se eliminaron 10 archivos: 9 del conjunto de 44 de Jason Kincaid y 1 archivo del conjunto de 20 de rev.ai. Los archivos eliminados se dividen en 3 categorías:

  • grabaciones de reuniones: 4 archivos (esto equivale a la mitad de las grabaciones de reuniones del conjunto original),
  • conversaciones telefónicas: 4 archivos (4 de las 11 conversaciones telefónicas del conjunto original),
  • podcasts con varios presentadores y muy animados: 2 archivos (había muchos otros podcasts en el set que sí alcanzaron el límite).

Los resultados

Como puede ver, los reconocedores de Voicegain y Amazon coinciden de manera muy uniforme, con un WER promedio que difiere solo en un 0,02%, lo mismo ocurre con los reconocedores de Google Enhanced y Microsoft, con una diferencia de WER de solo el 0,04%. El WER de Google Standard es aproximadamente el doble que el de los demás reconocedores.

Ganancia de voz: La IA de voz bajo tu control

Ganancia de voz: Cree aplicaciones de IA de voz con nuestras API de NLU de voz a texto y LLM. Graba y transcribe reuniones, llamadas a centros de atención al cliente, vídeos, etc. Obtén resúmenes, opiniones y mucho más basados en LLM. Cree bots de voz conversacionales que se integren con su plataforma CCaaS local o en la nube. Comience hoy mismo.

Descubre cómo funciona Voicegain — obtén una demostración de Voicegain hoy mismo.

Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control