Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
En la última versión de Voicegain (1.16.0) hemos añadido una nueva opción a nuestra /asr/reconocer/asincrónico API para ASR/Speech-to-Text. Se llama ContinuousRecognition y, si está habilitada, modifica el comportamiento predeterminado del reconocimiento basado en la gramática.
Normalmente, cuando se usa la API /asr/recognize/async, el reconocedor volverá cuando la gramática coincida y el tiempo de espera completo caduque. Esto significa que solo es posible obtener un reconocimiento único en una solicitud de la API /asr/recognize/async. Si se detecta que no hay ninguna entrada o no coincide, el reconocimiento finalizará.
Sin embargo, a veces hay casos de uso que exigen que el reconocedor, por ejemplo, ignore todas las coincidencias que no coincidan hasta que se encuentre una coincidencia. Para eso está la opción ContinuousRecognition.
Con ContinuousRecognition, puedes controlar perfectamente cuáles de los 4 eventos (sin entrada, sin coincidencia, coincidencia y error) se devolverán en una devolución de llamada y qué evento (si lo hubiera) terminará el reconocimiento. Si no configuras ningún evento para que finalice el reconocimiento, la sesión de reconocimiento se puede detener cerrando la transmisión de audio o devolviendo stop:true desde la devolución de llamada.
Un ejemplo podría ser un caso de uso en el que se está reproduciendo un correo de voz para una persona que llama y, durante la reproducción, queremos interpretar los comandos de la persona que llama, como: detener, seguir, anterior, guardar, eliminar. Si usáramos el reconocimiento normal, nos encontraríamos con situaciones en las que no se entendería lo que se dice. Detener el reconocimiento cuando no coincide no tendría mucho sentido, ya que: (1) volver a preguntar podría estropear el flujo de la llamada, o (2) reiniciar el reconocimiento podría introducir una brecha en el reconocimiento que podría hacer que pasara por alto una parte de lo que dijo la persona que llama.
En un escenario como este, es mejor ignorar la falta de coincidencia y seguir escuchando, la persona que llama no notará ninguna respuesta a lo que dijo y, naturalmente, lo repetirá.
La configuración para el reconocimiento continuo que funcionaría en este caso sería:
El reconocimiento continuo es compatible con la integración de Voicegain para Transmisiones multimedia de Twilio - ya sea en TwiML <Stream>o <Connect><Stream>en Twilio Programmable Voice
Aún no es compatible con las API de Voicegain Telephony Bot.
Muchos de nuestros clientes nos han pedido ayuda para comparar el reconocedor de voz a texto (ASR) Voicegain en sus archivos de audio específicos. Para facilitar esta evaluación comparativa, hemos publicado un script de Python que logra precisamente eso. Con una sola línea de comandos, puede transcribir todos los archivos de audio del directorio de entrada y compararlos con las transcripciones de referencia, calculando el WER de cada archivo. También puedes hacer una comparación bidireccional entre la transcripción de referencia y la transcripción de Voicegain y la transcripción de Google Speech-to-Text.
El guion y la documentación están disponibles en: https://github.com/voicegain/platform/tree/master/utility-scripts/test-transcribe
Ver nuestra publicación de blog de referencia para darte una idea del tipo de precisión que puedes esperar del reconocedor Voicegain.
Actualizado el 28 de febrero de 2022
En esta entrada de blog, describimos dos estudios de casos para ilustrar las mejoras en la precisión del reconocimiento de voz a texto o ASR que se pueden esperar del entrenamiento de los modelos acústicos subyacentes. Entrenamos nuestro modelo acústico para que reconociera mejor el inglés indio e irlandés.
El modelo acústico Voicegain listo para usar, que está disponible de forma predeterminada en la plataforma Voicegain, fue entrenado para reconocer principalmente el inglés estadounidense, aunque nuestro conjunto de datos de entrenamiento contenía algo de audio en inglés británico. Los datos de entrenamiento no contenían el inglés indio ni el irlandés, excepto quizás en casos fortuitos.
Ambos estudios de caso se realizaron de manera idéntica:
Estos son los parámetros de este estudio.
Estos son los resultados del punto de referencia antes y después del entrenamiento. A modo de comparación, también incluimos los resultados de Google Enhanced Speech-to-Text.
Algunas observaciones:
Estos son los parámetros de este estudio.
Estos son los resultados del punto de referencia antes y después del entrenamiento. También incluimos los resultados de Google Enhanced Speech-to-Text.
Algunas observaciones:
Hemos publicado 2 estudios adicionales que muestran los beneficios del entrenamiento con modelos acústicos:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
En nuestro post anterior describimos cómo Voicegain proporciona un reconocimiento de voz basado en la gramática a la plataforma de voz programable Twilio a través del Transmisión multimedia de Twilio Característica.
A partir de versión 1.16.0 <Gather>de la plataforma y API Voicegain, es posible usar Voicegain de voz a texto para la transcripción de voz (sin gramáticas) para lograr funciones como el uso de TWiML.
Las razones por las que creemos que será atractivo para los usuarios de Twilio son:
El uso de Voicegain como alternativa a <Gather>tendrá pasos similares a los de usar Voicegain para el reconocimiento basado en la gramática; estos pasos se enumeran a continuación.
Esto se hace invocando la API de transcripción asíncrona de Voicegain: /asr/transcribir/asincrónico
A continuación se muestra un ejemplo de la carga útil necesaria para iniciar una nueva sesión de transcripción:
Algunas notas sobre el contenido de la solicitud:
Esta solicitud, si se realiza correctamente, devolverá la URL del websocket en el campo audio.stream.websocketURL. Este valor se utilizará para realizar una solicitud de TWiML.
Tenga en cuenta que, en el modo de transcripción, la detección de DTMF no es posible actualmente. Háganos saber si esto es algo que sería fundamental para su caso de uso.
Tras iniciar una sesión de Voicegain ASR, podemos decirle a Twilio que abra la conexión de Media Streams con Voicegain. Esto se hace mediante la siguiente solicitud de TWiML:
Algunas notas sobre el contenido de la solicitud de TWiML:
A continuación se muestra un ejemplo de respuesta de la transcripción en el caso de que «content»: {"full»: ["transcript"]}.
Queremos compartir un breve vídeo que muestra la transcripción en directo en acción en CBC. Este utiliza nuestro modelo acústico de referencia. No se realizó ninguna personalización ni se utilizaron sugerencias. Este vídeo da una idea de la latencia que se puede lograr con la transcripción en tiempo real.
La transcripción automatizada en tiempo real es una excelente solución para personas con problemas de audición si no hay un intérprete de lenguaje de señas disponible. Se puede usar, por ejemplo, en iglesias para transcribir sermones, en convenciones y reuniones para transcribir charlas, en instituciones educativas (escuelas, universidades) para transcribir lecciones y conferencias en vivo, etc.
La plataforma Voicegain ofrece un paquete completo para admitir la transcripción en vivo:
Se puede lograr una precisión muy alta, superior a la proporcionada por Google, Amazon y Microsoft Cloud de voz a texto, mediante Personalización del modelo acústico.
Voicegain añade el reconocimiento de voz basado en la gramática a la plataforma de voz programable Twilio a través del Transmisión multimedia de Twilio Característica.
La diferencia entre el reconocimiento de voz Voicegain y Twilio Twiml <Gather> es:
Cuando utilices Voicegain con Twilio, la lógica de tu aplicación tendrá que gestionar las solicitudes de devolución de llamadas tanto de Twilio como de Voicegain.
Cada reconocimiento implicará dos pasos principales que se describen a continuación:
Esto se hace invocando la API de reconocimiento asíncrono de Voicegain: /asr/recognize/async
A continuación se muestra un ejemplo de la carga útil necesaria para iniciar una nueva sesión de reconocimiento:
Algunas notas sobre el contenido de la solicitud:
Esta solicitud, si se realiza correctamente, devolverá la URL del websocket en el campo audio.stream.websocketURL. Este valor se utilizará para realizar una solicitud de TWiML.
Tenga en cuenta que si la gramática se especifica para reconocer el DTMF, el reconocedor Voicegain reconocerá las señales DTMF incluidas en el audio enviado desde la plataforma Twilio.
Tras iniciar una sesión de Voicegain ASR, podemos decirle a Twilio que abra la conexión de Media Streams con Voicegain. Esto se hace mediante la siguiente solicitud de TWiML:
Algunas notas sobre el contenido de la solicitud de TWiML:
A continuación se muestra un ejemplo de respuesta del reconocimiento. Esta respuesta proviene de la gramática telefónica integrada.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?