Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
En esta publicación, mostramos en tres pasos lo que se necesita para ejecutar su primera transcripción con la API Voicegain.
Suponemos que ya se inscribió para la cuenta Voicegain y has iniciado sesión en portal.
La razón principal para crear un nuevo contexto es establecer un nuevo dominio de autenticación. El acceso a cada contexto se puede controlar por separado, por lo que es fácil deshabilitar el acceso a un determinado contexto sin afectar a otros contextos.
Los contextos también se utilizan para especificar la configuración ASR predeterminada.
Puedes crear un nuevo contexto desde el panel de contexto
Las API de Voicegain utilizan JWT (JSON Web Tokens) para identificar y autenticar la cuenta que realiza la solicitud. Para realizar solicitudes a la API, debes generar un JWT, lo que se puede hacer fácilmente desde el portal.
A continuación se muestra la entrada y la salida completas del comando curl que envía una solicitud de API web a la API sincrónica de voz a texto de Voicegain https://api.voicegain.ai/v1/asr/transcribe
En este caso, el audio que se va a transcribir se recuperó de una URL. Como alternativa, el audio también se puede enviar en línea (previa solicitud).
Tenga en cuenta que la transcripción sincrónica tiene un límite de duración de audio de 60 segundos. Un audio más largo requiere el uso de la API de transcripción asincrónica.
Para solicitudes de transcripción asíncronas, es posible transmitir el audio, por ejemplo, a través de websocket. Puedes consultar parte de la documentación de la API de Voicegain en: https://www.voicegain.ai/api
No se puede negar que los servicios disponibles en la nube tienen beneficios significativos y, por lo tanto, son una opción popular. Es por eso que la plataforma Voicegain Speech-to-Text está disponible tanto en la nube como en la periferia. Los principales beneficios de acceder a Voicegain como servicio en la nube son:
Antes de analizar los beneficios de Edge Deployment, definamos qué queremos decir con ello.
La computación perimetral para los servicios de conversión de voz a texto tiene muchas ventajas:
Puede que se pregunte: ¿qué pasa con los beneficios de la nube, mencionados anteriormente? ¿Puedo obtener algunos de estos con la implementación perimetral?
La respuesta es (con reservas) «sí», y específicamente:
Countryside Bible Church ha estado usando la plataforma VoiceGain para la transcripción en tiempo real desde septiembre de 2018 (cuando nuestra plataforma aún estaba en versión alfa).
En agosto de 2018, el personal de CBC se acercó a uno de nuestros empleados con una pregunta sobre un software que permitiría a una persona sorda seguir sermones en vivo mediante transcripción. Una de las miembros de CBC tiene problemas de audición y visión y no puede entender fácilmente el lenguaje de señas; sin embargo, puede leer fuentes grandes en la pantalla de un ordenador desde cerca.
En agosto, Voicegain acaba de iniciar las pruebas alfa de la plataforma, por lo que su respuesta fue que sí conocía ese software y que era Voicegain. En aquel momento, nuestras pruebas se centraban en los casos de uso del IVR, por lo que aún necesitábamos unas semanas para perfeccionar las API de transcripción y desarrollar una aplicación web que pudiera consumir el flujo de transcripciones (a través de websocket) y presentarlo como texto desplazable en un navegador.
Para mejorar el reconocimiento, utilizamos unas 200 horas de sermones previamente transcritos de CBC para adaptar nuestro modelo acústico de DNN. Además, creamos un modelo lingüístico específico del CBC, añadiendo un corpus de texto de varias traducciones de la Biblia, varios sermones transcritos, una lista de los nombres del personal del CBC, etc.
En lo que respecta al audio de entrada, inicialmente, estábamos transmitiendo audio utilizando un protocolo RTP estándar de la herramienta ffmpeg. Tuvimos algunos problemas con la fiabilidad del RTP sin procesar, así que más tarde cambiamos a un cliente Java personalizado que envía el audio mediante un protocolo propietario. El cliente se ejecuta como un daemon en un pequeño Dispositivo Raspberry Pi.
El equipo audiovisual de CBC lleva realizando transcripciones en tiempo real utilizando nuestra plataforma desde septiembre de 2018, prácticamente todos los domingos. Puedes ver un ejemplo de la transcripción en acción en el siguiente vídeo
Los planes actuales para el servicio de transcripción son integrarlo en el sitio web de CBC y ponerlo a disposición junto con la transmisión de vídeo. Esto permitirá a las personas con problemas de audición seguir los servicios en casa por streaming. Por ahora, el texto de la transcripción se presentará como un elemento de página web incrustado debajo del vídeo incorporado.
Como el vídeo transmitido tiene un retraso de más de 30 segundos en comparación con el tiempo real, enviaremos el audio simultáneamente a dos motores ASR, uno optimizado para la respuesta en tiempo real y otro optimizado para la precisión. Esto es fácil, porque la API web de Voicegain proporciona métodos que permiten conectar dos sesiones de ASR a una sola transmisión de audio. Cada sesión, a su vez, puede alimentar su propia transmisión de websocket. Al acceder a la transmisión de websocket adecuada, la interfaz de usuario web puede mostrar la transcripción en tiempo real o retrasada.
Debido a sus condiciones de uso, no podemos proporcionar resultados directos para ninguno de los principales motores de ASR, pero puede descargar el audio vinculado a continuación, así como las transcripciones exactas correspondientes y realizar pruebas de comparación en el reconocedor de su elección. Ten en cuenta que Voicegain ASR ignora la mayoría de las palabras duplicadas que aparecen en el audio, por lo que en la transcripción se eliminan esos duplicados.
El audio es propiedad de Countryside Bible Church y las transcripciones son propiedad de Voicegain.
1. El plan de Dios para la historia humana (Parte 2)
Tom Pennington | Daniel 2 | 2018-11-04 P. M.
55 minutos, 13 segundos, 7475 palabras
Audio Transcripción Salida VoiceGain
Precisión: 1,08% tasa de error de caracteres
Nota: La salida de Voicegain está formateada para que coincida con la transcripción. Normalmente, también incluye información de temporización. Esta salida específica se obtuvo el 30 de abril de 2019 con un reconocedor en tiempo real, que tiene una precisión ligeramente inferior en comparación con el reconocedor fuera de línea.
Puedes transmitir audio para la API de transcripción de Voicegain desde cualquier computadora, pero a veces es útil tener un dispositivo económico dedicado solo para esta tarea. A continuación, compartimos las experiencias de uno de nuestros clientes al usar una Raspbery Pi para transmitir audio y transcribirlo en tiempo real. Reemplazó a un Mac Mini que se usó inicialmente para ese propósito. El uso del Pi tenía dos ventajas: a) obviamente el coste, y b) es menos probable que el Mac Mini sea «secuestrado» para otros fines.
Voicegain Audio Streaming Daemon requiere muy pocos recursos informáticos, por lo que incluso en una Raspberry Pi Zero es suficiente; sin embargo, recomendamos usar Raspberry Pi 3 B+ principalmente porque tiene un puerto Ethernet cableado de 1 Gbps incorporado. Es más probable que las conexiones WiFi tengan problemas con la transmisión mediante el protocolo UDP.
Esta es una lista de todo el hardware utilizado en el proyecto (con los precios de Amazon (a partir de julio de 2019)):
Todos los componentes sumaron un total de 101,97 dólares. La razón por la que se incluyeron un minimonitor y un miniteclado es porque facilitan el control del dispositivo mientras está en el soporte de audio. Por ejemplo, el mezclador de audio Alsa se puede ajustar fácilmente de esta manera y, al mismo tiempo, monitorear el nivel del audio con auriculares.
Raspberry PI con AudioDaemon
El dispositivo funciona con Raspbian estándar, que se puede instalar fácilmente desde una imagen utilizando, por ejemplo, BalenaEtcher. Tras la instalación básica, se necesitó lo siguiente para que todo funcionara:
Estas son algunas de las lecciones aprendidas al usar esta configuración durante los últimos 6 meses:
El equipo detrás de VoiceGain tiene más de 12 años de experiencia en el uso del reconocimiento automático de voz en el mundo real, desarrollando y alojando sistemas IVR completos para grandes empresas.
Empezamos como Resolvity, Inc., en 2005. Creamos nuestra propia plataforma IVR Dialog, utilizando inteligencia artificial para guiar el diálogo y mejorar los resultados de reconocimiento de los motores ASR comerciales.
La plataforma Resolvity Dialog tenía algunos módulos avanzados de IA. Por ejemplo:
A partir de 2007, desarrollamos aplicaciones IVR completas para el servicio de atención al cliente y las alojamos en nuestros servidores de centros de datos. Creamos un equipo de soluciones al cliente que interactuaba con nuestros clientes para garantizar que las aplicaciones de IVR estuvieran siempre actualizadas, y un equipo de operaciones que se aseguraba de ejecutar los IVR las 24 horas del día, los 7 días de la semana, con SLA muy altos.
Resolvity Dialog Platform tenía un conjunto de herramientas disponibles que nos permitían analizar la precisión del reconocimiento de voz con gran detalle y también nos permitían ajustar varios parámetros de ASR (umbrales, gramáticas).
Además, dado que esa plataforma era independiente de los motores ASR, pudimos ver cómo funcionaban varios motores ASR de varias marcas en la vida real.
En 2012-2013, Resolvity creó una plataforma completa de PBX en la nube de bajo costo sobre la base de proyectos de código abierto. La lanzamos para el mercado de la India con la marca VoiceGain. La plataforma proporcionaba una funcionalidad completa de PBX+IVR de extremo a extremo.
La versión que utilizamos en prod solo admitía DTMF, pero también teníamos una versión ASR funcional. Sin embargo, en ese momento se creó con tecnologías ASR convencionales (GMM+HMM) y descubrimos que entrenarla para que utilizara nuevos idiomas presentaba algunos desafíos.
VoiceGain crecía muy rápido. Teníamos presencia en centros de datos en Bangalore y Bombay. Pudimos proporcionar números fijos y móviles a nuestros clientes de PBX+IVR. Con el tiempo, aunque nuestra tecnología estaba funcionando bastante bien, nos resultó caro gestionar un negocio muy práctico en la India desde los EE. UU. y vendimos nuestras operaciones en la India.
Cuando la combinación de desarrollos de hardware e inteligencia artificial hizo posible las redes neuronales profundas, decidimos empezar a trabajar en nuestro propio reconocedor de voz DNN, inicialmente con el objetivo de aumentar los resultados de los motores ASR que utilizábamos en nuestros IVR. Rápidamente nos dimos cuenta de que con nuestro nuevo ASR personalizado, que utilizábamos para las tareas de IVR, podíamos obtener mejores resultados que con los ASR comerciales. Pudimos confirmarlo realizando pruebas comparativas entre conjuntos de datos que contenían miles de ejemplos. La clave para lograr una mayor precisión era la capacidad de personalizar los modelos acústicos del ASR según el dominio de IVR y la población de usuarios específicos.
Los excelentes resultados con el reconocimiento aumentado nos llevaron a emprender un esfuerzo a gran escala para crear una plataforma ASR completa, nuevamente bajo la marca Voicegain (.ai), que permitiera una fácil personalización del modelo y fuera fácil de usar en aplicaciones de IVR.
Gracias a nuestra experiencia con el IVR, sabíamos que los usuarios de IVR de las grandes empresas (a) son muy sensibles al precio y (b) requieren un estricto cumplimiento de las normas de seguridad, por lo que desde el primer día también trabajamos para que la plataforma Voicegain se pueda implementar en Edge.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?