Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Entre las diversas API de conversión de voz a texto que proporciona Voicegain se encuentra una API de reconocimiento de voz que utiliza gramáticas y admite el reconocimiento continuo. Esta API es ideal para su uso en aplicaciones de selección por voz de almacén. Los sistemas de gestión de almacenes pueden integrar las API de Voicegain para ofrecer la selección por voz como parte de su conjunto de funciones.
Aquí tienes más detalles de esa API específica:
Además de eso, la plataforma Voicegain Speech-to-Text ofrece beneficios adicionales para las aplicaciones de selección de voz:
En conjunto, esto permite que su aplicación Voice Picking aprenda y mejore continuamente.
Nuestras API están disponibles en la nube, pero también se pueden alojar en Edge (in situ), lo que puede aumentar la confiabilidad y reducir las latencias, que ya son bajas.
Si quieres probar nuestra API y ver cómo encajarían en tus aplicaciones de almacén, puedes empezar con la aplicación web de ejemplo completamente funcional que hemos puesto a disposición en github: platforma/examples/comandos-gramática-aplicación web en master · voicegain/platform (github.com)
Si tiene alguna pregunta, envíenos un correo electrónico a Correo electrónico: info@voicegain.ai. También puedes registrarte para obtener una cuenta gratuita en la plataforma Voicegain a través de nuestra consola web en: https://console.voicegain.ai/signup
Nuestra última versión (1.24.0) amplía la API de transcripción y análisis de voz de Voicegain con la capacidad de redactar datos confidenciales tanto en la transcripción como en el audio. Esto permite a nuestros clientes cumplir con estándares como la HIPAA, GDPR, CCPA, PCI o PIPEDA.
Cualquiera de los siguientes tipos de entidades nombradas se puede redactar en el texto de la transcripción y/o en el archivo de audio.
En el audio se sustituyen por silencio y en la transcripción se sustituyen por una cadena especificada al realizar la solicitud a la API.
Esta función es compatible tanto en la nube como en Edge (local).
Dos casos de uso típicos son:
La semana pasada anunciamos que la función de conversión de voz a texto en español estaría disponible en Voicegain en marzo. Hoy nos complace anunciar que hemos podido completar el entrenamiento del modelo de redes neuronales en español antes de lo esperado y que la conversión de voz a texto en español se publicó el sábado pasado (20 de febrero) como parte de nuestra versión 1.24.0.
Hemos podido completar el trabajo en el modelo español de principio a fin en exactamente 3 semanas; empezamos a trabajar en él el 3 de febrero. Este progreso tan rápido ha sido posible gracias a nuestra amplia experiencia en la personalización de modelos de redes neuronales para el reconocimiento de voz y al hecho de que hemos desarrollado herramientas avanzadas y técnicas comprobadas que agilizan el desarrollo y el entrenamiento de los modelos de voz a texto.
La precisión del reconocimiento del modelo depende del tipo de audio de voz. En la mayoría de los archivos de referencia, la precisión de nuestro modelo español es solo un porcentaje inferior a la de los reconocedores de Google o Amazon. La ventaja de nuestro reconocedor es su precio significativamente más bajo y la posibilidad de entrenar modelos acústicos personalizados. Los modelos personalizados pueden tener una precisión superior a la de Amazon o Google. Le recomendamos que utilice nuestra consola web o nuestra API para probar el rendimiento real con sus propios datos. Por cierto, estamos enfocando este modelo de conversión de voz a texto en el español latinoamericano.
Por supuesto, la plataforma Voicegain también ofrece otras ventajas, como la compatibilidad con despliegues Edge (locales) y una amplia API con muchas opciones para la integración inmediata en, por ejemplo, entornos de telefonía.
Actualmente, la API Speech-to-Text es totalmente funcional con el modelo español. Algunas de las funciones de la API de análisis de voz aún no están disponibles para el español, por ejemplo, el reconocimiento de entidades nombradas o la detección de sentimentos/estados de ánimo.
Inicialmente, el modelo español solo está disponible en la versión que admite la transcripción fuera de línea. La versión en tiempo real del modelo estará disponible en un futuro próximo,
Para decirle a la API que quieres usar el modelo acústico español, todo lo que tienes que hacer es elegirlo en la configuración de contexto. Los modelos españoles tienen «es» en el nombre, por ejemplo, Voicegain-ol-es:1
La plataforma de conversión de voz a texto Voicegain ha admitido la transmisión RTP desde el principio. Una de nuestras primeras aplicaciones, hace varios años, fue la transcripción en directo con la utilidad ffmpeg, que se utilizaba para capturar audio de un dispositivo y transmitirlo a la plataforma Voicegain mediante RTP. Con el tiempo, añadimos protocolos más robustos y el RTP se utilizaba muy poco. Sin embargo, recientemente, en una de nuestras implementaciones, nos topamos con un caso práctico en el que la transmisión por RTP permitía a nuestro cliente realizar la integración de una manera muy sencilla dentro de una pila de telefonía de un centro de llamadas.
La plataforma Voicegain admite protocolos de transmisión más avanzados para uso en centros de llamadas, como SIPREC o SIP/RTP (SIP Invite). Sin embargo, en este uso en particular, pudimos transmitir desde Cisco CUBE directamente a Voicegain mediante un RTP simple. Al recibir una llamada entrante, se activa un script que usa HTTP para establecer una nueva sesión de transcripción de Voicegain. En la respuesta de la sesión, se devuelven los parámetros ip:port del receptor RTP específicos de la sesión y se pasan al CUBE para establecer una conexión RTP directa.
El RTP utilizado de esta manera no proporciona autenticación ni seguridad, lo que lo haría generalmente inadecuado para su uso a través de Internet. Sin embargo, en este caso de uso concreto, nuestro cliente se beneficia del hecho de que todo el conjunto de Voicegain se puede implementar localmente. Al estar en la misma red aislada que el CUBE, no hay problemas de seguridad ni de pérdida de paquetes.
Puedes visitar nuestro github para ver un ejemplo de código python que muestra cómo establecer la sesión de voz a texto, cómo dirigir el remitente del RTP al punto final del receptor y cómo recibir el resultado de la transcripción en tiempo real a través de un websocket.
El comando para establecer la sesión es tan simple como esto:
La sección de audio define la parte de transmisión de RTP y la sección websocket define cómo se enviarán los resultados a través de un websocket.
La respuesta tiene este aspecto:
En el ejemplo de github stream.ip y stream.port se pasan a ffmpeg, que se utiliza como cliente de streaming RTP. El ejemplo ilustra con más detalle cómo procesar los mensajes con resultados de transcripción incrementales enviados en tiempo real a través del websocket.
Voicegain ha lanzado su API Speech Analytics (SA) que admite una variedad de tareas de análisis realizadas en el audio o la transcripción de ese audio. Las funciones compatibles con la API de Voicegain SA se eligieron para nuestro caso de uso principal, que es el procesamiento de las llamadas al centro de llamadas.
La versión actual admite desconectado Análisis de voz. Los datos que se pueden obtener a través de la API de análisis de voz se enumeran a continuación.
Tenga en cuenta que aquí no incluimos elementos que también se puedan obtener de nuestra API de transcripción, como: la transcripción, los valores de decibelios, las zonas de audio, etc. Sin embargo, se podrá acceder a ellos desde la respuesta de la API de Speech Analytics.
Análisis por canal:
Análisis global:
En tiempo real Speech Analytics estará disponible en un futuro próximo. Pronto también planeamos lanzar la compatibilidad con tarjetas de puntuación para Speech Analytics.
Próximamente se publicarán análisis por canal:
Además, pronto apoyaremos Redacción de PII de cualquier entidad nombrada a partir de la transcripción o el audio.
La API Speech Analytics admite los siguientes tipos de entrada de audio:
Puedes ver la especificación de la API aquí.
En esta entrada del blog, presentamos una característica única de la plataforma de conversión de voz a texto Voicegain que combina de manera eficiente el uso de gramáticas con el uso de modelos de vocabulario extensos para brindar a los desarrolladores la capacidad de lograr una alta precisión de reconocimiento de una manera muy eficiente y conveniente.
Los sistemas de reconocimiento de voz (ASR) generalmente se pueden dividir en dos tipos:
Este tipo de reconocedor se usa generalmente para la transcripción cuando el vocabulario es muy amplio y la duración del audio de la voz es ilimitada (excepto por motivos prácticos, por ejemplo, límite relacionado con los recursos). A continuación se muestran los componentes típicos y los pasos de procesamiento de un sistema de este tipo:
El funcionamiento de un sistema de este tipo es el siguiente: (s) La señal de audio se procesa en características. (b) Las funciones se introducen en un procesador de modelo acústico. El procesador convierte los datos del ámbito acústico a texto/lingüístico o a algún otro ámbito intermedio (por ejemplo, incrustaciones de audio). Los valores de salida pueden ser fonemas, letras, fragmentos de palabras, incrustaciones de audio, etc., presentados como vectores de probabilidades. (c) Estos vectores se pasan luego al componente de búsqueda/optimización. La búsqueda utiliza el modelo lingüístico para decidir qué hipótesis formadas a partir del resultado de la etapa anterior tienen más probabilidades de ser la interpretación textual correcta del audio del discurso de entrada.
Los modelos lingüísticos utilizados pueden adoptar diversas formas. Dos de las muchas manifestaciones posibles son: (a) los modelos lingüísticos ARPA, que se basan en n gramas, y (b) los modelos lingüísticos de redes neuronales en los que una red neuronal (por ejemplo, RNN) es entrenada para representar un modelo lingüístico. Algunos de los modelos lingüísticos también pueden incorporar una parte descodificadora si la salida del modelo acústico está codificada (por ejemplo, si se representa mediante incrustaciones acústicas).
Debido a que el vocabulario de este tipo de reconocedores es amplio, son propensos a errores de reconocimiento. Este es particularmente el caso de los enunciados cortos que no proporcionan mucho contexto al modelo lingüístico como para restringir suficientemente las hipótesis. Un ejemplo sería reconocer erróneamente «tarjeta» como «coche» si esa es la única palabra que se dice y el hablante tiene un acento específico.
Las ofertas de conversión de voz a texto en la nube de los proveedores de Big Cloud (Google, Amazon y Microsoft) son ejemplos de ASR de vocabulario amplio.
En un sistema de este tipo, el desarrollador de Voice Bot/IVR utiliza una gramática libre de contexto para definir un conjunto de posibles expresiones que pueden reconocerse. Por lo general, las gramáticas se definen utilizando el estándar SRGS (especificación gramatical de reconocimiento de voz), ya sea en gramática ABNF o GRXML. Otros tipos de gramáticas que se utilizan son JSGF (formato gramatical de JSpeech) y GSL (que es el lenguaje de especificación gramatical de Nuance).
Los componentes y los pasos de procesamiento de un sistema de reconocimiento de voz típico que usa tales gramáticas se ilustran a continuación:
En este sistema, la evaluación de los resultados del procesamiento del modelo acústico se realiza mediante un optimizador de búsqueda/optimización que utiliza las reglas contenidas en la gramática para decidir qué hipótesis son aceptables. Solo se pueden generar los enunciados que se pueden generar a partir de la gramática.
Si se pronuncia una expresión fuera de la gramática y se presenta al reconocedor, es posible que aún se reconozca, pero con poca confianza. Si la confianza está por debajo de un umbral establecido, se devolverá un NOMATCH.
La desventaja obvia de usar un reconocedor de este tipo es que no reconocerá expresiones fuera del alcance de la gramática. Estas expresiones se denominan expresiones fuera de gramática. Sin embargo, una gran ventaja de este enfoque es que es menos propenso a ser reconocido erróneamente cuando una expresión que ya se ha dicho se ha anticipado y se incluye en la gramática.
Una ventaja adicional de usar un reconocedor basado en la gramática es que la mayoría de las gramáticas permiten la inserción de etiquetas semánticas, que permiten a la gramática no solo definir un enunciado, sino también la interpretación semántica de ese enunciado.
Ejemplos de este tipo de sistema de reconocimiento de voz basado en la gramática serían las ofertas de conversión de voz a texto, como Nuance ASR o Lumenvox ASR.
Es evidente que ambos tipos de sistemas de reconocimiento de voz tienen ventajas y desventajas. Por lo tanto, parece comprensible que una combinación de ambos pueda tener las ventajas de ambos y, al mismo tiempo, evitar algunos inconvenientes.
Un enfoque simple sería combinar dos sistemas de reconocimiento de voz diferentes. Sería necesario crear dos sesiones de reconocimiento de voz y dividir la transmisión de audio entrante para que cada sesión reciba una copia del audio entrante. Esas dos sesiones procesarían el audio por separado y generarían resultados separados que luego tendrían que combinarse. Esto se ilustra a continuación:
La configuración presentada anteriormente tiene varias desventajas:
La plataforma Voicegain proporciona un sistema de reconocimiento de voz que combina ambos tipos de reconocimiento de voz para aprovechar las ventajas de ambos. Nuestro sistema se ilustra en la siguiente figura:
En este sistema, el procesamiento hasta la salida del procesamiento del modelo acústico es esencialmente idéntico al procesamiento realizado en los sistemas representados en las dos primeras figuras de esta publicación. Sin embargo, tras este paso, Voicegain incluye un novedoso módulo de búsqueda/optimización que utiliza tanto la gramática como el modelo lingüístico de vocabulario extenso para generar los resultados finales del reconocimiento. La señalización final se realiza de manera similar a la de un reconocedor basado en gramática, ya que parece tener más sentido dado el caso de uso (pero esto se puede modificar). El resultado final del reconocimiento constará de los n mejores resultados del reconocimiento basado en la gramática, si la gramática coincidió, y una o más hipótesis del reconocimiento de vocabulario extenso.
El desarrollador de la aplicación puede tomar sus propias decisiones sobre cómo usar el resultado del reconocimiento. Por ejemplo, el valor de confianza se puede usar para determinar si el resultado basado en la gramática o el resultado del vocabulario extenso se debe usar en un punto determinado de la aplicación.
Con la versión 1.22.0 de Voicegain, esta función está disponible de forma general como parte de nuestra API de reconocimiento.
Un ejemplo de solicitud con nuestra API /asr/recognize/async tiene este aspecto:
Como puede ver, solo hay una definición para la transmisión de audio entrante. La sección de gramática de settings.asr contiene dos definiciones gramaticales:
Además de estar disponible en nuestras API STT y Telephone Bot, la interfaz MRCP admite el reconocimiento de vocabulario extenso y basado en gramática al mismo tiempo. Por ejemplo, desde VXML puedes pasar tanto la gramática GRXML como la gramática builtin:speech/transcribe y recibirás tanto el resultado de GRXML como el de vocabulario extenso.
Si está creando un asistente de voz inteligente, un bot de voz, una aplicación de voz IVR o cualquier otra aplicación que pueda beneficiarse de esta función, contacta con nosotros vía (correo electrónico) info@voicegain.ai) para entablar un debate más profundo.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?