Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Toda la plataforma Voicegain Speech-to-Text/ASR y todos los productos asociados, que van desde las API Web Speech-to-Text (STT), las API de análisis de voz, las API de Telephony Bot y el motor MRCP ASR y nuestro marco de registro y monitoreo, se pueden implementar en «Edge».
Con «Edge» queremos decir que los principales modelos de IA basados en redes neuronales profundas que convierten la voz y el audio en texto se ejecutan exclusivamente en hardware implementado en un centro de datos de un cliente. O bien, tras este anuncio, también pueden ejecutarse en una instancia informática en una nube privada virtual. En cualquier caso, la plataforma Voicegain se «organiza» mediante la consola Voicegain, que es una aplicación web que se implementa en la nube Voicegain.
En Edge, la plataforma Voicegain se implementa como un contenedor en un clúster de Kubernetes. También se puede acceder a Voicegain como un servicio en la nube si los clientes no desean administrar el hardware del servidor ni las instancias de computación de VPC.
La plataforma Voicegain siempre se ha podido implementar de forma sencilla y automatizada en el hardware de un centro de datos. Nuestros clientes adquieren servidores basados en Intel Xeon compatibles con GPU basadas en Nvidia. Además, pueden instalar toda la plataforma Voicegain con unos pocos clics desde el Cloud Portal (consulte estos vídeos para demostración).
Puede leer sobre las ventajas de este tipo de implementación perimetral de centro de datos en nuestra página anterior entrada de blog. En resumen, estas ventajas son:
Ahora, estos beneficios también estarán disponibles para los clientes empresariales que utilizan una nube privada virtual en AWS para ejecutar una parte de sus cargas de trabajo empresariales.
Muchas empresas han migrado varias cargas de trabajo empresariales a la infraestructura de nube de AWS para beneficiarse de la escalabilidad, la flexibilidad y la facilidad de mantenimiento. Al trasladar estas cargas de trabajo a la nube, estas empresas prefieren en gran medida las ofertas de nube privada de AWS, por ejemplo, mediante el aislamiento de red mediante VPC, la VPN de sitio a sitio y las instancias informáticas dedicadas. Para estas empresas, lo ideal es que cualquier carga de trabajo nueva pueda ejecutarse dentro de su VPC de AWS. En particular, si una empresa ya cuenta con instancias o hosts informáticos de AWS dedicados, podría darse cuenta todo de las 4 ventajas anteriores de Edge Deployment al implementarse en su infraestructura de AWS dedicada.
Recientemente, anticipando el interés de algunos de nuestros clientes, hemos realizado pruebas exhaustivas de implementación completa de nuestra plataforma en AWS. Como la plataforma Voicegain está basada en Kubernetes, básicamente solo hay dos diferencias con respecto a la implementación en hardware local local:
De lo contrario, el núcleo del proceso de implementación es prácticamente idéntico entre el hardware local y la VPC de AWS.
Puede leer los detalles relacionados en el Proceso de implementación de AWS en la página github de Voicegain.
Si eres un desarrollador que está creando algo que requiere añadir o integrar funciones de conversión de voz a texto (transcripción, Voice Bot o Speech Analytics en los centros de contacto, análisis de reuniones o llamadas de ventas, etc.), te invitamos a probar Voicegain. Puedes empezar por registrarse para obtener una cuenta de desarrollador y usa nuestra capa gratuita. También puedes enviarnos un correo electrónico a info@voicegain.ai.
Esta entrada del blog describe cómo los desarrolladores de SignalWire deben integrar Voicegain Speech-to-Text/ASR en función de la aplicación que están creando.
Voicegain ofrece una altamente preciso Opción de conversión de voz a texto/ASR en SignalWire. Voicegain es muy con precios disruptivos y una de las principales ventajas es que permite a los desarrolladores personalizar los modelos acústicos subyacentes para lograr una precisión muy alta para acentos específicos o verticales de la industria.
Los desarrolladores de SignalWire pueden bifurcar el audio a Voicegain mediante el <Stream>instrucción en LAML. La <Stream>instrucción permite enviar transmisiones de audio sin procesar desde una llamada telefónica en curso a través de WebSockets casi en tiempo real, a una URL específica.
Los desarrolladores que solo deseen obtener el texto o la transcripción sin procesar pueden usar la API Voicegain STT para obtener la transcripción en tiempo real del audio transmitido desde SignalWire.
Para los desarrolladores que necesitan etiquetas de NLU como sentimiento, entidades nombradas, intenciones y palabras clave además de la transcripción, la API Speech Analytics de Voicegain proporciona esas métricas además de la transcripción.
Las aplicaciones de transcripción y análisis de voz en tiempo real incluyen la asistencia de agentes en tiempo real en los centros de contacto, la extracción de información para las llamadas de ventas realizadas por telefonía y el análisis de reuniones.
Si desea crear un Voice Bot o una aplicación de voz IVR de diálogo dirigido que gestione las llamadas que llegan a través de SignalWire, le sugerimos que utilice Voicegain. API de bots de telefonía. Se trata de una API de devolución de llamadas web similar a LaML y contiene instrucciones o comandos especialmente útiles para crear IVR o bots de voz. Esta API gestiona la conversión de voz a texto, los dígitos DTMF y también reproduce las indicaciones (en TTS, pregrabadas o una combinación).
Las llamadas se transfieren desde SignalWire a un terminal SIP proporcionado por Voicegain (basado en FreeSwitch) mediante un simple SIP INVITE.
La API Voicegain Telephony Bot le permite crear dos tipos de aplicaciones:
Si tu aplicación solo tiene una necesidad limitada de reconocimiento de voz, puedes invocar la API Voicegain STT solo cuando sea necesario. Cada vez que necesites el reconocimiento de voz en tu aplicación, solo tienes que iniciar una nueva sesión de ASR con Voicegain o en transcribir (transcripción de vocabulario extenso) o reconocer modo (reconocimiento basado en gramática). <stream>Puede usar el comando LAML
Un ejemplo de aplicación que podría ser una aplicación de dictado o recuperación de correo de voz controlada por voz en la que la API de reconocimiento de Voicegain se utiliza en modo continuo y escucha comandos como reproducir, detener, seguir, etc.
Además de SignalWire, Voicegain también ofrece integraciones con FreeSwitch mediante el complemento mrcp y un módulo independiente para la transcripción en tiempo real.
Si es desarrollador de SignalWire y desea crear una aplicación que requiera conversión de voz a texto/ASR, puede regístrate para obtener una cuenta de desarrollador utilizando las instrucciones que se proporcionan aquí.
Esta entrada de blog describirá 4 formas en las que puede usar Telnyx con la plataforma Speech-to-Text/ASR basada en la red neuronal profunda de Voicegain.
Para los desarrolladores que buscan obtener el texto o la transcripción sin procesar, la API Voicegain STT admite la transcripción en tiempo real del audio transmitido desde Telnyx.
Para las aplicaciones de IA conversacional que necesitan etiquetas de NLU como sentimientos, entidades nombradas, intenciones y palabras clave en el audio enviado, la API de análisis de voz en tiempo real de Voicegain proporciona esas métricas además de la transcripción.
Si bien tanto la API STT como la API Speech Analytics admiten varios métodos para transmitir audio, Voicegain recomienda la transmisión RTP como método principal con Telnyx. Los desarrolladores pueden transmitir RTP de 1 o 2 canales (los dos canales están unidos, lo cual es importante para algunas funciones de Speech Analytics).
Puedes usar la API de control de llamadas de Telnyx para bifurcar el audio de la llamada y enviarlo a Voicegain. La API de control de llamadas te permite enviar audio entrante (rx) o saliente (tx) o ambos. Esto se hace mediante el fork_start comando. Puedes encontrar un ejemplo completo de un código necesario para la transcripción en tiempo real de una llamada aquí: platform/examples/telnyx/call_control_fork_of_bridged_call at master · voicegain/platform (github.com)
Las aplicaciones de transcripción y análisis de voz en tiempo real incluyen la asistencia de agentes en tiempo real en los centros de contacto, la extracción de información para las llamadas de ventas realizadas por telefonía y el análisis de reuniones.
Si desea crear un Voice Bot o una aplicación de IVR que gestione las llamadas que llegan a través de Telnyx, le sugerimos que utilice Voicegain. API de bots de telefonía - se trata de una API de devolución de llamadas similar en estilo a la TwiML de Twilio. Esta API gestiona la conversión de voz a texto, los dígitos DTMF y también reproduce las indicaciones (TTS, pregrabadas o una combinación).
Sus llamadas se transfieren de Telnyx a Voicegain mediante un simple SIP INVITE. El SIP INVITE se realiza mediante Telnyx Call Control Dial comando. Puedes encontrar un ejemplo completo de cómo hacerlo aquí: platform/telnyx-dial-outbound-lambda.py at master · voicegain/platform (github.com)
La API Voicegain Telephony Bot le permite crear dos tipos de aplicaciones:
Si tu aplicación solo tiene una necesidad limitada de reconocimiento de voz, puedes invocar la API Voicegain STT solo cuando sea necesario. Cada vez que necesites el reconocimiento de voz, solo tienes que iniciar una nueva sesión de ASR con Voicegain, ya sea en transcribir (transcripción de vocabulario extenso) o reconocer modo (reconocimiento basado en gramática). La sesión devolverá un ip:port de RTP al que podrá acceder horquilla tu audio Telnyx. Puedes recibir los resultados de conversión de voz a texto a través de un websocket o mediante una llamada. Cuando termines con la sesión de transcripción/reconocimiento, detienes la bifurcación de audio de Telnyx.
Un ejemplo de aplicación que podría crearse de esa manera es una aplicación de recuperación de correo de voz controlada por voz en la que la API de reconocimiento de Voicegain se usa en modo continuo y escucha comandos como reproducir, detener, seguir, etc.
Por último, puedes usar la API Voicegain Long-Session (cuyo lanzamiento está previsto para finales de 2021). Esta API te permite establecer una sesión única y larga que reciba una transmisión continua de audio entrante desde Telnyx (mediante el comando fork). Una vez establecida la sesión, puede emitir comandos para la transcripción o el reconocimiento. Devolverían los resultados al encontrar un punto final de voz o cuando los detuvieras de forma explícita. Tras procesar los resultados, puedes emitir comandos adicionales en la misma sesión de Voicegain.
Además de mostrar los resultados del reconocimiento, la API STT de sesión larga muestra eventos importantes, como, por ejemplo, el inicio de la voz, que le permite implementar un comportamiento de irrumpir adecuado.
Con esta API, puede crear su propio Voice Bot al igual que los Voice Bots de #2, pero podría tener más control sobre su sesión de Telnyx, por ejemplo, podría usar comandos de conferencia.
Esta publicación es la primera de una serie de publicaciones que comparan el rendimiento de Voicegain Speech Analytics con el de Google y Amazon. Esta publicación compara las capacidades y la precisión del reconocimiento/extracción de entidades nombradas. Las API de Google utilizadas para la comparación fueron las siguientes Lenguaje natural en la nube y las API de Amazon estaban en AWS Comprehend.
El reconocimiento de entidades nombradas (NER) o la extracción de entidades nombradas es una de las características del API de análisis de voz Voicegain. El reconocimiento de entidades nombradas localiza y clasifica las entidades nombradas en texto no estructurado que se puede obtener, por ejemplo, de la transcripción de los archivos de audio. Aunque hay muchas coincidencias entre Google, Amazon y Voicegain con respecto a las categorías de clasificación, también hay algunas diferencias importantes que se resumen a continuación.
La hoja de cálculo completa está enlazada aquí muestra las entidades con nombre extraídas por la API de análisis de voz de Voicegain y las compara con las categorías de entidades con nombre disponibles en las API de Google y Amazon Comprehend. Amazon tiene dos API NER: Entity y PII Entity.
Si observa la hoja de cálculo, verá que la API de entidades que no son PII de Amazon ofrece poca granularidad en las categorías de entidades nombradas. Por ejemplo, agrupa muchas entidades con nombres numéricos en una sola categoría QUANTITY. Agrupa las fechas y la hora (del día) en una sola categoría, FECHA. Por otro lado, la API de entidades de PII tiene muchos elementos relacionados con categorías finas, normalmente redactados por la PII, pero omite muchas otras categorías de entidades comunes.
La API de Google parece cubrir las categorías habituales, pero omite algunas entidades utilizadas en la aplicación de centro de llamadas, por ejemplo, CC, SNN, EMAIL>
Una categoría que Voicegain no admite es OTRA. Esta categoría, que está disponible en Google y Amazon, requiere una lógica de aplicación adicional para interpretar la cadena con la que coincide.
Hemos probado las 4 API en un conjunto de llamadas a centros de llamadas.
Los resultados generales muestran que Voicegain y Amazon Non-PII PAI detectan entidades con nombres similares (con la salvedad de que las categorías de Amazon NER son menos específicas). En comparación con estas dos, la API NER de Google omite más entidades, pero también marca muchas palabras adicionales que pertenecen a otras categorías (lo que, por lo general, no es muy útil, al menos no cuando se analizan las llamadas a los centros de llamadas).
Al analizar las entidades de PII de Amazon, observamos que:
Cuando Voicegain tiene una categoría de entidad coincidente para la entidad de PII de AWS, su rendimiento es igual o mejor. Como puede ver, es difícil resumir los resultados porque las entidades no son directamente comparables. Si desea saber cómo funcionará Voicegain NER con sus datos, le sugerimos que pruebe la API de análisis de voz de Voicegain, que incluye la detección de NER, la detección de palabras clave y frases, el análisis de opiniones, etc.
Para realizar las pruebas, tiene dos opciones:
La API Voicegain Telephony Bot permite a los desarrolladores usar Voicegain Speech-to-Text para crear bots de voz o un IVR de voz programable mediante una sencilla API de devolución de llamadas. Con la última versión 1.21.0 de la plataforma Voicegain, ahora es posible establecer sesiones SIP en la API Voicegain Telephony Bot mediante una sencilla Invitación SIP.
Antes de la versión 1.21.0, la única forma en que los desarrolladores de aplicaciones de voz podían usar la API Voicegain Telephony Bot era llamar a la aplicación mediante números de teléfono comprados en Voicegain (a través de la consola web). Sin embargo, siempre hemos querido permitir a los clientes traer su propia plataforma de telefonía móvil o CPaaS, y esta versión permite a los desarrolladores hacer precisamente eso.
En Voicegain nos centramos en ofrecer nuestra funcionalidad de reconocimiento de voz y ASR y nuestras API de conversión de voz a texto con todas las funciones. Entendemos que los desarrolladores confían en sus plataformas CPaaS para una gran cantidad de funciones importantes: mensajería, correos electrónicos, conferencias y cobertura internacional. Ahora es posible integrar la API Voicegain Telephony Bot con cualquier CPaaS compatible con SIP Invite. Puedes combinar las potentes y asequibles funciones de reconocimiento de voz de la plataforma Voicegain con las completas funciones de API de estas plataformas de CPaaS
Ya hemos probado ampliamente SIP Invite en Twilio, Cable de señal, y Telnyx plataformas. Otras plataformas similares también deberían funcionar sin problemas. Informaremos sobre cualquier plataforma adicional que hayamos probado explícitamente en el futuro.
En las plataformas Twilio y SignalWire es trivial establecer una sesión SIP a Voicegain. Lo único que se necesita es el <Dial><Sip>comando de TWiML o LaML, por ejemplo:
Algunas notas sobre el ejemplo anterior:
En nuestro github puedes encontrar un ejemplo de código que muestra cómo marcar una llamada saliente y luego conectarla a Voicegain SIP:
En Telnyx probamos SIP INVITE con la API de control de llamadas de Telnyx. La única diferencia funcional con respecto a Twilio y SignalWire es que en Telnyx no se puede elegir TCP como transporte SIP (solo se admite UDP).
Este es un ejemplo de código Python que muestra cómo marcar Voicegain SIP:
El código completo de una función de AWS Lambda que marca un número con Telnyx y, a continuación, lo conecta a Voicegain SIP está disponible aquí: platform/telnyx-dial-outbound-lambda.py at master · voicegain/platform (github.com)
Nuestra API de bots de telefonía es una API de devolución de llamadas similar a TWiML o LamL. La principal diferencia es que se basa en JSON y nuestra funcionalidad se centra en el reconocimiento de voz. Puedes obtener más información al respecto en nuestra entrada de blog anunciando el lanzamiento de esa API en agosto.
En nuestro Github, puede encontrar un ejemplo de una función de Node.js en AWS Lambda que muestra cómo interconectar la API Voicegain Telephony Bot con un bot RASA NLU: platform/examples/voicebot-lambda-vg-rasa at master · voicegain/platform (github.com)
También puede consultar nuestro ejemplo de código de función de Python en AWS Lambda, que muestra cómo implementar IVR más tradicionales (similares a VoiceXML) con el uso de gramáticas de voz además de nuestra API de bots de telefonía: platform/declarative-ivr at master · voicegain/platform (github.com)
Estos son todos los pasos necesarios para crear una cuenta de desarrollador en la plataforma Voicegain. Una vez que tengas la cuenta, podrás acceder a la consola web y encontrar toda la información sobre cómo usar la consola web y las API en nuestro Base de conocimientos de Zendesk .
1. Empieza en console.voicegain.ai/registro
2. Introduzca su nombre y correo electrónico. Si lo desea, puede consultar los Términos de servicio y/o la Política de privacidad.
3. En la página siguiente, cuéntanos cómo te enteraste de Voicegain, cómo quieres usar Voicegain y aceptas los Términos de servicio.
5. Tras hacer clic en Siguiente, Voicegain te enviará un correo electrónico con el enlace al siguiente paso. Si no recibes el correo electrónico, comprueba la carpeta de correo no deseado y, si no está ahí, sigue las instrucciones de la página que se muestra a continuación.
6. Una vez que reciba el correo electrónico, haga clic en el botón Establecer contraseña.
7. Se te dirigirá a una página web donde puedes configurar tu contraseña de Voicegain.
8. Tras hacer clic en (Restablecer) la contraseña, accederá a la página de inicio de sesión donde podrá introducir sus credenciales de inicio de sesión.
9. En la página siguiente, haz clic en el icono de la flecha hacia la derecha situado junto a «Cloud Web Console»
10. Esto lo llevará a la página de inicio de la consola web Voicegain. Puedes seguir el minitutorial que está disponible en la página de inicio.
11. Los artículos de ayuda están disponibles bajo el signo de interrogación (?) menú. Allí también encontrará nuestro enlace de soporte del servicio de asistencia. Tenga en cuenta que algunos de los artículos de soporte están disponibles solo para usuarios que hayan iniciado sesión, mientras que otros son públicos.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?