Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Voicegain ha lanzado su API Speech Analytics (SA) que admite una variedad de tareas de análisis realizadas en el audio o la transcripción de ese audio. Las funciones compatibles con la API de Voicegain SA se eligieron para nuestro caso de uso principal, que es el procesamiento de las llamadas al centro de llamadas.
La versión actual admite desconectado Análisis de voz. Los datos que se pueden obtener a través de la API de análisis de voz se enumeran a continuación.
Tenga en cuenta que aquí no incluimos elementos que también se puedan obtener de nuestra API de transcripción, como: la transcripción, los valores de decibelios, las zonas de audio, etc. Sin embargo, se podrá acceder a ellos desde la respuesta de la API de Speech Analytics.
Análisis por canal:
Análisis global:
En tiempo real Speech Analytics estará disponible en un futuro próximo. Pronto también planeamos lanzar la compatibilidad con tarjetas de puntuación para Speech Analytics.
Próximamente se publicarán análisis por canal:
Además, pronto apoyaremos Redacción de PII de cualquier entidad nombrada a partir de la transcripción o el audio.
La API Speech Analytics admite los siguientes tipos de entrada de audio:
Puedes ver la especificación de la API aquí.
En esta entrada del blog, presentamos una característica única de la plataforma de conversión de voz a texto Voicegain que combina de manera eficiente el uso de gramáticas con el uso de modelos de vocabulario extensos para brindar a los desarrolladores la capacidad de lograr una alta precisión de reconocimiento de una manera muy eficiente y conveniente.
Los sistemas de reconocimiento de voz (ASR) generalmente se pueden dividir en dos tipos:
Este tipo de reconocedor se usa generalmente para la transcripción cuando el vocabulario es muy amplio y la duración del audio de la voz es ilimitada (excepto por motivos prácticos, por ejemplo, límite relacionado con los recursos). A continuación se muestran los componentes típicos y los pasos de procesamiento de un sistema de este tipo:
El funcionamiento de un sistema de este tipo es el siguiente: (s) La señal de audio se procesa en características. (b) Las funciones se introducen en un procesador de modelo acústico. El procesador convierte los datos del ámbito acústico a texto/lingüístico o a algún otro ámbito intermedio (por ejemplo, incrustaciones de audio). Los valores de salida pueden ser fonemas, letras, fragmentos de palabras, incrustaciones de audio, etc., presentados como vectores de probabilidades. (c) Estos vectores se pasan luego al componente de búsqueda/optimización. La búsqueda utiliza el modelo lingüístico para decidir qué hipótesis formadas a partir del resultado de la etapa anterior tienen más probabilidades de ser la interpretación textual correcta del audio del discurso de entrada.
Los modelos lingüísticos utilizados pueden adoptar diversas formas. Dos de las muchas manifestaciones posibles son: (a) los modelos lingüísticos ARPA, que se basan en n gramas, y (b) los modelos lingüísticos de redes neuronales en los que una red neuronal (por ejemplo, RNN) es entrenada para representar un modelo lingüístico. Algunos de los modelos lingüísticos también pueden incorporar una parte descodificadora si la salida del modelo acústico está codificada (por ejemplo, si se representa mediante incrustaciones acústicas).
Debido a que el vocabulario de este tipo de reconocedores es amplio, son propensos a errores de reconocimiento. Este es particularmente el caso de los enunciados cortos que no proporcionan mucho contexto al modelo lingüístico como para restringir suficientemente las hipótesis. Un ejemplo sería reconocer erróneamente «tarjeta» como «coche» si esa es la única palabra que se dice y el hablante tiene un acento específico.
Las ofertas de conversión de voz a texto en la nube de los proveedores de Big Cloud (Google, Amazon y Microsoft) son ejemplos de ASR de vocabulario amplio.
En un sistema de este tipo, el desarrollador de Voice Bot/IVR utiliza una gramática libre de contexto para definir un conjunto de posibles expresiones que pueden reconocerse. Por lo general, las gramáticas se definen utilizando el estándar SRGS (especificación gramatical de reconocimiento de voz), ya sea en gramática ABNF o GRXML. Otros tipos de gramáticas que se utilizan son JSGF (formato gramatical de JSpeech) y GSL (que es el lenguaje de especificación gramatical de Nuance).
Los componentes y los pasos de procesamiento de un sistema de reconocimiento de voz típico que usa tales gramáticas se ilustran a continuación:
En este sistema, la evaluación de los resultados del procesamiento del modelo acústico se realiza mediante un optimizador de búsqueda/optimización que utiliza las reglas contenidas en la gramática para decidir qué hipótesis son aceptables. Solo se pueden generar los enunciados que se pueden generar a partir de la gramática.
Si se pronuncia una expresión fuera de la gramática y se presenta al reconocedor, es posible que aún se reconozca, pero con poca confianza. Si la confianza está por debajo de un umbral establecido, se devolverá un NOMATCH.
La desventaja obvia de usar un reconocedor de este tipo es que no reconocerá expresiones fuera del alcance de la gramática. Estas expresiones se denominan expresiones fuera de gramática. Sin embargo, una gran ventaja de este enfoque es que es menos propenso a ser reconocido erróneamente cuando una expresión que ya se ha dicho se ha anticipado y se incluye en la gramática.
Una ventaja adicional de usar un reconocedor basado en la gramática es que la mayoría de las gramáticas permiten la inserción de etiquetas semánticas, que permiten a la gramática no solo definir un enunciado, sino también la interpretación semántica de ese enunciado.
Ejemplos de este tipo de sistema de reconocimiento de voz basado en la gramática serían las ofertas de conversión de voz a texto, como Nuance ASR o Lumenvox ASR.
Es evidente que ambos tipos de sistemas de reconocimiento de voz tienen ventajas y desventajas. Por lo tanto, parece comprensible que una combinación de ambos pueda tener las ventajas de ambos y, al mismo tiempo, evitar algunos inconvenientes.
Un enfoque simple sería combinar dos sistemas de reconocimiento de voz diferentes. Sería necesario crear dos sesiones de reconocimiento de voz y dividir la transmisión de audio entrante para que cada sesión reciba una copia del audio entrante. Esas dos sesiones procesarían el audio por separado y generarían resultados separados que luego tendrían que combinarse. Esto se ilustra a continuación:
La configuración presentada anteriormente tiene varias desventajas:
La plataforma Voicegain proporciona un sistema de reconocimiento de voz que combina ambos tipos de reconocimiento de voz para aprovechar las ventajas de ambos. Nuestro sistema se ilustra en la siguiente figura:
En este sistema, el procesamiento hasta la salida del procesamiento del modelo acústico es esencialmente idéntico al procesamiento realizado en los sistemas representados en las dos primeras figuras de esta publicación. Sin embargo, tras este paso, Voicegain incluye un novedoso módulo de búsqueda/optimización que utiliza tanto la gramática como el modelo lingüístico de vocabulario extenso para generar los resultados finales del reconocimiento. La señalización final se realiza de manera similar a la de un reconocedor basado en gramática, ya que parece tener más sentido dado el caso de uso (pero esto se puede modificar). El resultado final del reconocimiento constará de los n mejores resultados del reconocimiento basado en la gramática, si la gramática coincidió, y una o más hipótesis del reconocimiento de vocabulario extenso.
El desarrollador de la aplicación puede tomar sus propias decisiones sobre cómo usar el resultado del reconocimiento. Por ejemplo, el valor de confianza se puede usar para determinar si el resultado basado en la gramática o el resultado del vocabulario extenso se debe usar en un punto determinado de la aplicación.
Con la versión 1.22.0 de Voicegain, esta función está disponible de forma general como parte de nuestra API de reconocimiento.
Un ejemplo de solicitud con nuestra API /asr/recognize/async tiene este aspecto:
Como puede ver, solo hay una definición para la transmisión de audio entrante. La sección de gramática de settings.asr contiene dos definiciones gramaticales:
Además de estar disponible en nuestras API STT y Telephone Bot, la interfaz MRCP admite el reconocimiento de vocabulario extenso y basado en gramática al mismo tiempo. Por ejemplo, desde VXML puedes pasar tanto la gramática GRXML como la gramática builtin:speech/transcribe y recibirás tanto el resultado de GRXML como el de vocabulario extenso.
Si está creando un asistente de voz inteligente, un bot de voz, una aplicación de voz IVR o cualquier otra aplicación que pueda beneficiarse de esta función, contacta con nosotros vía (correo electrónico) info@voicegain.ai) para entablar un debate más profundo.
La mayoría de las organizaciones de TI empresariales tienen aplicaciones avanzadas de IVR basadas en telefonía que sirven como «puerta de entrada» para todas las llamadas de atención al cliente basadas en voz. Estas aplicaciones utilizan una combinación de tonos táctiles (DTMF) y voz para interactuar con las personas que llaman. Se han diseñado, desarrollado y ajustado cuidadosamente a lo largo de los años.
Los objetivos de cualquier IVR son dos: 1) Automatizar las consultas rutinarias sencillas (como la consulta del saldo, el estado de los pagos, etc.) y 2) autenticar y dirigir de forma inteligente las llamadas que requieren asistencia en vivo al agente correspondiente.
Las organizaciones de TI de todos los sectores verticales de la industria, como los servicios financieros, los viajes, los medios de comunicación, las telecomunicaciones, el comercio minorista o la atención médica, cuentan con un pequeño equipo de desarrolladores de IVR internos o subcontratados para mantener estas aplicaciones. Si bien las empresas se han centrado en ampliar y actualizar sus canales de soporte digital (como el chat y el correo electrónico), las aplicaciones de IVR prácticamente no se han utilizado durante años.
A medida que los CIO y los CDO (directores digitales) se embarcan en iniciativas estratégicas para migrar las cargas de trabajo empresariales a la nube, una carga de trabajo «especializada» en esta lista es el IVR. Sin embargo, migrar los IVR «tal cual» a la nube es complicado. Los lenguajes, protocolos y plataformas en los que se crearon estos IVR basados en telefonía datan de principios de la década de 2000 y están a punto de quedar obsoletos. Además, si bien admiten diálogos dirigidos con expresiones habladas limitadas por parte del cliente, no son adecuados para las interacciones conversacionales entre bots.
Por lo tanto, las organizaciones de TI se enfrentan a una situación difícil. Por un lado, es engorroso mantener estas cargas de trabajo de IVR. Por otro lado, la justificación para migrar las plataformas existentes «tal cual» a una infraestructura de nube moderna es cuestionable. ¿Para qué soportar las molestias y los gastos si los IVR eventualmente van a ser reemplazados por bots conversacionales?
Por lo tanto, existe una necesidad real de modernizar estos IVR como parte de su estrategia de migración a la nube.
Tradicionalmente, las aplicaciones de IVR de voz se ejecutaban en plataformas de telefonía de Contact Center locales. Empresas como Avaya, Nortel, Cisco, Intervoice, Genesys y Aspect dominaron el panorama de los proveedores. A principios y mediados de la década de 2000, estos proveedores trabajaron en colaboración como parte del consorcio del W3C para desarrollar XML de voz, un lenguaje abierto independiente del proveedor para aplicaciones de IVR con capacidad de voz.
VoiceXML permitió a los desarrolladores crear diálogos de voz interactivos y proporcionó una forma estándar de interactuar con un reconocedor automático de voz (ASR). Esto se hizo mediante un protocolo basado en telefonía llamado MRCP. El estándar también proporcionaba un método para definir las gramáticas del habla denominado SARGOS y un formato llamado GRXML.
La arquitectura y la jerga y terminología de apoyo en torno a VoiceXML se inspiraron en gran medida en el mundo web. La plataforma VoiceXML se denominaba «navegador de voz» que podía «renderizar páginas de VoiceXML» del mismo modo que un navegador web podía renderizar páginas HTML. La mayoría de las plataformas de centros de contacto proporcionaban IDE visuales para ayudar a crear y mantener estos flujos de llamadas interactivos. Algunas también automatizaron la generación de las páginas de VoiceXML. El IDE generaba código que podía ejecutarse en un servidor de aplicaciones (como Apache Tomcat), que a su vez generaba páginas de VoiceXML que se enviaban a una plataforma de VoiceXML a través de HTTP estándar. El servidor de aplicaciones también era responsable de realizar las solicitudes de servicios web a los recursos de bases de datos empresariales que eran necesarios para la interacción con el IVR; por ejemplo, los sistemas de facturación y pago o los sistemas CRM.
Además, la mayoría de los ASR de finales de los 90 y principios de los 2000 se basaron en modelos ocultos de Markov y modelos de mezcla gaussiana. Principalmente eran compatibles con el reconocimiento gramatical, lo que significaba que, como desarrollador de Speech IVR, tenías que anticipar todas las expresiones posibles que un usuario podía pronunciar en respuesta a una pregunta o mensaje. Existían algunas opciones para crear modelos lingüísticos estadísticos abiertos, pero eran complicadas y requerían una cuidadosa selección del corpus formativo.
¿Por qué modernizar ahora?
Si bien VoiceXML funcionó bien en el pasado, es un lenguaje especializado y anticuado. ¡La última versión de VoiceXML 2.1 fue en 2007! Eso fue hace más de una década.
Y muchas cosas han cambiado en el mundo web desde entonces. VoiceXML se desarrolló en una época en la que se utilizaba ampliamente JSP (Java Server Pages). Así fue antes de JSON, YAML, las API RESTful y AJAX.
Para las empresas, es caro mantener un personal dedicado, ya sea interno o subcontratado, con conocimientos especializados en tecnologías como VoiceXML y MRCP.
Lo ideal es que las empresas puedan ejecutar la aplicación IVR como cualquier otra aplicación web moderna. La mayoría de las aplicaciones web empresariales se basan en lenguajes de programación como Python y Node.JS, que son populares entre los desarrolladores web. Se almacenan en contenedores con Docker y se orquestan con Kubernetes.
Sería ideal para una organización de TI empresarial que su aplicación IVR se construyera en lenguajes de programación similares para que pueda recibir soporte o mantenimiento al igual que otras aplicaciones de la cartera de TI.
Además de la obsolescencia de VoiceXML, el motor de reconocimiento de voz (ASR) que se implementó a principios de la década de 2000 también ha quedado obsoleto. Los motores modernos de conversión de voz a texto se basan en redes neuronales profundas que funcionan en una potente infraestructura de GPU. Ofrecen una precisión asombrosa y permiten el uso de un vocabulario muy amplio, que es lo que se necesita para una experiencia conversacional similar a la de los bots. Además, los modernos motores de NLU permiten extraer fácilmente las intenciones del texto transcrito.
Por lo tanto, si una empresa quiere ofrecer un bot de voz que admita una experiencia de conversación abierta, debe pasar a una plataforma moderna de conversión de voz a texto basada en DNN que pueda integrarse con dichos motores de NLU.
En Voicegain, recomendamos que la empresa primero modernice la infraestructura subyacente y, al mismo tiempo, conserve la lógica de aplicación de IVR existente. Este es un excelente primer paso. Permite a una empresa seguir atendiendo a los usuarios existentes y, al mismo tiempo, dar un paso hacia la prestación de una experiencia de usuario más conversacional.
Sugerimos que la lógica de flujo de llamadas existente, que normalmente se mantiene mediante IDE visuales de las plataformas de centros de contacto, se reescriba (idealmente con la ayuda de herramientas automatizadas) en un lenguaje de programación moderno como Python o Node.Js.
En lugar de generar páginas antiguas de VoiceXML, las empresas deberían utilizar lenguajes de representación de datos compatibles con la web, como JSON o YAML, para interactuar con las modernas API RESTful Speech-to-Text mediante llamadas web.
¿Cómo apoya Voicegain la modernización de la aplicación IVR?
En Voicegain, ofrecemos una plataforma moderna de IA de voz que incluye
Voicegain está desarrollando herramientas para convertir automáticamente VoiceXML a una representación JSON/YAML equivalente que se comunica con nuestras API de devolución de llamadas.
¿Cómo es esta una arquitectura «preparada para el futuro» para una empresa?
La plataforma Voicegain es capaz de transcribir gran cantidad de vocabulario, lo cual es un requisito para los Voice Bots basados en NLU. Esta será la forma en que los clientes interactuarán con las empresas en el futuro.
Permitimos a los desarrolladores cambiar entre el reconocimiento basado en la gramática y el reconocimiento de vocabulario extenso en cada turno del cuadro de diálogo; o bien, puedes usar ambos simultáneamente para lograr una mayor flexibilidad.
Nuestra API de bots de telefonía también puede integrarse con Bot Frameworks como Google Dialog Flow,.
Estamos invitando a desarrolladores web empresariales de forma gratuita juicio de nuestra plataforma.
Los esfuerzos de transformación digital en la mayoría de las empresas solo se han acelerado como resultado de la pandemia. ¡La máxima que circuló en los círculos corporativos en 2020 (y es muy probable que continúe en 2021) es que el coronavirus era el verdadero director digital (CDO) de la mayoría de las empresas! Los directores de TI, directores de tecnología y directores de tecnología tienen hoy en día mandatos más fuertes y audaces para cambiar radicalmente la economía de sus negocios.
Sus directores ejecutivos les piden cada vez más que hagan grandes apuestas y adopten iniciativas que puedan transformar «materialmente» la economía subyacente de sus negocios.
Un área importante de enfoque para las empresas digitales es lo que se conoce como «IA práctica». ¿Cómo utilizan las empresas la IA y el aprendizaje automático de una manera práctica pero fundamental para transformarse? Las empresas de diferentes sectores (servicios financieros, viajes, telecomunicaciones, medios de comunicación y comercio minorista) se están dando cuenta de que invertir en sólidas capacidades de inteligencia artificial y aprendizaje automático en sus equipos es fundamental para su futuro digital después de la pandemia. En muchas de las empresas que figuran en la lista Fortune 1000, las empresas recurren a la «externalización» y contratan con ahínco equipos de inteligencia artificial y aprendizaje automático, aun cuando subcontratan el mantenimiento de los sistemas de back-end antiguos para obtener una ventaja competitiva.
Y una de las aplicaciones de IA más prácticas de la empresa es la IA de voz, que se refiere al uso de la IA y el aprendizaje automático en las conversaciones de voz dentro de la empresa.
A pesar de la proliferación de canales digitales como el chat y los mensajes de texto, el correo electrónico y las redes sociales, valor más alto las conversaciones de ventas, las reuniones y las discusiones relacionadas con el servicio de atención al cliente se llevan a cabo predominantemente por voz. Hablar no solo es más eficiente que escribir, ¡también es más atractivo! El contacto humano con la voz es algo que nosotros, como humanos, siempre valoraremos. ¡La voz ha llegado para quedarse y su significado perdurable es tan inmutable como las leyes de la gravedad!
Entonces, ¿qué está cambiando en el mundo de la voz? Lo que pasa es que las raíces subyacentes se están transformando: las conversaciones de voz tradicionalmente se realizaban a través de las redes de telefonía tradicionales. Se están trasladando rápidamente a plataformas de reuniones como Zoom, Microsoft Teams y Webex; por ello, las conversaciones de voz y vídeo se están sustituyendo por conversaciones de voz y vídeo más ricas que se llevan a cabo a través de Internet.
Las barreras asociadas históricamente con la voz (los costos y la complejidad de la infraestructura de voz) se han eliminado con tecnologías como WebRTC, 4G/5G y la computación en nube. Para los consumidores, el coste de realizar una llamada de voz es ahora cero: es el coste de su ancho de banda WiFi o 4G/5G (ya que los consumidores utilizan aplicaciones móviles gratuitas como Facetime, Skype y WhatsApp).
La IA de voz es una conversión de voz a texto y NLU de alta precisión que se basa en redes neuronales profundas altamente especializadas y personalizables (entrenables) que se ejecutan en GPU.
Lo único de las redes neuronales profundas es que los modelos subyacentes de conversión de voz a texto y NLU se pueden entrenar, de forma fácil y asequible, en conjuntos de datos específicos de la empresa. Puede aprovechar el léxico y el corpus empresariales, tanto de voz como de texto. Por lo tanto, en lugar de adoptar un enfoque único, cada empresa puede tener su propia infraestructura de inteligencia artificial de voz, capacitada en función de los nombres de sus productos, la jerga del sector, los nombres de los empleados y clientes, los acentos únicos, etc. Una vez capacitada, hay dos grandes aplicaciones: 1) la IA de voz para la automatización y 2) la IA de voz para el análisis.
Las empresas pueden crear bots de voz para responder de forma inteligente a las solicitudes de contacto de sus clientes potenciales y potenciales en cualquier momento y lugar. Los bots de voz también se pueden usar para responder a las consultas de los empleados internos en un contexto de servicio o mesa de ayuda. El caso práctico de la automatización es uno de los que realmente se ha acelerado durante la pandemia. Los bots pueden ayudar a las empresas a hacer frente a las enormes interrupciones provocadas por el hecho de que todo el mundo (ventas, atención al cliente y servicio) trabajara desde casa durante la pandemia. McKinsey ha escrito sobre automatización mediante IA.
La IA de voz también permite a las empresas transcribir el 100% de sus conversaciones de voz y, posteriormente, extraer el texto en busca de opiniones y análisis o información.
Con Voice AI, las empresas pueden garantizar que su personal de ventas de primera línea pueda presentar su propuesta de valor fundamental, sus beneficios y las características de sus productos y servicios de manera coherente y convincente. Esto puede suponer un gran impulso para los equipos de ventas, ya que pueden mejorar las tasas de conversión y pronosticar con precisión los flujos de producción con Voice AI.
La IA de voz también puede garantizar que el personal de atención al cliente y de atención al cliente reciba información personalizada y personalizada para mejorar no solo su eficiencia (métricas como la AHT en el centro de contacto), sino también para mejorar las medidas de eficacia, como las puntuaciones de CSAT y NPS.
En Ganación de voz, nos apasiona ayudar a las empresas, las pequeñas y medianas empresas, los emprendedores y las empresas emergentes con sus esfuerzos de inteligencia artificial de voz. Nuestra misión es crear la plataforma de IA de voz más abierta y fácil de usar para desarrolladores del mundo. Sé parte de nuestra misión registrándote aquí. ¡Puedes transcribir tus llamadas o reuniones, probar nuestras API, crear increíbles bots de telefonía y mucho más!
Acerca del autor:
Arun Santhebennur es el cofundador y director ejecutivo de Voicegain. Para tener una conversación más profunda, ponte en contacto con Arun en LinkedIn o envíanos un correo electrónico.
Los desarrolladores que crean aplicaciones SaaS compatibles con voz que incorporan voz a texto o transcripción como parte de su producto tienen varios proveedores entre los que elegir.
Sin embargo, la decisión de elegir la plataforma o API de conversión de voz a texto adecuada es bastante complicada. Este artículo describe tres tipos de vendedores y el tres criterios clave (resumido como 3 A: precisión, asequibilidad y accesibilidad) para tener en cuenta al hacer esa elección.
La mayoría de las aplicaciones SaaS habilitadas para voz que incorporan API de conversión de voz a texto se clasifican en general en dos categorías: 1) Análisis y 2) Automatización.
Ya sea que esté desarrollando una aplicación de análisis o una aplicación de automatización, los desarrolladores tienen las siguientes opciones de proveedores.
Hay 3 tipos distintos de vendedores
El primer conjunto de opciones para la mayoría de los desarrolladores son las API de conversión de voz a texto de las grandes empresas de nube - Google, Amazon y Microsoft. Estas grandes empresas ofrecen API de conversión de voz a texto como parte de su cartera de servicios de IA y aprendizaje automático en la nube. La estrategia de los proveedores de Big Cloud consiste en vender toda su oferta, desde la infraestructura en la nube hasta las API e incluso los productos.
Sin embargo, los proveedores de servicios en la nube pueden competir directamente con los desarrolladores a los que buscan atender. Por ejemplo, Amazon Connect compite directamente con las plataformas de centros de contacto alojadas en AWS. Google Dialogflow compite directamente con otras empresas emergentes de NLU que pueden estar buscando crear y ofrecer bots de voz y asistentes de voz a las empresas.
Además de los grandes 3, Matiz y IBM Watson son grandes empresas que tienen una rica historia en el suministro de reconocimiento de voz automatizado (ASR). De estas dos, Nuance es la más conocida y ha ocupado un lugar dominante tanto en el mercado de los centros de llamadas empresariales con su motor ASR de Nuance como en el sector de la transcripción médica con su oferta Dragon. IBM tiene una larga historia de reconocimiento de voz fundamental e IBM Watson Speech-to-Text es su oferta orientada a los desarrolladores.
Voicegain.ai, nuestra empresa, actúa junto a otras empresas emergentes como Deepgram que se dirigen a los desarrolladores de SaaS con su mejor conversión de voz a texto basada en DNN. Dado que estas empresas emergentes son proveedores especializados, se centran en superar a los grandes proveedores de nube y a los actores tradicionales en cuanto a precio, rendimiento y facilidad de uso.
Los criterios clave a la hora de elegir una plataforma ASR o de conversión de voz a texto son las 3 A: precisión, asequibilidad y accesibilidad.
El primer y más importante criterio para cualquier plataforma de conversión de voz a texto es la precisión del reconocimiento. Sin embargo, la precisión es una métrica difícil de evaluar y medir. No existe un enfoque de precisión que sirva para todos los casos. Hemos compartido nuestro pensamientos & puntos de referencia aquí. Si bien Voicegain iguala o supera la precisión de transcripción «lista para usar» de la mayoría de los jugadores más grandes, te sugerimos que hagas un esfuerzo adicional antes de tomar una decisión. Los conjuntos de datos de audio utilizados en estas pruebas de rendimiento pueden o no ser similares al caso práctico o al contexto para el que el desarrollador pretende utilizar la API.
Si bien la precisión generalmente se mide con la tasa de error de palabras (WER), es importante tener en cuenta que esta métrica también tiene limitaciones. Para una aplicación SaaS, decir correctamente algunas palabras importantes y críticas puede ser incluso más importante que un WER general bajo.
Dicho esto, es importante que los desarrolladores establezcan y calculen una precisión básica rápida «lista para usar» para su aplicación con sus conjuntos de datos de audio.
En Voicegain, tenemos herramientas de código abierto para comparar nuestro desempeño con el de los mejores del sector. Recomendamos encarecidamente a los desarrolladores e ingenieros de aprendizaje automático que calculen un punto de referencia para la precisión de los proveedores que elijan utilizando un volumen estadísticamente significativo de conjuntos de datos de audio para su aplicación.
Desde la perspectiva del desarrollador, una medida de precisión de referencia proporcionará información sobre el grado en que sus conjuntos de datos coinciden con los conjuntos de datos en el que los proveedores han capacitado a los modelos STT subyacentes.
Estos son un conjunto de factores importantes que pueden afectar a su precisión «lista para usar»:
Los desarrolladores también deben establecer la precisión «objetivo» que requiere su aplicación o producto SaaS. Por lo general, los gerentes de producto determinan esto en función de sus necesidades.
Es posible cerrar la brecha entre la precisión del objetivo y la precisión básica «lista para usar». Si bien está fuera del alcance de esta publicación, aquí hay una descripción general de algunas formas en las que los desarrolladores pueden mejorar la precisión de la línea de base.
Sin embargo, no todas las plataformas de conversión de voz a texto admiten una o más de estas opciones.
En Voicegain.ai, apoyamos todas las opciones anteriores. Elegir el enfoque correcto implica una conversación técnica más profunda. Le invitamos a póngase en contacto con nosotros.
En resumen, es posible que la elección no sea tan simple como elegir la que tenga la mejor precisión «lista para usar». De hecho, podría ser una plataforma que ofrezca la ruta más conveniente y económica para cerrar la brecha entre la precisión del objetivo y la de la línea de base.
El segundo factor más importante después de la precisión es el precio. La mayoría de los productos SaaS tienen precios muy disruptivos. No es raro que el producto SaaS se venda a «decenas de dólares» (entre 35 y 100 dólares) por usuario y mes. Es fundamental que las API de conversión de voz a texto representen la menor parte posible del precio del SaaS. El precio repercute directamente en el «margen bruto» de la aplicación SaaS, una métrica o KPI financiero fundamental que preocupa mucho a las empresas de SaaS.
Además del precio de primera línea basado en el uso de la plataforma, también es importante entender cuál es el tiempo mínimo facturable y el incremento de facturación para cada interacción. Muchos de los grandes proveedores de servicios en la nube tienen un tiempo mínimo facturable muy alto: 12 o 18 segundos. Esto hace que los Voice Bots o Voice Assistant sean muy caros.
Otro aspecto relacionado con los costos es el precio de la transcripción de audio multicanal, donde solo hay un altavoz activo a la vez. ¿La plataforma cobra por transcribir el silencio en el canal inactivo?
La última (¡pero no la menos importante!) Un criterio importante es qué tan accesible o, en otras palabras, qué tan simple y fácil es integrar la plataforma de conversión de voz a texto con la aplicación SaaS.
Esta facilidad de integración adquiere aún más importancia si la aplicación SaaS transmite audio en tiempo real a la plataforma Speech-to-Text. Otro criterio importante para la transmisión en tiempo real es la latencia, que es el momento en que se reciben los resultados de reconocimiento de la plataforma. Para un bot o un asistente de voz, es importante reducir la latencia de la API a 500 milisegundos o menos. Además, la detección rápida y fiable del final de la voz es crucial en esos escenarios para que los diálogos se alternen de forma natural.
En Voicegain, admitimos múltiples opciones - desde métodos basados en TCP como gRPC y Websockets hasta protocolos de telefonía y UDP como SIP/RTP, MRCP y SIPREC.
La elección que haga el desarrollador depende de los siguientes factores:
En conclusión, seleccionar la plataforma de voz a texto o ASR adecuada para una aplicación SaaS es un ejercicio diligente; ¡de ninguna manera es un éxito!
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
La plataforma Voicegain Speech-to-Text y Speech Analytics admite el protocolo SIPREC como una de las formas en que se puede enviar la transmisión de audio de una llamada telefónica al reconocedor de voz.
El Protocolo de grabación de sesiones (SIPREC) es un protocolo abierto basado en SIP para la grabación de llamadas. El estándar es definido por el Grupo de Trabajo de Ingeniería de Internet. Es compatible con muchas plataformas telefónicas y proveedores de sistemas de grabación de llamadas.
El estándar SIPREC define un protocolo que se usa para interactuar entre un cliente de grabación de sesiones (la función que generalmente desempeña el sistema PBX o el controlador de borde de sesión) y un servidor de grabación de sesiones (un grabador de llamadas de terceros, en nuestro caso un servidor SIPREC proporcionado por VoiceGain). El SIPREC abre dos transmisiones RTP (una para el audio entrante y otra para el audio saliente de la llamada) al servidor de grabación. El protocolo SIPREC también puede transferir los metadatos de las llamadas a la grabadora, lo que es importante para que las grabaciones puedan vincularse a la información sobre las llamadas.
El SIPREC se usa generalmente para la grabación de llamadas, pero el estándar proporciona esencialmente una transmisión de audio en tiempo real desde la llamada telefónica, lo que lo hace adecuado para aplicaciones que tienen que funcionar en tiempo real, como, por ejemplo, la asistencia o el monitoreo de agentes. Con la interfaz SIPREC, Voicegain puede proporcionar una transcripción de la llamada en tiempo real y realizar tareas de análisis del habla en tiempo real, por ejemplo, la detección de palabras clave y frases, la limpieza de información de identificación personal, la estimación de sentimientos y estados de ánimo, el reconocimiento de entidades nombradas y una variedad de métricas (como el silencio, las conversaciones exageradas, etc.).
El audio obtenido mediante SIPREC también se puede grabar y transcribir, analizar o recuperar más adelante.
La interfaz SIPREC de Voicegain se ha probado en las siguientes plataformas:
Voicegain puede capturar los metadatos relevantes de la llamada además de obtener el audio (la funcionalidad de captura de metadatos puede diferir en sus capacidades según la plataforma del cliente).
La plataforma Voicegain se puede configurar para iniciar automáticamente la transcripción y el análisis de voz tan pronto como se establezca la nueva sesión de SIPREC.
Los resultados de los análisis de transcripción y voz están disponibles a través de una API web. También admitimos websockets para una transmisión más cómoda de los datos de transcripción o análisis de voz. La compatibilidad con SIPREC está disponible tanto en la nube como en Edge (Prem)) despliegues de la plataforma Voicegain.
SIPREC es una función empresarial de la plataforma Voicegain y no está incluida en el paquete básico. Póngase en contacto con support@voicegain.ai o envía un Boleto de Zendesk para obtener más información sobre SIPREC y si deseas usarlo con tu cuenta de Voicegain actual.
La plataforma de voz de Genesys no es compatible directamente con SIPREC. Sin embargo, sí admite la transmisión de los medios RTP entrantes y salientes a dos puntos finales SIP distintos; el resultado final es prácticamente el mismo que si se utilizara SIPREC. Actualmente estamos trabajando para implementar la compatibilidad con esta función de la plataforma de voz de Genesys para la transmisión de audio en tiempo real a la plataforma Voicegain. Debería estar disponible en el primer trimestre de 2021.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?