Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
La plataforma Voicegain facilita la creación de IVR para aplicaciones sencillas de llamadas salientes, como: encuestas (de voz del cliente, políticas, etc.), recordatorios (por ejemplo, citas, pagos pendientes), notificaciones (por ejemplo, cierre de escuelas, avisos de ebullición de agua), etc.
Voicegain permite a los desarrolladores utilizar las funciones de llamadas salientes de las plataformas CPaaS como Twilio o SignalWire con las funciones de reconocimiento de voz e IVR de la plataforma Voicegain. Todo lo que necesitas es así de simple fragmento de código para hacer una llamada saliente con Twilio y conectarla a Voicegain para IVR.
Voicegain proporciona una API de Telephone Bot con todas las funciones. Es una API de estilo webhook/callback que se puede usar de manera similar a como usaría el TWiML de Twilio. Puedes leer más sobre esto aquí
Sin embargo, en esta publicación, describimos un método aún más simple para crear IVR. Permitimos a los desarrolladores especificar las definiciones del flujo de llamadas IVR salientes en un formato YAML simple. También proporcionamos un script de Python que se puede implementar fácilmente en AWS Lambda o en su servidor web para interpretar este archivo YAML. Encontrará el código completo con ejemplos en nuestra github. Está bajo licencia MIT, por lo que puedes modificar el guion del intérprete principal a tu gusto. Es posible que desee hacerlo, por ejemplo, para realizar llamadas a los servicios web externos que su IVR necesite.
En este formato YAML, una pregunta de IVR se definiría de la siguiente manera:
Como puede ver, esta es una forma bastante sencilla de definir una pregunta de IVR. Ten en cuenta también que proporcionamos un control integrado para las nuevas solicitudes de NOINPUT y NOMATCH, así como la lógica de las confirmaciones. Esto reduce en gran medida el desorden de la especificación, ya que esos escenarios de flujo no tienen que gestionarse de forma explícita.
Las preguntas admiten el uso de gramáticas para mapear las respuestas al significado semántico o, alternativamente, pueden simplemente capturar la respuesta mediante una transcripción de vocabulario extenso.
Las instrucciones se reproducen mediante TTS o se pueden concatenar a partir de clips pregrabados.
Como se basa en la API Voicegain Telephone Bot, viene con acceso completo a la sesión de llamadas de IVR. Puedes obtener detalles, incluidos todos los eventos y respuestas, de la sesión completa mediante la API. Esto incluye la grabación en 2 canales, la transcripción completa de ambos canales y las funciones de análisis de voz.
También puedes examinar los detalles de la sesión desde la consola Voicegain y escuchar el audio. Esto ayuda a probar la aplicación antes de implementarla.
Si tiene preguntas sobre la creación de este tipo de IVR que se ejecuten en la plataforma Voicegain, póngase en contacto con nosotros en support@voicegain.ai
Entre las diversas API de conversión de voz a texto que proporciona Voicegain se encuentra una API de reconocimiento de voz que utiliza gramáticas y admite el reconocimiento continuo. Esta API es ideal para su uso en aplicaciones de selección por voz de almacén. Los sistemas de gestión de almacenes pueden integrar las API de Voicegain para ofrecer la selección por voz como parte de su conjunto de funciones.
Aquí tienes más detalles de esa API específica:
Además de eso, la plataforma Voicegain Speech-to-Text ofrece beneficios adicionales para las aplicaciones de selección de voz:
En conjunto, esto permite que su aplicación Voice Picking aprenda y mejore continuamente.
Nuestras API están disponibles en la nube, pero también se pueden alojar en Edge (in situ), lo que puede aumentar la confiabilidad y reducir las latencias, que ya son bajas.
Si quieres probar nuestra API y ver cómo encajarían en tus aplicaciones de almacén, puedes empezar con la aplicación web de ejemplo completamente funcional que hemos puesto a disposición en github: platforma/examples/comandos-gramática-aplicación web en master · voicegain/platform (github.com)
Si tiene alguna pregunta, envíenos un correo electrónico a Correo electrónico: info@voicegain.ai. También puedes registrarte para obtener una cuenta gratuita en la plataforma Voicegain a través de nuestra consola web en: https://console.voicegain.ai/signup
Las API de transcripción en tiempo real y análisis de voz de Voicegain pueden acceder a los datos de audio de transmisión en tiempo real desde los sistemas de telefonía IP o comunicaciones unificadas (por ejemplo, de Avaya, Cisco, Genesys) mediante 3 enfoques:
Los detalles de cada uno de esos enfoques se describen a continuación.
Los casos de uso de las API de análisis de voz y transcripción en tiempo real son los siguientes:
Las API de transcripción convierten el audio en texto en tiempo real. Las API de análisis de voz ofrecen análisis tanto de texto (intenciones, sentimientos, entidades y palabras clave de NLU) como de audio (tono, silencio, OverTalk, etc.).
El SIPREC se usa generalmente para la grabación de llamadas, pero el estándar esencialmente proporciona una transmisión de audio en tiempo real desde la llamada telefónica, lo que lo hace adecuado para aplicaciones que tienen que funcionar en tiempo real.
La interfaz SIPREC de Voicegain se ha probado en las siguientes plataformas:
Voicegain puede capturar los metadatos relevantes de la llamada además de obtener el audio (la funcionalidad de captura de metadatos puede diferir en sus capacidades según la plataforma del cliente).
La plataforma Voicegain se puede configurar para iniciar automáticamente la transcripción y el análisis de voz tan pronto como se establezca la nueva sesión de SIPREC.
La compatibilidad con SIPREC está disponible en las implementaciones en la nube y Edge (OnPrem) de la plataforma Voicegain.
SIPREC es una función empresarial de la plataforma Voicegain y no está incluida en el paquete básico. Ponte en contacto con support@voicegain.ai o envía un ticket de Zendesk para obtener más información sobre SIPREC y si quieres usarlo con tu cuenta de Voicegain actual.
Algunas plataformas, como Genesys, por ejemplo, no son compatibles con SIPREC. En su lugar, pueden ofrecer la posibilidad de enviar una transmisión de audio de canales separados o combinados a un destino negociado mediante un SIP INVITE. La plataforma Genesys, por ejemplo, admite la transmisión de los medios RTP entrantes y salientes a dos puntos finales SIP independientes.
La plataforma Voicegain le permite definir direcciones SIP que aceptarán dicho SIP INVITE. Como parte del SIP INVITE, se pueden enviar cabeceras SIP personalizadas para proporcionar información que permita cerrar la sesión y transmitir cualquier metadato adicional. Al establecer la conexión SIP, Voicegain realizará una llamada HTTP a un punto final específico para confirmar la conexión y transferir todos los datos de la conexión.
Algunas plataformas UC, en particular las versiones más recientes, proporcionan capacidades adicionales para acceder a la transmisión de audio en tiempo real. En muchas de ellas, esta capacidad se añadió específicamente para simplificar la integración con los servicios de conversión de voz a texto en la nube.
Algunos ejemplos de este tipo de integración son:
La plataforma Voicegain proporciona varios protocolos que permiten una integración programable flexible:
Todos esos protocolos admiten la codificación ULaw, aLaw y Linear de 16 bits con una frecuencia de muestreo de 8 o 16 kHz.
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis.
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Nuestra última versión (1.24.0) amplía la API de transcripción y análisis de voz de Voicegain con la capacidad de redactar datos confidenciales tanto en la transcripción como en el audio. Esto permite a nuestros clientes cumplir con estándares como la HIPAA, GDPR, CCPA, PCI o PIPEDA.
Cualquiera de los siguientes tipos de entidades nombradas se puede redactar en el texto de la transcripción y/o en el archivo de audio.
En el audio se sustituyen por silencio y en la transcripción se sustituyen por una cadena especificada al realizar la solicitud a la API.
Esta función es compatible tanto en la nube como en Edge (local).
Dos casos de uso típicos son:
La semana pasada anunciamos que la función de conversión de voz a texto en español estaría disponible en Voicegain en marzo. Hoy nos complace anunciar que hemos podido completar el entrenamiento del modelo de redes neuronales en español antes de lo esperado y que la conversión de voz a texto en español se publicó el sábado pasado (20 de febrero) como parte de nuestra versión 1.24.0.
Hemos podido completar el trabajo en el modelo español de principio a fin en exactamente 3 semanas; empezamos a trabajar en él el 3 de febrero. Este progreso tan rápido ha sido posible gracias a nuestra amplia experiencia en la personalización de modelos de redes neuronales para el reconocimiento de voz y al hecho de que hemos desarrollado herramientas avanzadas y técnicas comprobadas que agilizan el desarrollo y el entrenamiento de los modelos de voz a texto.
La precisión del reconocimiento del modelo depende del tipo de audio de voz. En la mayoría de los archivos de referencia, la precisión de nuestro modelo español es solo un porcentaje inferior a la de los reconocedores de Google o Amazon. La ventaja de nuestro reconocedor es su precio significativamente más bajo y la posibilidad de entrenar modelos acústicos personalizados. Los modelos personalizados pueden tener una precisión superior a la de Amazon o Google. Le recomendamos que utilice nuestra consola web o nuestra API para probar el rendimiento real con sus propios datos. Por cierto, estamos enfocando este modelo de conversión de voz a texto en el español latinoamericano.
Por supuesto, la plataforma Voicegain también ofrece otras ventajas, como la compatibilidad con despliegues Edge (locales) y una amplia API con muchas opciones para la integración inmediata en, por ejemplo, entornos de telefonía.
Actualmente, la API Speech-to-Text es totalmente funcional con el modelo español. Algunas de las funciones de la API de análisis de voz aún no están disponibles para el español, por ejemplo, el reconocimiento de entidades nombradas o la detección de sentimentos/estados de ánimo.
Inicialmente, el modelo español solo está disponible en la versión que admite la transcripción fuera de línea. La versión en tiempo real del modelo estará disponible en un futuro próximo,
Para decirle a la API que quieres usar el modelo acústico español, todo lo que tienes que hacer es elegirlo en la configuración de contexto. Los modelos españoles tienen «es» en el nombre, por ejemplo, Voicegain-ol-es:1
La plataforma de conversión de voz a texto Voicegain ha admitido la transmisión RTP desde el principio. Una de nuestras primeras aplicaciones, hace varios años, fue la transcripción en directo con la utilidad ffmpeg, que se utilizaba para capturar audio de un dispositivo y transmitirlo a la plataforma Voicegain mediante RTP. Con el tiempo, añadimos protocolos más robustos y el RTP se utilizaba muy poco. Sin embargo, recientemente, en una de nuestras implementaciones, nos topamos con un caso práctico en el que la transmisión por RTP permitía a nuestro cliente realizar la integración de una manera muy sencilla dentro de una pila de telefonía de un centro de llamadas.
La plataforma Voicegain admite protocolos de transmisión más avanzados para uso en centros de llamadas, como SIPREC o SIP/RTP (SIP Invite). Sin embargo, en este uso en particular, pudimos transmitir desde Cisco CUBE directamente a Voicegain mediante un RTP simple. Al recibir una llamada entrante, se activa un script que usa HTTP para establecer una nueva sesión de transcripción de Voicegain. En la respuesta de la sesión, se devuelven los parámetros ip:port del receptor RTP específicos de la sesión y se pasan al CUBE para establecer una conexión RTP directa.
El RTP utilizado de esta manera no proporciona autenticación ni seguridad, lo que lo haría generalmente inadecuado para su uso a través de Internet. Sin embargo, en este caso de uso concreto, nuestro cliente se beneficia del hecho de que todo el conjunto de Voicegain se puede implementar localmente. Al estar en la misma red aislada que el CUBE, no hay problemas de seguridad ni de pérdida de paquetes.
Puedes visitar nuestro github para ver un ejemplo de código python que muestra cómo establecer la sesión de voz a texto, cómo dirigir el remitente del RTP al punto final del receptor y cómo recibir el resultado de la transcripción en tiempo real a través de un websocket.
El comando para establecer la sesión es tan simple como esto:
La sección de audio define la parte de transmisión de RTP y la sección websocket define cómo se enviarán los resultados a través de un websocket.
La respuesta tiene este aspecto:
En el ejemplo de github stream.ip y stream.port se pasan a ffmpeg, que se utiliza como cliente de streaming RTP. El ejemplo ilustra con más detalle cómo procesar los mensajes con resultados de transcripción incrementales enviados en tiempo real a través del websocket.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?