Blog | Speech-to-Text Platform

ASR, punto de referencia

Punto de referencia de precisión de voz a texto: junio de 2022

Jacek Jarmulak

•

min read

•

June 16, 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.

Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

‍

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

‍

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

Microsoft fue el mejor en 35 de los 63 archivos
Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
El último de Google fue el mejor en 4
Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

‍

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

‍

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

‍

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

‍

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

‍

Centro de contacto

IVR Easy Speech para llamadas salientes con Voicegain y Twilio

Jacek Jarmulak

•

min read

•

March 25, 2021

IVR salientes en Voicegain

La plataforma Voicegain facilita la creación de IVR para aplicaciones sencillas de llamadas salientes, como: encuestas (de voz del cliente, políticas, etc.), recordatorios (por ejemplo, citas, pagos pendientes), notificaciones (por ejemplo, cierre de escuelas, avisos de ebullición de agua), etc.

Voicegain permite a los desarrolladores utilizar las funciones de llamadas salientes de las plataformas CPaaS como Twilio o SignalWire con las funciones de reconocimiento de voz e IVR de la plataforma Voicegain. Todo lo que necesitas es así de simple fragmento de código para hacer una llamada saliente con Twilio y conectarla a Voicegain para IVR.

‍

Definir los IVR de forma declarativa

Voicegain proporciona una API de Telephone Bot con todas las funciones. Es una API de estilo webhook/callback que se puede usar de manera similar a como usaría el TWiML de Twilio. Puedes leer más sobre esto aquí

Sin embargo, en esta publicación, describimos un método aún más simple para crear IVR. Permitimos a los desarrolladores especificar las definiciones del flujo de llamadas IVR salientes en un formato YAML simple. También proporcionamos un script de Python que se puede implementar fácilmente en AWS Lambda o en su servidor web para interpretar este archivo YAML. Encontrará el código completo con ejemplos en nuestra github. Está bajo licencia MIT, por lo que puedes modificar el guion del intérprete principal a tu gusto. Es posible que desee hacerlo, por ejemplo, para realizar llamadas a los servicios web externos que su IVR necesite.

En este formato YAML, una pregunta de IVR se definiría de la siguiente manera:

‍

Como puede ver, esta es una forma bastante sencilla de definir una pregunta de IVR. Ten en cuenta también que proporcionamos un control integrado para las nuevas solicitudes de NOINPUT y NOMATCH, así como la lógica de las confirmaciones. Esto reduce en gran medida el desorden de la especificación, ya que esos escenarios de flujo no tienen que gestionarse de forma explícita.

Las preguntas admiten el uso de gramáticas para mapear las respuestas al significado semántico o, alternativamente, pueden simplemente capturar la respuesta mediante una transcripción de vocabulario extenso.

Las instrucciones se reproducen mediante TTS o se pueden concatenar a partir de clips pregrabados.

Espera, hay más.

Como se basa en la API Voicegain Telephone Bot, viene con acceso completo a la sesión de llamadas de IVR. Puedes obtener detalles, incluidos todos los eventos y respuestas, de la sesión completa mediante la API. Esto incluye la grabación en 2 canales, la transcripción completa de ambos canales y las funciones de análisis de voz.

También puedes examinar los detalles de la sesión desde la consola Voicegain y escuchar el audio. Esto ayuda a probar la aplicación antes de implementarla.

‍

Si tiene preguntas sobre la creación de este tipo de IVR que se ejecuten en la plataforma Voicegain, póngase en contacto con nosotros en support@voicegain.ai

Casos de uso

Reconocimiento de voz Voicegain para selección de voz en almacenes

Jacek Jarmulak

•

min read

•

March 9, 2021

Entre las diversas API de conversión de voz a texto que proporciona Voicegain se encuentra una API de reconocimiento de voz que utiliza gramáticas y admite el reconocimiento continuo. Esta API es ideal para su uso en aplicaciones de selección por voz de almacén. Los sistemas de gestión de almacenes pueden integrar las API de Voicegain para ofrecer la selección por voz como parte de su conjunto de funciones.

Aquí tienes más detalles de esa API específica:

Entrada de audio - admite la transmisión de audio a través de websockets para una integración muy sencilla con aplicaciones basadas en la web o para Android/iOS (la compatibilidad con gRPC está en versión beta)
Resultados de reconocimiento están disponibles mediante devoluciones de llamadas websocket o http en formato JSON. El envío de los resultados del reconocimiento a través de websockets es una incorporación reciente y facilita mucho la creación de aplicaciones de selección por voz basadas en la web.
Soportes reconocimiento basado en gramática - más adecuado para un conjunto de comandos bien definido en comparación con un vocabulario amplio de voz a texto. Tiene una mayor precisión, rechaza mejor el ruido, maneja mejor los distintos acentos, etc. El uso de gramáticas proporciona la ventaja de señalar rápidamente al final: el reconocedor sabe que la orden se ha pronunciado por completo y no se necesita tiempo de espera adicional para determinar el final del discurso. Admitimos una variante del formato gramatical JSGF que es muy intuitiva y fácil de usar.
Soportes reconocimiento continuo - se pueden reconocer varios comandos en una sola sesión http. El reconocimiento continuo permite que los comandos estén más cerca y permite la corrección natural de los errores de reconocimiento mediante una simple repetición.

Además de eso, la plataforma Voicegain Speech-to-Text ofrece beneficios adicionales para las aplicaciones de selección de voz:

El modelo acústico/lingüístico es personalizable, lo que permite una precisión de reconocimiento muy alta para dominios específicos
Herramientas basadas en la web disponibles para revisar los reconocimientos de expresiones. Estas herramientas permiten ajustar la gramática y recopilar enunciados para el entrenamiento de modelos.

En conjunto, esto permite que su aplicación Voice Picking aprenda y mejore continuamente.

Nuestras API están disponibles en la nube, pero también se pueden alojar en Edge (in situ), lo que puede aumentar la confiabilidad y reducir las latencias, que ya son bajas.

Si quieres probar nuestra API y ver cómo encajarían en tus aplicaciones de almacén, puedes empezar con la aplicación web de ejemplo completamente funcional que hemos puesto a disposición en github: platforma/examples/comandos-gramática-aplicación web en master · voicegain/platform (github.com)

Si tiene alguna pregunta, envíenos un correo electrónico a Correo electrónico: info@voicegain.ai. También puedes registrarte para obtener una cuenta gratuita en la plataforma Voicegain a través de nuestra consola web en: https://console.voicegain.ai/signup

Análisis de voz

La redacción de texto y audio de PII ahora está disponible en la API Speech Analytics

Jacek Jarmulak

•

min read

•

February 21, 2021

Nuestra última versión (1.24.0) amplía la API de transcripción y análisis de voz de Voicegain con la capacidad de redactar datos confidenciales tanto en la transcripción como en el audio. Esto permite a nuestros clientes cumplir con estándares como la HIPAA, GDPR, CCPA, PCI o PIPEDA.

Cualquiera de los siguientes tipos de entidades nombradas se puede redactar en el texto de la transcripción y/o en el archivo de audio.

DIRECCIÓN: dirección postal.
CARDINAL: Números que no pertenecen a otro tipo.
CC - Tarjeta de crédito
FECHA: fechas o períodos absolutos o relativos.
CORREO ELECTRÓNICO - (próximamente) Dirección de correo electrónico
EVENTO: huracanes, batallas, guerras, eventos deportivos, etc. nombrados.
FAC - Edificios, aeropuertos, autopistas, puentes, etc.
GPE: países, ciudades, estados.
NORP: Nacionalidades o grupos religiosos o políticos.
DINERO: valores monetarios, incluida la unidad.
ORDINAL: «primero», «segundo», etc.
ORG - Empresas, agencias, instituciones, etc.
PORCENTAJE: porcentaje, incluido el «%».
PERSONA: personas, incluso ficticias.
TELÉFONO: (próximamente) Número de teléfono.
CANTIDAD: medidas, como el peso o la distancia.
SSN: número de seguro social
HORA: documentos nombrados convertidos en leyes.
ZIP: (próximamente) Código postal (si no forma parte de una dirección)

En el audio se sustituyen por silencio y en la transcripción se sustituyen por una cadena especificada al realizar la solicitud a la API.

Esta función es compatible tanto en la nube como en Edge (local).

Dos casos de uso típicos son:

Habilite la redacción como parte del procesamiento normal, por ejemplo, de las llamadas al centro de llamadas
Realice un procesamiento masivo del audio almacenado que anteriormente no se había procesado correctamente para lograr el cumplimiento. En combinación con el bajo precio por minuto de las API de Voicegain, esto permite a nuestros clientes procesar datos de audio de gran calidad de forma rentable.

Idiomas

Voicegain ofrece conversión de voz a texto en español

Jacek Jarmulak

•

min read

•

February 21, 2021

La semana pasada anunciamos que la función de conversión de voz a texto en español estaría disponible en Voicegain en marzo. Hoy nos complace anunciar que hemos podido completar el entrenamiento del modelo de redes neuronales en español antes de lo esperado y que la conversión de voz a texto en español se publicó el sábado pasado (20 de febrero) como parte de nuestra versión 1.24.0.

Hemos podido completar el trabajo en el modelo español de principio a fin en exactamente 3 semanas; empezamos a trabajar en él el 3 de febrero. Este progreso tan rápido ha sido posible gracias a nuestra amplia experiencia en la personalización de modelos de redes neuronales para el reconocimiento de voz y al hecho de que hemos desarrollado herramientas avanzadas y técnicas comprobadas que agilizan el desarrollo y el entrenamiento de los modelos de voz a texto.

La precisión del reconocimiento del modelo depende del tipo de audio de voz. En la mayoría de los archivos de referencia, la precisión de nuestro modelo español es solo un porcentaje inferior a la de los reconocedores de Google o Amazon. La ventaja de nuestro reconocedor es su precio significativamente más bajo y la posibilidad de entrenar modelos acústicos personalizados. Los modelos personalizados pueden tener una precisión superior a la de Amazon o Google. Le recomendamos que utilice nuestra consola web o nuestra API para probar el rendimiento real con sus propios datos. Por cierto, estamos enfocando este modelo de conversión de voz a texto en el español latinoamericano.

Por supuesto, la plataforma Voicegain también ofrece otras ventajas, como la compatibilidad con despliegues Edge (locales) y una amplia API con muchas opciones para la integración inmediata en, por ejemplo, entornos de telefonía.

Actualmente, la API Speech-to-Text es totalmente funcional con el modelo español. Algunas de las funciones de la API de análisis de voz aún no están disponibles para el español, por ejemplo, el reconocimiento de entidades nombradas o la detección de sentimentos/estados de ánimo.

Inicialmente, el modelo español solo está disponible en la versión que admite la transcripción fuera de línea. La versión en tiempo real del modelo estará disponible en un futuro próximo,

Para decirle a la API que quieres usar el modelo acústico español, todo lo que tienes que hacer es elegirlo en la configuración de contexto. Los modelos españoles tienen «es» en el nombre, por ejemplo, Voicegain-ol-es:1

Telefonía

Característica única: soporte de transmisión RTP

Jacek Jarmulak

•

min read

•

June 27, 2021

La plataforma de conversión de voz a texto Voicegain ha admitido la transmisión RTP desde el principio. Una de nuestras primeras aplicaciones, hace varios años, fue la transcripción en directo con la utilidad ffmpeg, que se utilizaba para capturar audio de un dispositivo y transmitirlo a la plataforma Voicegain mediante RTP. Con el tiempo, añadimos protocolos más robustos y el RTP se utilizaba muy poco. Sin embargo, recientemente, en una de nuestras implementaciones, nos topamos con un caso práctico en el que la transmisión por RTP permitía a nuestro cliente realizar la integración de una manera muy sencilla dentro de una pila de telefonía de un centro de llamadas.

La plataforma Voicegain admite protocolos de transmisión más avanzados para uso en centros de llamadas, como SIPREC o SIP/RTP (SIP Invite). Sin embargo, en este uso en particular, pudimos transmitir desde Cisco CUBE directamente a Voicegain mediante un RTP simple. Al recibir una llamada entrante, se activa un script que usa HTTP para establecer una nueva sesión de transcripción de Voicegain. En la respuesta de la sesión, se devuelven los parámetros ip:port del receptor RTP específicos de la sesión y se pasan al CUBE para establecer una conexión RTP directa.

El RTP utilizado de esta manera no proporciona autenticación ni seguridad, lo que lo haría generalmente inadecuado para su uso a través de Internet. Sin embargo, en este caso de uso concreto, nuestro cliente se beneficia del hecho de que todo el conjunto de Voicegain se puede implementar localmente. Al estar en la misma red aislada que el CUBE, no hay problemas de seguridad ni de pérdida de paquetes.

Un ejemplo

Puedes visitar nuestro github para ver un ejemplo de código python que muestra cómo establecer la sesión de voz a texto, cómo dirigir el remitente del RTP al punto final del receptor y cómo recibir el resultado de la transcripción en tiempo real a través de un websocket.

El comando para establecer la sesión es tan simple como esto:

‍

La sección de audio define la parte de transmisión de RTP y la sección websocket define cómo se enviarán los resultados a través de un websocket.

La respuesta tiene este aspecto:

‍

En el ejemplo de github stream.ip y stream.port se pasan a ffmpeg, que se utiliza como cliente de streaming RTP. El ejemplo ilustra con más detalle cómo procesar los mensajes con resultados de transcripción incrementales enviados en tiempo real a través del websocket.

Análisis de voz

La API de análisis de voz de Voicegain está disponible de forma general

Jacek Jarmulak

•

min read

•

January 20, 2021

Voicegain ha lanzado su API Speech Analytics (SA) que admite una variedad de tareas de análisis realizadas en el audio o la transcripción de ese audio. Las funciones compatibles con la API de Voicegain SA se eligieron para nuestro caso de uso principal, que es el procesamiento de las llamadas al centro de llamadas.

Cosas que Speech Analytics puede hacer ahora (a partir de la versión 1.22.0)

La versión actual admite desconectado Análisis de voz. Los datos que se pueden obtener a través de la API de análisis de voz se enumeran a continuación.

Tenga en cuenta que aquí no incluimos elementos que también se puedan obtener de nuestra API de transcripción, como: la transcripción, los valores de decibelios, las zonas de audio, etc. Sin embargo, se podrá acceder a ellos desde la respuesta de la API de Speech Analytics.

Análisis por canal:

género - género probable del hablante según las características de la voz. Actualmente es «masculino» o «femenino».
emoción - Tanto los totales de toda la llamada como una lista de valores calculados en varios lugares de la transcripción. Cada elemento contendrá valores de: (1) sentimiento - de -1,0 (enfadado/enfadado) a +1,0 (feliz/satisfecho) (2) estado animico - un mapa con valores estimados (rango de 0.0 a 1.0) para los siguientes estados de ánimo: «neutral» «tranquilo» «feliz» «triste» «enojado» «temeroso» «disgusto» «sorprendido» (3) ubicación: inicio y final en milisegundos e índice de la palabra
Entidades nombradas reconocido en la llamada. Será una lista con el tipo de entidad y la ubicación de la llamada. Los valores NER admitidos son: CARDINAL: números que no pertenecen a otro tipo.Fecha: fechas o períodos absolutos o relacionados.Evento: huracanes, batallas, guerras, eventos deportivos, etc.FAC: edificios, aeropuertos, autopistas, puentes, etc.GPE: países, ciudades, estados.NORP: nacionalidades o grupos religiosos o políticos.Dinero: valores monetarios, incluida la unidad.Ordinal: «primero», «segundo», etc. .org - Empresas, agencias, instituciones, etc. Porcentaje: porcentaje, incluido el «%» .PERSONA: personas, incluidas las ficticias. Cantidad: medidas, según el peso o Distance.time: documentos nombrados convertidos en leyes.
palabras clave - lista de palabras clave o grupos de palabras clave reconocidos en la llamada. Las palabras clave que se deben reconocer se pueden configurar fácilmente a partir de ejemplos.
blasfemia - se trata esencialmente de un grupo de palabras clave predefinido
habla métricas: cosas como la racha de conversación máxima y media, la velocidad de conversación, la energía
exagerar métricas: la exageración ocurre si el hablante comienza a hablar mientras el otro ya está hablando.

Análisis global:

silenciar métricas: se definen como el tiempo en el que ninguno de los canales habla. Nota: Se supone que solo el agente tiene el control del tiempo de uso de la palabra. Esto es una simplificación, pero es difícil determinar si el silencio fue causado por la persona que llamó y fue inevitable.
nube de palabras frecuencias: datos de nube de palabras inteligentes en los que se eliminan las palabras de parada y se eliminan las variaciones de las palabras antes de calcular las frecuencias

Las funciones de Speech Analytics estarán disponibles próximamente

En tiempo real Speech Analytics estará disponible en un futuro próximo. Pronto también planeamos lanzar la compatibilidad con tarjetas de puntuación para Speech Analytics.

Próximamente se publicarán análisis por canal:

Dos entidades nombradas adicionales: CC - Tarjeta de crédito,SSN - Número de seguro social
edad - edad estimada del hablante en función de las características de la voz. Tres valores posibles: «joven-adulto», «senior», «desconocido»
frases - lista de frases o grupos de frases reconocidos en la llamada. Estos se identifican mediante algoritmos de NLU, básicamente los mismos que se utilizan para identificar la NLU intentos. Las frases que se van a reconocer se pueden configurar a partir de ejemplos.
lanzamiento las estadísticas se añadirán a habla métricas

Además, pronto apoyaremos Redacción de PII de cualquier entidad nombrada a partir de la transcripción o el audio.

Tipos de audio compatibles

La API Speech Analytics admite los siguientes tipos de entrada de audio:

2 canales audio (estéreo) como el que se encuentra normalmente en los centros de llamadas donde la voz de la persona que llama se graba en un canal y la voz del agente se graba en el otro canal. Algunas métricas, como la sobreconversación, por ejemplo, solo se pueden calcular si el audio de entrada es de este tipo.
1 canal audio con dos altavoces: para este tipo de audio diarización se realizará para separar los dos altavoces. El análisis por canal se realizará después de la diarización. Las métricas de Overtalk no están disponibles para este caso de uso.

Puedes ver la especificación de la API aquí.

‍