Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
¿Por qué la IA de voz conversacional debería estar al límite?
Edge
¿Por qué la IA de voz conversacional debería estar al límite?

Las empresas buscan cada vez más extraer el tesoro de información de las conversaciones de voz mediante la IA. Estas conversaciones tienen lugar a diario en plataformas de videoconferencias como Zoom, Google Meet y Microsoft Teams, y por teléfono en el centro de contacto (que se lleva a cabo en las plataformas de telefonía CCaaS o de centros de contacto locales).

¿Qué es Voice AI?

IA de voz o IA conversacional se refiere a convertir el audio de estas conversaciones en texto mediante la tecnología de reconocimiento de voz/ASR y a extraer el texto transcrito para obtener análisis e información mediante NLU. Además, la IA se puede utilizar para detectar sentimientos, energía y emociones tanto en el audio como en el texto. Las ideas de la NLU incluyen la extracción de los puntos clave de las reuniones. Esto incluye frases semánticamente coincidentes asociadas a temas como los temas de acción, los problemas, los bloqueadores de ventas, la agenda, etc.

En los últimos años, el espacio de la IA conversacional ha visto a muchos jugadores lanzar productos de gran éxito y ampliar sus negocios. Sin embargo, la mayoría de estas populares opciones de IA de voz disponibles en el mercado son ofertas de SaaS para múltiples usuarios. Se implementan en un gran proveedor de nube pública como Amazon, Google o Microsoft. A primera vista, esto tiene sentido. La mayoría de las aplicaciones de software empresarial que automatizan los flujos de trabajo en áreas funcionales como las ventas y el marketing (CRM), los recursos humanos, las finanzas y la contabilidad o el servicio al cliente están diseñadas como ofertas de SaaS para varios usuarios. La transición a la nube ha sido una tendencia secular para las aplicaciones empresariales y, por lo tanto, la IA de voz ha seguido este camino.

Sin embargo, en Voicegain, creemos firmemente que se requiere un enfoque diferente para un gran segmento del mercado. Proponemos que la arquitectura Edge que utilice un modelo de usuario único es el camino a seguir para las aplicaciones de inteligencia artificial de voz.

¿Por qué tiene sentido el Edge para la IA conversacional?

Por Edge, nos referimos a lo siguiente

1) Los modelos de IA para el reconocimiento de voz, la conversión de voz a texto y la NLU se ejecutan en la infraestructura de un solo inquilino del cliente, ya sea que se encuentre completamente en un centro de datos o en una VPC dedicada con un proveedor de nube.

2) La aplicación Conversational AI, que suele ser una aplicación basada en un navegador que utiliza estos modelos de IA, también se implementa completamente detrás del firewall.

Creemos que las ventajas de la arquitectura Edge/On-Prem para la IA conversacional/de voz se deben a los cuatro factores siguientes:

1. Requisitos de privacidad, confidencialidad y residencia de datos

Con mucha frecuencia, las conversaciones en las reuniones y los centros de llamadas son delicadas desde una perspectiva empresarial. Los clientes empresariales de muchos mercados verticales (servicios financieros, atención médica, defensa, etc.) no se sienten cómodos almacenando las grabaciones y transcripciones de estas conversaciones en la infraestructura en la nube del proveedor de SaaS. Piense en una información altamente confidencial, como la estrategia del producto, el estado de las principales operaciones, los errores y las vulnerabilidades del software o incluso en una conversación financiera delicada antes de publicar los resultados de una empresa que cotiza en bolsa. Muchos países también imponen requisitos estrictos de residencia de datos desde el punto de vista legal y de cumplimiento. Esto hace que la arquitectura Edge (local o de VPC) sea muy atractiva.

2. Precisión y personalización del modelo

A diferencia de las aplicaciones SaaS basadas exclusivamente en el flujo de trabajo, las aplicaciones de IA de voz incluyen modelos de IA basados en el aprendizaje profundo: conversión de voz a texto y NLU. Para obtener los análisis correctos, es fundamental que estos modelos de IA (especialmente los modelos acústicos del motor de reconocimiento de voz y conversión de voz a texto) se entrenen en función de los datos de audio específicos del cliente. Esto se debe a que cada caso de uso del cliente tiene características de audio únicas que limitan la precisión de un modelo multiusuario listo para usar. Estas características de audio únicas se relacionan con

1. Jerga industrial: acrónimos, términos técnicos

2. Acentos únicos

3. Nombres de marcas, productos y personas

4. Entorno acústico y cualquier otro tipo de audio.

Sin embargo, la mayoría de los proveedores de SaaS con IA actuales utilizan un modelo único para atender a todos sus clientes. Y esto hace que el reconocimiento y la transcripción de voz no sean óptimos, lo que a su vez da como resultado una NLU subóptima.

3. Latencia (para aplicaciones de IA de voz en tiempo real)

Para las aplicaciones de IA de voz en tiempo real, por ejemplo, en el centro de llamadas, existe una ventaja arquitectónica para los modelos de IA al estar en la misma LAN que las fuentes de audio.

4. Asequibilidad

Para muchas empresas, las aplicaciones de IA conversacional de SaaS son económicas para empezar, pero se vuelven muy caras a gran escala.

Oferta Edge de Voicegain

Voicegain ofrece una implementación perimetral en la que tanto la plataforma principal como una aplicación web como Voicegain Transcribe pueden funcionar completamente en la infraestructura de nuestros clientes. Ambas se pueden colocar «detrás de un firewall empresarial».

Lo que es más importante, Voicegain ofrece un conjunto de herramientas de capacitación y un proceso para que los clientes creen y entrenen modelos acústicos personalizados que impulsen estas aplicaciones de IA de voz.

¿Tiene alguna pregunta? ¿O simplemente quieres hablar?

Si tiene alguna pregunta o desea hablar sobre esto con más detalle, póngase en contacto con nuestro equipo de soporte por correo electrónico (support@voicegain.ai)

Read more → 
Transcripción y notas de reuniones de Zoom con Transcribe, un asistente de reuniones con IA
Transcripción
Transcripción y notas de reuniones de Zoom con Transcribe, un asistente de reuniones con IA

Como anunciamos aquí, Voicegain Transcribe es un asistente de reuniones basado en inteligencia artificial que puedes llevar contigo a todas tus reuniones de trabajo. Así que, independientemente de la plataforma de reuniones (Zoom, Microsoft Teams, Webex o Google Meet), Voicegain Transcribe tiene una forma de ayudarte.

Ahora tenemos noticias interesantes para los usuarios que organizan reuniones de Zoom con regularidad. Los usuarios de Voicegain Transcribe que utilizan Windows ahora tienen una forma gratuita, fácil y cómoda de acceder a todas las transcripciones y notas de sus reuniones de Zoom. Los usuarios de Transcribe ahora pueden descargar una nueva aplicación cliente que hemos desarrollado, el Voicegain Zoom Meeting Assistant para grabaciones locales, en su dispositivo.

Con esta aplicación cliente, cualquier grabación local de una reunión de Zoom (que se explica a continuación) se enviará automáticamente a Voicegain Transcribe. Los modelos de IA de alta precisión de Voicegain procesan posteriormente la grabación para generar tanto la transcripción (conversión de voz a texto) como las actas de la reunión y los temas discutidos (NLU).

Como siempre, empiezas con un plan gratuito que no caduca. Así que puedes obtener comenzó hoy sin tener que configurar tu información de pago.

¿Qué es la grabación local de Zoom?

Zoom ofrece dos opciones para grabar reuniones en su plataforma: 1) Grabación local y 2) Grabación en la nube.

La grabación local de Zoom es una grabación de la reunión que se guarda en el disco duro del dispositivo del usuario. El uso de la grabación local de Zoom tiene dos ventajas distintas

  1. Gratuito: Zoom ofrece esta función de grabación local incluso en cuentas gratuitas de Zoom. Por lo tanto, puede probar esta función incluso si tiene una cuenta de Zoom no pagada
  2. Privacidad y control: El contenido de audio de la reunión puede contener información sensible y confidencial. Con una grabación local, el audio no se comparte con Zoom

La grabación en la nube de Zoom es cuando la grabación de la reunión se almacena en su cuenta de Zoom Cloud en los servidores de Zoom. Actualmente, Voicegain no se integra directamente con Zoom Cloud Recording (sin embargo, está en nuestra hoja de ruta). Mientras tanto, un usuario puede descargar la grabación en la nube y subirla a Voicegain Transcribe para transcribir y analizar las grabaciones guardadas en la nube.

¿Cómo funciona?

  1. Crea una cuenta gratuita con Voicegain Transcribe. Aquí hay un eslabón a nuestra página de registro. Elige la primera opción.
  1. En el menú de la izquierda, haz clic en Aplicaciones. Visitaría una página como la que se muestra a continuación
Página de descarga de Zoom Meeting Assistant

  1. Por favor, consulte esto artículo de la base de conocimientos para ver los pasos a seguir después de descargar el Meeting Assistant.

Grabación de pistas de audio de altavoces individuales

Zoom le permite grabar pistas de audio de altavoces individuales por separado como archivos de audio independientes. La captura de pantalla anterior muestra cómo habilitar esta función en Zoom.

Voicegain Zoom Meeting Assistant for Local Recording permite subir estos archivos de audio independientes a Voicegain Transcribe para que puedas obtener transcripciones precisas de los ponentes

Compatibilidad con la interfaz de usuario local o de VPC y de marca blanca

Toda la plataforma Voicegain, incluida la aplicación Voicegain Transcribe y los modelos de IA, se puede implementar en las instalaciones (o en VPC), lo que brinda a la empresa una oferta de transcripción y análisis de reuniones totalmente segura.

¿Tiene alguna pregunta?

Si tiene alguna pregunta, regístrese hoy y póngase en contacto con nuestro equipo de soporte a través de la aplicación.

Read more → 
Voicegain presenta un SLA de precisión relativa de voz a texto
Punto de referencia
Voicegain presenta un SLA de precisión relativa de voz a texto

Desde junio de 2020, Voicegain ha publicado puntos de referencia sobre la precisión de su conversión de voz a texto en comparación con los motores ASRS/voz de conversión de texto de gran tecnología, como Amazon, Google, IBM y Microsoft.

El conjunto de datos de referencia para esta comparación ha sido un conjunto de datos de terceros publicado por una entidad independiente e incluye una amplia variedad de datos de audio: audiolibros, vídeos de YouTube, podcasts, conversaciones telefónicas, reuniones de zoom y más.

Aquí hay un enlace a algunos de los puntos de referencia que hemos publicado.

1. Enlace Punto de referencia de precisión hasta junio de 2020

2. Enlace Punto de referencia de precisión hasta septiembre de 2020

3. Enlace Punto de referencia de precisión hasta junio de 2021

4. Enlace Punto de referencia de precisión hasta octubre de 2021

5. Enlace Punto de referencia de precisión hasta junio de 2022

A través de este proceso, hemos obtenido información sobre lo que se necesita para ofrecer una alta precisión para un caso de uso específico.

 

Ahora presentamos una primicia en la industria precisión relativa de voz a texto punto de referencia para nuestros clientes. Por «relativa», la precisión de Voicegain (medida según el porcentaje de errores de palabras) se comparará con la de un gran actor tecnológico con el que el cliente nos esté comparando. Voicegain proporcionará un acuerdo de nivel de servicio con una precisión prácticamente igual a la de este gran actor tecnológico.

Seguimos el siguiente proceso de 4 pasos para calcular el SLA de precisión relativa

1. Identifique el conjunto de datos de referencia del

En colaboración con el cliente, Voicegain selecciona un conjunto de datos de audio de referencia que sea representativo de los datos reales que el cliente debe procesar. Por lo general, se trata de una selección aleatoria del audio del cliente. También recomendamos que los clientes conserven su propio conjunto de datos de referencia independiente, que no compartan con Voicegain, para validar nuestros resultados.

2. Generar referencia dorada

Voicegain se asocia con empresas de etiquetado manual de IA líderes del sector para generar una transcripción precisa del 99% generada por humanos de este conjunto de datos de referencia. Nos referimos a esto como la referencia dorada.

3. Ejecute una comparación de precisión relativa

En este conjunto de datos de referencia, Voicegain proporcionará scripts que permitan a los clientes realizar una comparación del índice de errores de palabras (WER) entre la plataforma Voicegain y cualquiera de los principales proveedores de ASR del sector con los que el cliente nos compare.

4. Calcule los KPI para un SLA de precisión relativa

Actualmente, Voicegain calcula los siguientes dos (2) KPI

a. Tasa media de errores de palabras: Este es el WER medio en todos los archivos de audio del conjunto de datos de referencia para ambos ASR.

b. Tasa de error de palabras en el cuarto cuartil: Después de organizar los archivos de audio en el conjunto de datos de referencia en orden creciente de WER con Big Tech ASR, calculamos y comparamos el WER promedio del cuarto cuartil tanto para Voicegain como para Big Tech ASR.

Por lo tanto, garantizamos contractualmente que la precisión de Voicegain para los 2 KPI anteriores en relación con el otro ASR se encuentre dentro de un umbral aceptable para el cliente.

¿Con qué frecuencia se mide este SLA de precisión?

Voicegain mide este SLA de precisión dos veces durante el primer año del contrato y una vez al año a partir del segundo año.

¿Qué sucede si Voicegain no cumple con el SLA?

Si Voicegain no cumple con los términos del SLA de precisión relativa, entrenaremos el modelo acústico subyacente para que cumpla con el SLA de precisión. Asumiremos los gastos relacionados con el etiquetado y la formación. Voicegain garantizará que cumplirá con el SLA de precisión en un plazo de 90 días a partir de la fecha de la medición.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Usa Voicegain para transcribir grabaciones cifradas de Twilio
Casos de uso
Usa Voicegain para transcribir grabaciones cifradas de Twilio

La plataforma Twilio admite grabaciones de llamadas cifradas. Aquí es la documentación de Twillo sobre cómo configurar el cifrado de las grabaciones en su plataforma.

La plataforma Voicegain admite la entrada directa de grabaciones cifradas desde la plataforma Twilio.

El diagrama general de cómo funcionan todos los componentes juntos es el siguiente:


Twilio-encrypted-recordings.png


A continuación, describimos cómo configurar una configuración que enviará automáticamente las grabaciones cifradas de Twilio a la transcripción de Voicegain tan pronto como se completen esas grabaciones.

Configurar la clave privada para el descifrado

Voicegain necesitará una clave privada en formato PKCS #8 para descifrar las grabaciones de Twilio. Twilio documentación describe cómo generar una clave privada en ese formato.

Una vez que tengas la clave, tendrás que subirla a través de Voicegain Consola web al contexto que utilizará para la transcripción. Esto se puede hacer a través de Configuración -> Seguridad de la API -> Configuración de autenticación. Tienes que elegir el tipo: Grabación cifrada de Twilio.

Twilio-PK-for-decryption.png

Configurar la función AWS Lambda

Gestionaremos las devoluciones de llamadas de Twilio mediante una función de AWS Lambda, pero puede utilizar una equivalente de otra plataforma en la nube o puede tener su propio servicio que gestione las devoluciones de llamadas https.

Un ejemplo de una función de AWS Lambda en Python está disponible en Voicegain Github: platform/AWS-lambda-for-encrypted-recordings.py at master · voicegain/platform (github.com)

Tendrá que modificar esa función antes de poder utilizarla.

Primero debe ingresar los siguientes parámetros:

  • Ganación de voz JWT - debe obtener el JWT del mismo contexto en el que cargó la clave privada
  • MyAuthconf - este es el nombre con el que cargaste la clave privada
  • ID de clave pública esperada - este es el nombre con el que, en la plataforma Twilio, subiste la clave pública

La función Lambda recibe la llamada de Twilio, analiza la información relevante y, a continuación, envía una solicitud a la API STT de Voicegain para la transcripción SIN CONEXIÓN. Si lo deseas, puedes modificar, en el código de la función de Lambda, el cuerpo de la solicitud que se enviará a Voicegain. Por ejemplo, en el ejemplo de github se envían los resultados de la transcripción para que se puedan ver en la consola web (portal), pero es probable que desees cambiarlo para que los resultados se envíen mediante una llamada a tu terminal HTTPS (hay un comentario que indica dónde se debe realizar el cambio).

También puedes hacer otros cambios en el cuerpo de la solicitud según sea necesario. Para ver las especificaciones completas de la API de transcripción de Voicegain, consulta aquí.

Ejecute una prueba

Este es un código Python simple que se puede usar para hacer una llamada saliente de Twilio que se grabará y luego se enviará para su transcripción.

Tenga en cuenta que:

  • Establecemos la URL de la función Lambda en Llamada de estado de grabación.
  • Y le decimos a Twilio que devuelva la llamada solo cuando se complete la grabación de la llamada en Evento de llamada de estado de grabación.

Read more → 
Punto de referencia de precisión de voz a texto: junio de 2022
ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Presentamos Transcribe, asistente de reuniones con IA
Transcripción
Presentamos Transcribe, asistente de reuniones con IA

Hoy estamos muy contentos de anunciar el lanzamiento de Transcripción de Voice Gain, un asistente de transcripción basado en IA para reuniones presenciales y web. Con Transcribe, los usuarios pueden centrarse en sus reuniones y dejar que nosotros nos encarguemos de tomar las notas.

Transcribe también se puede utilizar para convertir en texto el audio en streaming y grabado de eventos de vídeo, seminarios web, podcasts y conferencias.

Voicegain Transcribe es una aplicación accesible desde el navegador Chrome o Edge y funciona con la plataforma de reconocimiento de voz de alta precisión de Voicegain. Nuestra precisión inmediata del 89% está a la altura de las mejores.


Actualmente hay 3 formas principales de utilizar Voicegain Transcribe:

Voicgain Transcribe, an app to record and transcribe meetings, live video and webinars, is now available
Captura de pantalla de Voicegain Transcribe al iniciar sesión por primera vez

1. Uso compartido del navegador

Si te unes a las reuniones directamente desde tu navegador Chrome o Edge (sin descargas ni complementos), puedes usar esta función para enviar audio a Voicegain. Algunos ejemplos de plataformas de reuniones son Google Meet, BlueJeans, Webex y Zoom.

En un dispositivo Windows, el uso compartido del navegador también funciona con una aplicación de escritorio cliente como Zoom y Microsoft Teams. En un dispositivo Mac/Apple, el uso compartido del navegador admite aplicaciones de escritorio.

2. Aplicación para grabaciones locales de Zoom

Voicegain ofrece una aplicación cliente de Windows descargable que se instala en el ordenador del usuario. Esta aplicación accede a las grabaciones locales de Zoom y las carga automáticamente para su transcripción en Voicegain Transcribe.

Zoom tiene dos tipos de grabaciones: grabaciones locales y grabaciones en la nube. Esta aplicación es para grabaciones locales, donde la grabación se almacena en el disco duro de la computadora del usuario. Para obtener más información sobre la grabación local de Zoom, haga clic aquí.


Zoom también permite un archivo de audio independiente para la grabación de cada participante. La aplicación Voicegain permite subir el archivo de audio de cada participante individual para que las etiquetas de los oradores se asignen con precisión a la transcripción.

3. Cargar grabaciones de audio

Los usuarios también pueden cargar archivos de audio pregrabados de sus reuniones, podcasts y llamadas y generar la transcripción. Admitimos más de 40 formatos diferentes (incluidos mp3, mp4, wav, aac y ogg). Voicegain admite la diarización de los altavoces, por lo que podemos separar los altavoces incluso en una grabación de audio de un solo canal.

Idiomas compatibles

Actualmente admitimos inglés y español. Hay más idiomas en nuestra hoja de ruta: alemán, portugués e hindi.

Funciones avanzadas

Voicegain Transcribe también admite las siguientes funciones avanzadas.
a. Proyectos

Los usuarios pueden organizar las grabaciones de sus reuniones y los archivos de audio en diferentes proyectos. Un proyecto es como un espacio de trabajo o una carpeta.

b. Firmas de voz

Los usuarios pueden guardar las firmas de voz de los participantes y usuarios de la reunión para poder asignar con precisión las etiquetas de los oradores.

c. Puntos de acción y opinión sobre las reuniones

Voicegain también puede extraer los puntos de acción de la reunión y los sentimientos positivos y negativos.

d. Redacción de la PII

Los usuarios también pueden enmascarar, tanto en texto como en audio, cualquier información de identificación personal.

Próximamente: únase mediante la URL de la reunión

Vamos a añadir una función en la que Voicegain Transcribe puede unirse a cualquier reunión haciendo que el usuario introduzca la URL de la reunión e invite a Voicegain Transcribe.

También vamos a añadir una extensión para Chrome que hará que sea mucho más fácil grabar y transcribir reuniones web.

¡Empieza gratis hoy mismo!

Por inscribiéndose hoy, se suscribirá a nuestro plan gratuito para siempre, lo que lo convierte en elegible para recibir 120 minutos de transcripción de reuniones gratis cada mes. Una vez que esté satisfecho con nuestra precisión y nuestra experiencia de usuario, podrá cambiarse fácilmente a los planes de pago.

Si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control