Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Anunciamos el lanzamiento del resumen y el inicio de sesión único impulsados por LLM con Voicegain Transcribe
Transcripción
Anunciamos el lanzamiento del resumen y el inicio de sesión único impulsados por LLM con Voicegain Transcribe

Estamos muy contentos de anunciar el lanzamiento de dos nuevas funciones con nuestra aplicación Voicegain Transcribe.

(i) Resumen impulsado por LLMs.

(ii) Inicio de sesión único (actualmente disponible solo para clientes de Voicegain Edge/On-Prem)

1. Resumen y extracción de elementos clave

El resumen de una transcripción es extremadamente valioso para varios tipos de contenido de audio. Ya sea que un usuario esté transcribiendo una reunión de negocios, una conferencia en el aula, un podcast o un evento web, revisar solo el resumen de la transcripción supone un gran ahorro de tiempo en comparación con tener que leer la transcripción completa. Con esta versión, todas las transcripciones generadas por Voicegain Transcribe se resumirán con precisión utilizando potentes y vanguardistas LLM.

Además del resumen de la transcripción, Voicegain también admite la extracción de elementos clave como acciones, problemas, riesgos y dependencias.

Para los usuarios de Voicegain Transcribe Cloud, el resumen funciona con ChatGPT (GPT 3.5 Turbo APIs). Básicamente, enviamos la transcripción de la reunión a ChatGPT y le pedimos que resuma la reunión. Mostramos y almacenamos el resumen devuelto en Voicegain Transcribe.


Para los usuarios de Voicegain Transcribe Edge/On-Prem, ofrecemos un modelo de LLM de código abierto que se ha ajustado con precisión a los datos de las reuniones. Este modelo de LLM perfeccionado se implementa junto con toda la plataforma Voicegain detrás del firewall del cliente (ya sea en una nube privada o en un centro de datos).

2. Inicio de sesión único con OIDC


Con esta nueva versión, Voicegain Transcribe también admite la función SSO mediante el protocolo OIDC. Las soluciones de software de gestión de identidades más populares, como Okta, Ping Identity, Microsoft, Oracle, RSA, etc., son compatibles con el protocolo OIDC.

Actualmente, esta función solo está disponible para los clientes de Voicegain Edge/On-Prem y también estará disponible muy pronto para los clientes de Voicegain Cloud.

Acerca de Voicegain Transcribe

Voicegain Transcribe es una plataforma de inteligencia artificial para reuniones que prioriza la privacidad y que se puede implementar «completamente detrás» del firewall de una empresa o negocio. También se puede acceder a ella como servicio en la nube.

¡Empieza gratis hoy mismo!

Por inscribiéndose hoy, se suscribirá a nuestro plan gratuito para siempre, lo que lo convierte en elegible para recibir 120 minutos de transcripción de reuniones gratis cada mes. Una vez que esté satisfecho con nuestra precisión y nuestra experiencia de usuario, podrá cambiarse fácilmente a planes de pago o ponerse en contacto con nosotros para conocer las opciones de nube privada virtual o local.

Si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai

Read more → 
¿Por qué las transcripciones de las reuniones deben almacenarse en su infraestructura privada en la era de los LLM?
Enterprise, Edge, Insights, Transcripción
¿Por qué las transcripciones de las reuniones deben almacenarse en su infraestructura privada en la era de los LLM?

¡Los LLM como ChatGPT y Bard están arrasando en el mundo! Un LLM como ChatGPT es muy bueno tanto para entender el lenguaje como para adquirir conocimientos sobre este contenido. El resultado de esto es casi espeluznante y aterrador. Porque una vez que estos LLM adquieren conocimientos, pueden responder con mucha precisión a preguntas que en el pasado parecían requerir el juicio humano.


Un gran caso de uso de los LLM es el análisis de las reuniones de negocios, tanto internas (entre empleados) como externas (por ejemplo, conversaciones con clientes, proveedores, etc.).

En los últimos años, las empresas han estado utilizando principalmente ofertas de SaaS de inteligencia de ventas e ingresos para múltiples inquilinos y para reuniones con IA para transcribir las conversaciones comerciales y extraer información. Con estas ofertas para varios usuarios, la transcripción y el procesamiento del lenguaje natural se llevan a cabo en la nube de Vendor. Una vez que se genera la transcripción, se utilizan los modelos de NLU ofrecidos por el proveedor de Meeting AI para extraer información. Por ejemplo, los productos de inteligencia de ingresos, como Gong, extraen preguntas y bloquean las ventas en las conversaciones de ventas. La mayoría de los asistentes de inteligencia artificial para reuniones extraen resúmenes y elementos de acción.

Básicamente, estos modelos de NLU, y muchos de ellos son anteriores a los LLM, podían resumir y extraer temas, palabras clave y frases. A las empresas no les importaba utilizar la infraestructura en la nube del proveedor para almacenar las transcripciones, ya que lo que podía hacer esta NLU parecía bastante inofensivo.

Sin embargo, los LLM llevan esto a un nivel completamente diferente. Nuestro equipo utilizó la API Open AI Embeddings para generar incrustaciones de las transcripciones de nuestras reuniones diarias que se realizaron durante un período de un mes. Almacenamos estas incrustaciones en una base de datos vectorial de código abierto (nuestra base de conocimientos). Durante las pruebas, para cada pregunta del usuario, generamos una incrustación de la pregunta y consultamos la base de datos vectorial (es decir, la base de conocimientos) para obtener incrustaciones relacionadas o similares.

Luego, proporcionamos estos documentos relacionados como contexto y la pregunta del usuario como mensaje a la API GPT 3.5 para que pudiera generar la respuesta. Obtuvimos unos resultados realmente buenos.

Pudimos obtener respuestas a las siguientes preguntas

1. Proporcione un resumen del contrato con<Largest Customer Name>.

2. ¿En qué se avanza<Key Initiative>?

3. ¿La empresa contrató nuevos empleados?

4. ¿La empresa habló de algún secreto comercial?

5. ¿Qué opina el equipo sobre Mongodb Atlas frente a Google Firestore?

6. ¿Qué nuevos productos planea desarrollar la Compañía?

7. ¿Qué proveedor de nube utiliza la empresa?

8. ¿Cuál es el progreso de una iniciativa clave?

9. ¿Los empleados están contentos trabajando en la empresa?

10. ¿El equipo está apagando incendios?

Las respuestas de ChatGPT a las preguntas anteriores fueron asombrosamente precisas e inquietantemente precisas. En cuanto a la pregunta 4, indicó que no quería responderla. Y cuando no disponía de la información adecuada (por ejemplo, la pregunta 9), sí lo indicó en su respuesta.

En Voicegain, siempre hemos sido grandes defensores de por qué la IA de voz debe permanecer al límite. Teníamos escrito sobre ello en el pasado.

Las transcripciones de las reuniones en cualquier negocio son una verdadera mina de oro de información. Ahora, con el poder de los LLM, ahora se pueden consultar con mucha facilidad para obtener información sorprendente. Sin embargo, si estas transcripciones se almacenan en la nube de otro proveedor, es posible que la información confidencial y exclusiva de cualquier empresa quede expuesta a terceros.

Por lo tanto, para las empresas es extremadamente importante que dichas transcripciones se almacenen solo en una infraestructura privada (detrás del firewall). Es muy importante que la TI empresarial se asegure de que esto suceda para proteger la información confidencial y de propiedad exclusiva.

Si está buscando una solución de este tipo, podemos ayudarlo. En Voicegain, ofrecemos Voicegain Transcribe, una solución empresarial para la IA de reuniones. Con Voicegain Transcribe, toda la solución se puede implementar en un centro de datos (sin sistema operativo) o en una nube privada. Puedes leer más sobre esto aquí.



Read more → 
Consideraciones prácticas para los desarrolladores que estén considerando el Whisper ASR de OpenAI
ASR
Consideraciones prácticas para los desarrolladores que estén considerando el Whisper ASR de OpenAI

El 1 de marzo de 2023, Open AI anunció que los desarrolladores podían acceder al modelo Open AI Whisper Speech-to-Text a través de API REST fáciles de usar. OpenAI también lanzó las API para GPT3.5, el LLM detrás del popular producto ChatGPT. Se espera que la próxima versión de LLM, GPT 4, esté disponible para el público en julio de 2023.

Desde el lanzamiento inicial de Open AI Whisper en octubre de 2022, ha sido un gran atractivo para los desarrolladores. Un ASR de código abierto de alta precisión es extremadamente atractivo. El Whisper de OpenAI ha sido entrenado con 680 000 horas de datos de audio, mucho más de lo que utilizan la mayoría de los modelos. Aquí hay un enlace a sus github.

Sin embargo, la comunidad de desarrolladores que busca aprovechar Whisper se enfrenta a tres limitaciones principales:

1. Costos de infraestructura: La ejecución de Whisper, especialmente los modelos grandes y medianos, requiere costosas opciones de procesamiento basadas en GPU que consumen mucha memoria (consulte a continuación).

2. Experiencia interna en IA: Para utilizar el modelo Whisper de Open AI, una empresa tiene que invertir en la creación de un equipo interno de ingeniería de aprendizaje automático que sea capaz de operar, optimizar y dar soporte a Whisper en un entorno de producción. Si bien Whisper ofrece funciones básicas, como la conversión de voz a texto, la identificación del idioma, la puntuación y el formato, aún faltan algunas funciones de inteligencia artificial, como la diarización de los hablantes y la redacción de información personal identificable, que habría que desarrollar. Además, las empresas deberían establecer un NOC en tiempo real para ofrecer un soporte continuo. Incluso contratar y mantener un equipo de desarrolladores a pequeña escala de 2 a 3 personas podría resultar caro, a menos que el volumen de llamadas justifique dicha inversión. Este equipo interno también debe asumir la plena responsabilidad de las tareas relacionadas con la infraestructura de la nube, como el escalado automático y la supervisión de registros, para garantizar el tiempo de actividad.

3. Falta de soporte para tiempo real: Whisper es un modelo de conversión de voz a texto por lotes. Los desarrolladores que necesitan modelos de transmisión de voz a texto deben evaluar otras opciones de ASR/STT.

Al asumir ahora la responsabilidad de alojar este modelo y hacerlo accesible a través de API fáciles de usar, tanto Open AI como Voicegain abordan las dos primeras limitaciones.

Actualización de agosto de 2023: El 5 de agosto de 2023, Voicegain anunció el lanzamiento de Voicegain Whisper, una versión optimizada de Whisper de Open AI que utiliza las API de Voicegain. He aquí un eslabón al anuncio. Además de Voicegain Whisper, Voicegain también ofrece transmisión de voz a texto en tiempo real y en streaming y otras funciones, como la compatibilidad con dos canales y estéreo (necesaria para los centros de llamadas), la diarización de los altavoces y la redacción de información personal identificable. Todo esto se ofrece en la infraestructura compatible con las normas PCI y SOC-2 de Voicegain.


En este artículo se destacan algunos de los puntos fuertes y las limitaciones clave del uso de Whisper, ya sea que utilices las API de Open AI, las API de Voicegain o si lo alojas por tu cuenta.


Puntos fuertes

1. Precisión

En nuestras pruebas comparativas, los modelos Whisper de OpenAI demostraron una alta precisión para una amplia gama de conjuntos de datos de audio. Nuestros ingenieros de aprendizaje automático concluyeron que los modelos Whisper funcionan bien en conjuntos de datos de audio que van desde reuniones, podcasts, conferencias en el aula, vídeos de YouTube y audio para centros de llamadas. Comparamos Whisper-base, Whisper-small y Whisper-Medium con algunos de los mejores motores de ASR/conversión de voz a texto del mercado.

La tasa media de errores de palabras (WER) de Whisper-medium fue del 11,46% para el audio de las reuniones y del 17,7% para el audio de los centros de llamadas. De hecho, esta cifra fue inferior a la de otras grandes empresas, como Microsoft Azure y Google, que ofrecían los WER de STT. Descubrimos que AWS Transcribe tenía un WER que competía con el de Whisper.

He aquí una observación interesante - es posible superar la precisión de reconocimiento de Whisper, sin embargo, sería necesario crear modelos personalizados. Los modelos personalizados son modelos que se entrenan con los datos de audio específicos de nuestros clientes. De hecho, en el caso del audio para centros de llamadas, nuestros ingenieros de aprendizaje automático pudieron demostrar que nuestros modelos de conversión de voz a texto específicos para centros de llamadas eran iguales o incluso mejores que algunos de los modelos de Whisper. Esto tiene sentido desde el punto de vista intuitivo, ya que Open AI no puede acceder fácilmente al audio de los centros de llamadas en Internet.

Póngase en contacto con nosotros por correo electrónico (support@voicegain.ai) si desea revisar y validar/probar estos puntos de referencia de precisión.

2. Asequible en comparación con los grandes jugadores, pero no es la API de Whisper más barata del mercado

El precio de Whisper, de 0,006 USD por minuto (0,36 USD por hora), es mucho más bajo que el de las ofertas de conversión de voz a texto de algunos de los otros grandes actores de la nube. Esto se traduce en un descuento del 75% en Google Speech-to-Text y AWS Transcribe (según los precios a la fecha de esta publicación).

Actualización de agosto de 2023: En el lanzamiento de Voicegain Whisper, Voicegain anunció un precio de lista de 0,0037 USD por minuto (0,225 USD por hora). Este precio es un 37,5% más bajo que el precio de Open AI y se ha conseguido desde que optimizamos el rendimiento de Whisper. Para probarlo, regístrate para obtener una cuenta de desarrollador gratuita. Se proporcionan instrucciones aquí.

3. API Whisper y API ChatGPT, diseñadas para usarse juntas

Lo que también fue significativo fue que Open AI anunció el lanzamiento de las API de ChatGPT con el lanzamiento de las API de Whisper. Los desarrolladores pueden combinar la potencia de los modelos Whisper Speech-to-Text con los modelos GPT 3.5 y GPT 4.0 LLM (el modelo subyacente que utiliza ChatGPT) para impulsar aplicaciones de IA conversacional muy interesantes. Sin embargo, hay una consideración importante: el uso de la API Whisper con LLM como ChatGPT funciona siempre que la aplicación solo utilice audio pregrabado o por lotes (por ejemplo, analizar la grabación de las conversaciones del centro de llamadas para garantizar el control de calidad o el cumplimiento o transcribir y extraer las reuniones de Zoom para recordar el contexto). Los desarrolladores que buscan crear bots de voz o IVR de voz necesitan un buen modelo de conversión de voz a texto en tiempo real.

Limitaciones

1. No es compatible con la transmisión/en tiempo real

Como se indicó anteriormente, Whisper de Open AI no admite aplicaciones que requieran transcripciones en tiempo real o en streaming; esto podría ser relevante para una amplia variedad de aplicaciones de IA que se centran en casos de uso de centros de llamadas, educativos, legales y de reuniones. Si estás buscando un proveedor de API de transmisión de voz a texto, no dudes en ponerte en contacto con nosotros a través de la dirección de correo electrónico que se indica a continuación

2. Costos de infraestructura relacionados con la ejecución de Whisper

El rendimiento de los modelos Whisper, tanto para los modelos medianos como para los grandes, es relativamente bajo. En Voicegain, nuestros ingenieros de aprendizaje automático han probado el rendimiento de los modelos Whisper en varias instancias informáticas populares basadas en GPU de NVIDIA disponibles en nubes públicas (AWS, GCP, Microsoft Azure y Oracle Cloud). También tenemos experiencia real porque procesamos más de 10 millones de horas de audio al año. Como resultado, tenemos una sólida comprensión de lo que se necesita para ejecutar un modelo como Whisper de OpenAI en un entorno de producción.

Hemos descubierto que el coste de infraestructura de ejecutar Whisper-Medium en la nube el entorno está en el rango de 0,07 a 0,10 dólares/hora. Puede ponerse en contacto con nosotros por correo electrónico para obtener las suposiciones detalladas y el respaldo de nuestro modelo de costos. Un factor importante a tener en cuenta es que, en un entorno de producción de un solo inquilino, la infraestructura informática no puede ejecutarse con un uso muy alto. El rendimiento máximo requerido para soportar el tráfico real puede ser varias veces mayor (2 a 3 veces) que el rendimiento promedio. Net-net, determinamos que, si bien los desarrolladores no tendrían que pagar por las licencias de software, los costos de la infraestructura de la nube seguirían siendo sustanciales.

Además de este coste de infraestructura, el mayor gasto de ejecutar Whisper on the Edge (local o nube privada) es que se necesitaría un equipo dedicado de ingeniería y desarrollo de back-end que pudiera dividir la grabación de audio en segmentos que se pudieran enviar a Whisper y gestionar las colas. Este equipo también tendría que supervisar todas las necesidades de seguridad de la información y cumplimiento (por ejemplo, realizar análisis de vulnerabilidades, detectar intrusos, etc.).

b) El precio por canal hace que sea caro para los casos de uso de centros de llamadas y reuniones

A la fecha de publicación de este post, Whisper no cuenta con una API de audio multicanal. Por lo tanto, si tu aplicación incluye audio con varios altavoces, el precio por minuto efectivo de Whisper es igual al número de canales * 0,006. Tanto para reuniones como para centros de llamadas, este precio puede resultar prohibitivo.

3. Características clave que faltan: diarización, marcas de tiempo, redacción de PII

A esta versión de Whisper le faltan algunas funciones clave que los desarrolladores necesitarían. Las tres características importantes que hemos observado son la diarización (separación de los altavoces), las marcas de tiempo y la redacción de información personal.

Próximamente: API Voicegain Whisper

Voicegain está trabajando para lanzar un modelo Voicegain-Whisper a través de sus API. De este modo, los desarrolladores pueden aprovechar las ventajas de una infraestructura compatible con el protocolo PCI/SOC-2 de Voicegain y de funciones avanzadas, como la creación de diarios, la redacción de información de identificación personal, el cumplimiento de las normas PCI y las marcas de tiempo. Para unirse a la lista de espera, envíenos un correo electrónico a sales@voicegain.ai

Acerca de Voicegain

En Voicegain, creamos modelos de voz a texto/ASR basados en el aprendizaje profundo que igualan o superan la precisión de los modelos STT de los grandes actores. Durante más de 4 años, los clientes emergentes y empresariales han utilizado nuestras API para crear y lanzar productos exitosos que procesan más de 600 millones de minutos al año. Nos centramos en los desarrolladores que necesitan una alta precisión (que se logra mediante el entrenamiento de modelos acústicos personalizados) y la implementación en infraestructuras privadas a un precio asequible. Ofrecemos un acuerdo de nivel de servicio preciso en el que garantizamos que un modelo personalizado que se base en tus datos será tan preciso, si no más, que las opciones más populares, como Whisper de Open AI.

También tenemos modelos que están capacitados específicamente en audio para centros de llamadas. Si bien Whisper es un competidor digno (por supuesto, una empresa mucho más grande con 100 veces más recursos que nosotros), como desarrolladores acogemos con satisfacción la innovación que Open AI está liberando en este mercado. Al añadir las API de ChatGPT a nuestra conversión de voz a texto, tenemos previsto ampliar nuestra oferta de API a la comunidad de desarrolladores.

Para crear una cuenta de desarrollador en Voicegain con créditos gratuitos, haz clic aquí.

Read more → 
Voicegain Transcribe como asistente de inteligencia artificial para reuniones local o privado basado en la nube
Edge, Transcripción, Anuncio, Empresa
Voicegain Transcribe como asistente de inteligencia artificial para reuniones local o privado basado en la nube

Al igual que Voicegain Transcribe, existen otras soluciones de inteligencia artificial para reuniones y toma de notas basadas en la nube que funcionan con plataformas de videoconferencias como Zoom y Microsoft Teams. Sin embargo, no cumplen con los requisitos de los clientes empresariales sensibles a la privacidad en los sectores de los servicios financieros, la atención médica, la fabricación y la alta tecnología y otros sectores industriales. Los problemas de privacidad y control de los datos harían que estos clientes desearan implementar un asistente de reuniones basado en inteligencia artificial en su infraestructura privada, detrás de su firewall corporativo.

Voicegain Transcribe, creado para Edge: nube local o privada

Voicegain Transcribe se ha diseñado y desarrollado para el caso de uso de centros de datos locales o nubes privadas virtuales. Voicegain ya lo ha implementado en una gran empresa mundial que figura en la lista Fortune 50, lo que lo convierte en una de las primeras soluciones de asistente de reuniones con inteligencia artificial que funcionan realmente en las instalaciones y en la nube privada del mercado.

Las principales características de Voicegain Transcribe son:

  1. Se integra con Zoom Local Recordings: además de la privacidad y el control de los datos, esto garantiza que las etiquetas de los altavoces sean 100% precisas
  2. Los modelos de IA personalizados (tanto los modelos de voz a texto como los de NLU que resumen la reunión y extraen los elementos clave) se entrenan en función de los datos de los clientes y se implementan detrás del firewall empresarial
  3. Intégralo con el SSO empresarial y los sistemas de correo electrónico para el registro
  4. Se integra con el almacenamiento local y las bases de datos

1. Amplíe las grabaciones locales para obtener etiquetas de altavoces con una precisión total

Las grabaciones locales de Zoom son grabaciones de sus reuniones que se guardan en el disco duro de su ordenador en su sistema de archivos y no en la nube de Zoom. Esta función garantiza que el contenido de audio y vídeo grabado, confidencial y sensible a la privacidad, se almacene en la empresa y Zoom no pueda acceder a él.

Voicegain ofrece una aplicación de escritorio para Windows (la aplicación para Mac OS está en la hoja de ruta) que accede a estas grabaciones de Zoom y las envía para su transcripción y NLU.


La otra gran ventaja de Zoom Local Recordings es que Zoom admite la grabación de una pista de audio independiente para cada participante. Esta función aún no está disponible en su grabación en la nube (a partir de febrero de 2023). De este modo, Voicegain Transcribe with Zoom Local Recordings puede asignar etiquetas a los altavoces con una precisión del 100%.

Hay proveedores que ofrecen asistentes de reuniones que se unen desde la nube y graban. Sin embargo, cuando se elige esta solución, el asistente de reuniones solo tiene acceso a un archivo de audio mono combinado o fusionado que incluye el audio de todos los participantes. Por lo tanto, la solución Meeting AI tiene que «diarizar» el audio de la reunión, lo cual es un problema intrínsecamente difícil de resolver. Incluso los modelos más modernos de diarización y separación de altavoces solo tienen una precisión del 83 al 85%.

2. Modelos de IA personalizables

Para que cualquier solución de Meeting AI extraiga información significativa, la precisión de la transcripción subyacente es extremadamente importante. Si la conversión de voz a texto no es precisa, ni siquiera el mejor algoritmo de NLU o el modelo lingüístico más amplio pueden ofrecer análisis valiosos y precisos.

Voicegain puede entrenar la conversión de voz a texto subyacente para que ayude a transcribir con precisión diferentes acentos, palabras específicas del cliente y el entorno acústico específico.

3. Sistemas de correo electrónico y SSO empresariales

Voicegain se integra con las soluciones de SSO empresarial mediante SAML. Voicegain también se integra con los sistemas de correo electrónico internos para simplificar las tareas de administración de usuarios, como el registro, el restablecimiento de contraseñas y los cambios, adiciones y eliminaciones.

4. Almacenamiento y base de datos empresariales

Todo el audio, las transcripciones y los análisis basados en NLU de las reuniones se almacenan en bases de datos NoSQL y SQL controladas por la empresa. Las empresas pueden utilizar personal interno para mantener o administrar estas bases de datos y almacenamiento, o también pueden utilizar una opción de base de datos gestionada, como MongoDB Atlas, o Managed PostgreSQL de un proveedor de nube como Azure, AWS o GCP

Si está buscando una solución de IA para reuniones que pueda implementarse completamente detrás de su firewall corporativo o en su propia infraestructura de nube privada, Voicegain Transcribe es la solución perfecta para sus necesidades.

¿Tiene preguntas? Nos encantaría saber de ti. Envíanos un correo electrónico a -sales@voicegain.ai o support@voicegain.ai y estaremos encantados de ofrecerte más detalles.

Read more → 
Presentamos Voicegain Zoom Meeting Assistant para grabaciones locales
Anuncio, Empresa, Perspectivas
Presentamos Voicegain Zoom Meeting Assistant para grabaciones locales

Estamos muy contentos de anunciar el lanzamiento de Zoom Meeting Assistant para grabaciones locales. Está disponible de inmediato para todos los usuarios de Voicegain Transcribe que tengan un dispositivo Windows. El Zoom Meeting Assistant se puede instalar en ordenadores que tengan Windows 10 o Windows 11 como sistema operativo.

¿Qué son las grabaciones locales? Zoom ofrece dos formas de grabar una reunión: 1) Grabación en la nube: los usuarios de Zoom pueden guardar la grabación de la reunión en la nube de Zoom. 2) Grabación local: la grabación de la reunión se guarda localmente en el ordenador del usuario de Zoom. Estas grabaciones se guardan en la carpeta Zoom predeterminada del sistema de archivos. Zoom procesa la grabación y la pone a disposición en esta carpeta unos minutos después de que finalice la reunión.

A continuación se muestra una captura de pantalla de cómo un usuario de Zoom puede iniciar una grabación local.

Grabación local con zoom

Ventajas de las grabaciones locales de Zoom

Hay cuatro grandes beneficios de usar grabaciones locales

  1. Privacidad de datos: La razón principal para usar Local Recordings es la privacidad de los datos. Muchos clientes de Zoom son clientes empresariales de sectores regulados, como los servicios financieros, las telecomunicaciones, la atención médica y el gobierno. Las políticas empresariales de seguridad de la información evitarían el uso de la nube de terceros, como Zoom, para almacenar datos confidenciales, como las transcripciones de las reuniones. Incluso para los clientes empresariales de sectores no regulados, una proporción significativa del contenido de las reuniones es confidencial y de naturaleza exclusiva. Además, muchos países tienen requisitos estrictos de residencia de datos. En todos los escenarios anteriores, Local Recordings es la solución ideal. Dado que la aplicación Voicegain Transcribe se puede implementar en el centro de datos o en la nube privada virtual, puede ser una solución que se encuentre «detrás del firewall corporativo».
  2. Pista de audio independiente para altavoces: La grabación local de Zoom admite una pista de audio independiente para cada participante de la reunión. Esto tiene múltiples ventajas, entre las que se incluyen una transcripción más precisa y el etiquetado automático de los oradores. Para habilitarlo, todo lo que necesita hacer es abrir la aplicación Zoom en su escritorio y hacer clic en Configuración -> Grabaciones. En Grabaciones locales, como se muestra a continuación, asegúrese de marcar la casilla «Grabar un archivo de audio independiente de cada participante». (Captura de pantalla siguiente)
  3. Funciona con cuentas gratuitas de Zoom: Zoom ofrece la función de grabación local para todos los usuarios de Zoom, incluso para los de la capa gratuita. Esto tiene sentido porque con la grabación local, el usuario es responsable de los costes de almacenamiento. Como Voicegain Transcribe tiene un plan gratuito para siempre, los usuarios ahora tienen una solución gratuita de transcripción de reuniones de Zoom que es precisa y privada. La función de grabación en la nube de Zoom solo está disponible para usuarios de pago.
  4. Control de grabaciones: La mayoría de los usuarios de Zoom, y especialmente los usuarios empresariales de una organización de TI, preferirían conservar el acceso a las grabaciones de las reuniones independientemente de Zoom. La función de grabación local permite a los usuarios hacerlo.
Habilitar la grabación multipista en Zoom

Cómo empezar

Para usar Voicegain Zoom Meeting Assistant, solo hay dos requisitos

1. Los usuarios primero deben registrarse para obtener una cuenta de Voicegain Transcribe. Voicegain ofrece un plan gratuito para siempre (hasta 2 horas de transcripción al mes) y los usuarios pueden registrarse con él eslabón. Puede obtener más información sobre Voicegain Transcribe aquí.

2. Deberían tener una computadora con Windows 10 u 11 como sistema operativo.

Esta aplicación para Windows se puede descargar desde la página «Aplicaciones» de Voicegain Transcribe. Una vez instalada la aplicación, los usuarios podrán acceder a ella desde la barra de tareas (o bandeja) de Windows. Todo lo que tienen que hacer es iniciar sesión en la aplicación Voicegain Transcribe desde el Meeting Assistant introduciendo su nombre de usuario y contraseña de Transcribe.

Una vez que la aplicación Meeting Assistant inicia sesión en Voicegain Transcribe, hace dos cosas

1. Escanea constantemente la carpeta Zoom en busca de nuevas grabaciones locales de las reuniones. En cuanto encuentra una grabación de este tipo, la envía o sube a Voicegain Transcribe para transcribir, resumir y extraer los elementos clave (acciones, problemas, bloqueos de ventas, preguntas, riesgos, etc.)

2. También puede unirse a cualquier reunión de Zoom como asistente de IA del usuario. Además, esta función funciona tanto si el usuario es el anfitrión de la reunión de Zoom como si solo es un participante. Al unirse a la reunión, el asistente de la reunión puede recopilar información sobre todos los participantes de la reunión.

Características interesantes de nuestra hoja de ruta

Si bien la aplicación Meeting Assistant actual solo funciona para usuarios de Windows, Voicegain tiene aplicaciones nativas para Mac, Android y iPhone como parte de su hoja de ruta de productos.

Ponerse en contacto

Envíenos un correo electrónico a support@voicegain.ai si tiene alguna pregunta.

Read more → 
Punto de referencia de precisión de voz a texto: diciembre de 2022
Punto de referencia
Punto de referencia de precisión de voz a texto: diciembre de 2022

Han pasado otros 6 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft, luego Amazon, seguido de cerca por Voicegain, luego el nuevo Google latest_long y el último Google Enhanced.

Si bien el pedido se ha mantenido igual al del último punto de referencia, tres empresas (Amazon, Voicegain y Microsoft) mostraron una mejora significativa.

Desde el último punto de referencia, en Voicegain hemos invertido en más formación, principalmente en conferencias, impartidas a través de zoom y en directo. La formación con este tipo de datos se tradujo en un aumento adicional de la precisión de nuestro modelo. De hecho, estamos en medio de una nueva ronda de formación centrada en las conversaciones en los centros de llamadas.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron aproximadamente en la misma cantidad.
  • Los reconocedores de Google no mejoraron. De hecho, sus cifras de WER son peores que en junio.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez, solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube) con un WER del 25,48%

Publicamos esto porque queremos asegurarnos de que cualquier tercero (cualquier proveedor, desarrollador o analista de ASR) pueda reproducir estos resultados.

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra la tasa de errores de palabras (WER) promedio y mediana

Solo 3 reconocedores han mejorado en los últimos 6 meses.

  • Amazon ganó un 0,68% en la mediana y un 0,40% en la media
  • La voz gana un 0,47% en la mediana y un 0,45% en la media
  • Microsoft ganó un 0,33% en la mediana y un 0,25% en la media

Los datos detallados de este punto de referencia indican que Amazon es mejor que Voicegain en los archivos de audio con un WER por debajo de la mediana y peor en los archivos de audio con una precisión por encima de la mediana. Por lo demás, AWS y Voicegain tienen una similitud muy similar. Sin embargo, también hemos realizado un análisis de rendimiento específico para cada cliente en el que ha sido al revés: Amazon es ligeramente mejor en los archivos de audio con un WER por encima de la media que en Voicegain, pero Voicegain es mejor en los archivos de audio con un WER por debajo de la media. En realidad, depende del tipo de archivos de audio, pero en general, nuestros resultados indican que Voicegain se parece mucho a AWS.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 36 de los 63 archivos
  • Amazon fue el mejor con 15 archivos.
  • Voicegain fue mejor en 9 archivos de audio
  • La última versión de Google fue mejor en un solo archivo
  • Google Video Enhanced funcionó mejor con 2 archivos: estos fueron los 2 más fáciles (Google obtuvo un WER del 0,82% y el 1,52%), uno era Sherlock Holmes de Librivox y el otro The Art of War de Sun Tzu, también un audiolibro de Librivox.

Mejoras a lo largo del tiempo

Ya hemos realizado el mismo punto de referencia 5 veces para poder dibujar gráficos que muestren cómo ha mejorado cada uno de los reconocedores en los últimos 2 años y 3 meses. (Ten en cuenta que los dos últimos resultados de Google provienen del modelo más reciente, mientras que otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace aproximadamente medio año. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control