API | Speech-to-Text Platform

Consulte nuestro blog para obtener información, puntos de referencia, códigos de muestra y más

Blog Voicegain

Transcripción

Transcripción y notas de reuniones de Zoom con Transcribe, un asistente de reuniones con IA

Por

Arun Santhebennur

•

lectura mínima

Como anunciamos aquí, Voicegain Transcribe es un asistente de reuniones basado en inteligencia artificial que puedes llevar contigo a todas tus reuniones de trabajo. Así que, independientemente de la plataforma de reuniones (Zoom, Microsoft Teams, Webex o Google Meet), Voicegain Transcribe tiene una forma de ayudarte.

‍

Ahora tenemos noticias interesantes para los usuarios que organizan reuniones de Zoom con regularidad. Los usuarios de Voicegain Transcribe que utilizan Windows ahora tienen una forma gratuita, fácil y cómoda de acceder a todas las transcripciones y notas de sus reuniones de Zoom. Los usuarios de Transcribe ahora pueden descargar una nueva aplicación cliente que hemos desarrollado, el Voicegain Zoom Meeting Assistant para grabaciones locales, en su dispositivo.

‍

Con esta aplicación cliente, cualquier grabación local de una reunión de Zoom (que se explica a continuación) se enviará automáticamente a Voicegain Transcribe. Los modelos de IA de alta precisión de Voicegain procesan posteriormente la grabación para generar tanto la transcripción (conversión de voz a texto) como las actas de la reunión y los temas discutidos (NLU).

‍

Como siempre, empiezas con un plan gratuito que no caduca. Así que puedes obtener comenzó hoy sin tener que configurar tu información de pago.

‍

¿Qué es la grabación local de Zoom?

Zoom ofrece dos opciones para grabar reuniones en su plataforma: 1) Grabación local y 2) Grabación en la nube.

La grabación local de Zoom es una grabación de la reunión que se guarda en el disco duro del dispositivo del usuario. El uso de la grabación local de Zoom tiene dos ventajas distintas

Gratuito: Zoom ofrece esta función de grabación local incluso en cuentas gratuitas de Zoom. Por lo tanto, puede probar esta función incluso si tiene una cuenta de Zoom no pagada
Privacidad y control: El contenido de audio de la reunión puede contener información sensible y confidencial. Con una grabación local, el audio no se comparte con Zoom

La grabación en la nube de Zoom es cuando la grabación de la reunión se almacena en su cuenta de Zoom Cloud en los servidores de Zoom. Actualmente, Voicegain no se integra directamente con Zoom Cloud Recording (sin embargo, está en nuestra hoja de ruta). Mientras tanto, un usuario puede descargar la grabación en la nube y subirla a Voicegain Transcribe para transcribir y analizar las grabaciones guardadas en la nube.

¿Cómo funciona?

Crea una cuenta gratuita con Voicegain Transcribe. Aquí hay un eslabón a nuestra página de registro. Elige la primera opción.

En el menú de la izquierda, haz clic en Aplicaciones. Visitaría una página como la que se muestra a continuación

Página de descarga de Zoom Meeting Assistant

‍

Por favor, consulte esto artículo de la base de conocimientos para ver los pasos a seguir después de descargar el Meeting Assistant.

Grabación de pistas de audio de altavoces individuales

Zoom le permite grabar pistas de audio de altavoces individuales por separado como archivos de audio independientes. La captura de pantalla anterior muestra cómo habilitar esta función en Zoom.

Voicegain Zoom Meeting Assistant for Local Recording permite subir estos archivos de audio independientes a Voicegain Transcribe para que puedas obtener transcripciones precisas de los ponentes

Compatibilidad con la interfaz de usuario local o de VPC y de marca blanca

Toda la plataforma Voicegain, incluida la aplicación Voicegain Transcribe y los modelos de IA, se puede implementar en las instalaciones (o en VPC), lo que brinda a la empresa una oferta de transcripción y análisis de reuniones totalmente segura.

¿Tiene alguna pregunta?

Si tiene alguna pregunta, regístrese hoy y póngase en contacto con nuestro equipo de soporte a través de la aplicación.

‍

Leer más →

Edge

¿Por qué la IA de voz conversacional debería estar al límite?

Por

Arun Santhebennur

•

lectura mínima

Las empresas buscan cada vez más extraer el tesoro de información de las conversaciones de voz mediante la IA. Estas conversaciones tienen lugar a diario en plataformas de videoconferencias como Zoom, Google Meet y Microsoft Teams, y por teléfono en el centro de contacto (que se lleva a cabo en las plataformas de telefonía CCaaS o de centros de contacto locales).

¿Qué es Voice AI?

IA de voz o IA conversacional se refiere a convertir el audio de estas conversaciones en texto mediante la tecnología de reconocimiento de voz/ASR y a extraer el texto transcrito para obtener análisis e información mediante NLU. Además, la IA se puede utilizar para detectar sentimientos, energía y emociones tanto en el audio como en el texto. Las ideas de la NLU incluyen la extracción de los puntos clave de las reuniones. Esto incluye frases semánticamente coincidentes asociadas a temas como los temas de acción, los problemas, los bloqueadores de ventas, la agenda, etc.

En los últimos años, el espacio de la IA conversacional ha visto a muchos jugadores lanzar productos de gran éxito y ampliar sus negocios. Sin embargo, la mayoría de estas populares opciones de IA de voz disponibles en el mercado son ofertas de SaaS para múltiples usuarios. Se implementan en un gran proveedor de nube pública como Amazon, Google o Microsoft. A primera vista, esto tiene sentido. La mayoría de las aplicaciones de software empresarial que automatizan los flujos de trabajo en áreas funcionales como las ventas y el marketing (CRM), los recursos humanos, las finanzas y la contabilidad o el servicio al cliente están diseñadas como ofertas de SaaS para varios usuarios. La transición a la nube ha sido una tendencia secular para las aplicaciones empresariales y, por lo tanto, la IA de voz ha seguido este camino.

Sin embargo, en Voicegain, creemos firmemente que se requiere un enfoque diferente para un gran segmento del mercado. Proponemos que la arquitectura Edge que utilice un modelo de usuario único es el camino a seguir para las aplicaciones de inteligencia artificial de voz.

¿Por qué tiene sentido el Edge para la IA conversacional?

Por Edge, nos referimos a lo siguiente

1) Los modelos de IA para el reconocimiento de voz, la conversión de voz a texto y la NLU se ejecutan en la infraestructura de un solo inquilino del cliente, ya sea que se encuentre completamente en un centro de datos o en una VPC dedicada con un proveedor de nube.

2) La aplicación Conversational AI, que suele ser una aplicación basada en un navegador que utiliza estos modelos de IA, también se implementa completamente detrás del firewall.

Creemos que las ventajas de la arquitectura Edge/On-Prem para la IA conversacional/de voz se deben a los cuatro factores siguientes:

1. Requisitos de privacidad, confidencialidad y residencia de datos

Con mucha frecuencia, las conversaciones en las reuniones y los centros de llamadas son delicadas desde una perspectiva empresarial. Los clientes empresariales de muchos mercados verticales (servicios financieros, atención médica, defensa, etc.) no se sienten cómodos almacenando las grabaciones y transcripciones de estas conversaciones en la infraestructura en la nube del proveedor de SaaS. Piense en una información altamente confidencial, como la estrategia del producto, el estado de las principales operaciones, los errores y las vulnerabilidades del software o incluso en una conversación financiera delicada antes de publicar los resultados de una empresa que cotiza en bolsa. Muchos países también imponen requisitos estrictos de residencia de datos desde el punto de vista legal y de cumplimiento. Esto hace que la arquitectura Edge (local o de VPC) sea muy atractiva.

2. Precisión y personalización del modelo

A diferencia de las aplicaciones SaaS basadas exclusivamente en el flujo de trabajo, las aplicaciones de IA de voz incluyen modelos de IA basados en el aprendizaje profundo: conversión de voz a texto y NLU. Para obtener los análisis correctos, es fundamental que estos modelos de IA (especialmente los modelos acústicos del motor de reconocimiento de voz y conversión de voz a texto) se entrenen en función de los datos de audio específicos del cliente. Esto se debe a que cada caso de uso del cliente tiene características de audio únicas que limitan la precisión de un modelo multiusuario listo para usar. Estas características de audio únicas se relacionan con

1. Jerga industrial: acrónimos, términos técnicos

2. Acentos únicos

3. Nombres de marcas, productos y personas

4. Entorno acústico y cualquier otro tipo de audio.

Sin embargo, la mayoría de los proveedores de SaaS con IA actuales utilizan un modelo único para atender a todos sus clientes. Y esto hace que el reconocimiento y la transcripción de voz no sean óptimos, lo que a su vez da como resultado una NLU subóptima.

3. Latencia (para aplicaciones de IA de voz en tiempo real)

Para las aplicaciones de IA de voz en tiempo real, por ejemplo, en el centro de llamadas, existe una ventaja arquitectónica para los modelos de IA al estar en la misma LAN que las fuentes de audio.

4. Asequibilidad

Para muchas empresas, las aplicaciones de IA conversacional de SaaS son económicas para empezar, pero se vuelven muy caras a gran escala.

‍

Oferta Edge de Voicegain

Voicegain ofrece una implementación perimetral en la que tanto la plataforma principal como una aplicación web como Voicegain Transcribe pueden funcionar completamente en la infraestructura de nuestros clientes. Ambas se pueden colocar «detrás de un firewall empresarial».

Lo que es más importante, Voicegain ofrece un conjunto de herramientas de capacitación y un proceso para que los clientes creen y entrenen modelos acústicos personalizados que impulsen estas aplicaciones de IA de voz.

¿Tiene alguna pregunta? ¿O simplemente quieres hablar?

Si tiene alguna pregunta o desea hablar sobre esto con más detalle, póngase en contacto con nuestro equipo de soporte por correo electrónico (support@voicegain.ai)

‍

Leer más →

Casey

AI Voice Agent Platform

Transcribe

API de ganancia de voz

APIs clave

Regístrese para acceder a todas las API