¿Por qué la IA de voz conversacional debería estar al límite?

Las empresas buscan cada vez más extraer el tesoro de información de las conversaciones de voz mediante la IA. Estas conversaciones tienen lugar a diario en plataformas de videoconferencias como Zoom, Google Meet y Microsoft Teams, y por teléfono en el centro de contacto (que se lleva a cabo en las plataformas de telefonía CCaaS o de centros de contacto locales).

¿Qué es Voice AI?

IA de voz o IA conversacional se refiere a convertir el audio de estas conversaciones en texto mediante la tecnología de reconocimiento de voz/ASR y a extraer el texto transcrito para obtener análisis e información mediante NLU. Además, la IA se puede utilizar para detectar sentimientos, energía y emociones tanto en el audio como en el texto. Las ideas de la NLU incluyen la extracción de los puntos clave de las reuniones. Esto incluye frases semánticamente coincidentes asociadas a temas como los temas de acción, los problemas, los bloqueadores de ventas, la agenda, etc.

En los últimos años, el espacio de la IA conversacional ha visto a muchos jugadores lanzar productos de gran éxito y ampliar sus negocios. Sin embargo, la mayoría de estas populares opciones de IA de voz disponibles en el mercado son ofertas de SaaS para múltiples usuarios. Se implementan en un gran proveedor de nube pública como Amazon, Google o Microsoft. A primera vista, esto tiene sentido. La mayoría de las aplicaciones de software empresarial que automatizan los flujos de trabajo en áreas funcionales como las ventas y el marketing (CRM), los recursos humanos, las finanzas y la contabilidad o el servicio al cliente están diseñadas como ofertas de SaaS para varios usuarios. La transición a la nube ha sido una tendencia secular para las aplicaciones empresariales y, por lo tanto, la IA de voz ha seguido este camino.

Sin embargo, en Voicegain, creemos firmemente que se requiere un enfoque diferente para un gran segmento del mercado. Proponemos que la arquitectura Edge que utilice un modelo de usuario único es el camino a seguir para las aplicaciones de inteligencia artificial de voz.

¿Por qué tiene sentido el Edge para la IA conversacional?

Por Edge, nos referimos a lo siguiente

1) Los modelos de IA para el reconocimiento de voz, la conversión de voz a texto y la NLU se ejecutan en la infraestructura de un solo inquilino del cliente, ya sea que se encuentre completamente en un centro de datos o en una VPC dedicada con un proveedor de nube.

2) La aplicación Conversational AI, que suele ser una aplicación basada en un navegador que utiliza estos modelos de IA, también se implementa completamente detrás del firewall.

Creemos que las ventajas de la arquitectura Edge/On-Prem para la IA conversacional/de voz se deben a los cuatro factores siguientes:

1. Requisitos de privacidad, confidencialidad y residencia de datos

Con mucha frecuencia, las conversaciones en las reuniones y los centros de llamadas son delicadas desde una perspectiva empresarial. Los clientes empresariales de muchos mercados verticales (servicios financieros, atención médica, defensa, etc.) no se sienten cómodos almacenando las grabaciones y transcripciones de estas conversaciones en la infraestructura en la nube del proveedor de SaaS. Piense en una información altamente confidencial, como la estrategia del producto, el estado de las principales operaciones, los errores y las vulnerabilidades del software o incluso en una conversación financiera delicada antes de publicar los resultados de una empresa que cotiza en bolsa. Muchos países también imponen requisitos estrictos de residencia de datos desde el punto de vista legal y de cumplimiento. Esto hace que la arquitectura Edge (local o de VPC) sea muy atractiva.

2. Precisión y personalización del modelo

A diferencia de las aplicaciones SaaS basadas exclusivamente en el flujo de trabajo, las aplicaciones de IA de voz incluyen modelos de IA basados en el aprendizaje profundo: conversión de voz a texto y NLU. Para obtener los análisis correctos, es fundamental que estos modelos de IA (especialmente los modelos acústicos del motor de reconocimiento de voz y conversión de voz a texto) se entrenen en función de los datos de audio específicos del cliente. Esto se debe a que cada caso de uso del cliente tiene características de audio únicas que limitan la precisión de un modelo multiusuario listo para usar. Estas características de audio únicas se relacionan con

1. Jerga industrial: acrónimos, términos técnicos

2. Acentos únicos

3. Nombres de marcas, productos y personas

4. Entorno acústico y cualquier otro tipo de audio.

Sin embargo, la mayoría de los proveedores de SaaS con IA actuales utilizan un modelo único para atender a todos sus clientes. Y esto hace que el reconocimiento y la transcripción de voz no sean óptimos, lo que a su vez da como resultado una NLU subóptima.

3. Latencia (para aplicaciones de IA de voz en tiempo real)

Para las aplicaciones de IA de voz en tiempo real, por ejemplo, en el centro de llamadas, existe una ventaja arquitectónica para los modelos de IA al estar en la misma LAN que las fuentes de audio.

4. Asequibilidad

Para muchas empresas, las aplicaciones de IA conversacional de SaaS son económicas para empezar, pero se vuelven muy caras a gran escala.

‍

Oferta Edge de Voicegain

Voicegain ofrece una implementación perimetral en la que tanto la plataforma principal como una aplicación web como Voicegain Transcribe pueden funcionar completamente en la infraestructura de nuestros clientes. Ambas se pueden colocar «detrás de un firewall empresarial».

Lo que es más importante, Voicegain ofrece un conjunto de herramientas de capacitación y un proceso para que los clientes creen y entrenen modelos acústicos personalizados que impulsen estas aplicaciones de IA de voz.

¿Tiene alguna pregunta? ¿O simplemente quieres hablar?

Si tiene alguna pregunta o desea hablar sobre esto con más detalle, póngase en contacto con nuestro equipo de soporte por correo electrónico (support@voicegain.ai)

‍