Cómo seleccionar un ASR de voz a texto para copilotos de IA y asistencia de agentes en tiempo real con tecnología de LLM

En este artículo se describen los criterios de evaluación necesarios para seleccionar un sistema de conversión de voz a texto o ASR en tiempo real para las aplicaciones de copilotos de IA con tecnología de LLM y de asistencia a agentes en tiempo real en el centro de atención. Este artículo está dirigido a los gerentes de producto y a los líderes de ingeniería de empresas de SaaS con IA y centros de contacto y a las organizaciones de directores de TI y CDO de empresas que desean crear copilotos de IA de este tipo.

El rumor en torno a Co-Pilot & Realtime Agent Assist con tecnología de Gen AI

Un caso de uso muy popular para la IA generativa y los LLM es el copiloto de IA o la asistencia de agente en tiempo real en los centros de contacto. Al transcribir una conversación entre un agente y un cliente en tiempo real y enviar la transcripción a los LLM modernos, como GPT de Open AI, LLAMA2 de Facebook o Gemini de Google, los centros de contacto pueden guiar a sus agentes para que gestionen sus llamadas de forma más eficaz y eficiente.

Un copiloto de IA puede ofrecer grandes beneficios empresariales. Puede mejorar la CSAT y el NPS, ya que la IA puede buscar y presentar rápidamente al agente la base de conocimientos relevante, lo que le permite tener más conocimientos y ser más productivo. También puede reducir los costos de tiempo completo de los agentes al reducir el tiempo de espera y eliminar el tiempo de finalización.

Además, al crear una biblioteca de llamadas «estándar» para varios tipos de llamadas clave, LLM también puede ofrecer asesoramiento personalizado a los agentes de forma automatizada mediante la IA generativa. Las empresas están descubriendo que, si bien los copilotos impulsados por la generación de inteligencia artificial son especialmente beneficiosos para los nuevos empleados, también ofrecen beneficios a los agentes con antigüedad.

La creación de un copiloto con tecnología de inteligencia artificial requiere tres componentes principales: a) un motor de ASR/voz a texto en tiempo real para la transcripción, 2) un LLM para comprender la transcripción y 3) aplicaciones web orientadas al agente y al supervisor/gerente. Esta entrada de blog se centra en el primer componente: el motor ASR/Speech-to-Text en tiempo real.

Estos son los cuatro factores clave que debe tener en cuenta al evaluar el motor ASR/Speech-to-Text en tiempo real.

1. Facilidad de integración con la fuente de audio

El primer paso para cualquier copiloto de IA es transmitir el contenido multimedia en tiempo real del agente y del cliente a un ASR que admita la transmisión de voz a texto. Esta es sin duda la decisión de diseño de ingeniería más complicada de este proceso.

Hay dos enfoques principales: 1) La transmisión de audio desde el lado del servidor. En un centro de contacto empresarial, esto implicaría bifurcar el contenido multimedia de un controlador de borde de sesión empresarial o de la plataforma de centro de contacto (que es la IP-PBX). 2) Transmitir el audio desde el lado del cliente, es decir, desde el escritorio del agente. El escritorio de un agente puede ser un cliente pesado basado en un sistema operativo o un cliente ligero basado en un navegador; esto depende de la plataforma CCAAS/Contact-center que se utilice.

La selección del método de integración es una decisión complicada. Si bien ambos enfoques tienen ventajas y desventajas, los enfoques del lado del servidor han sido la opción preferida. Esto se debe a que evitaría la necesidad de instalar el software de cliente y planificar los recursos informáticos en el nivel de escritorio del agente.

Sin embargo, si tiene un centro de contacto local, como Avaya, Cisco o Genesys, la integración puede ser más complicada. Esto se debe a que cada plataforma tiene su propio mecanismo para bifurcar estas transmisiones multimedia y, además, es necesario instalar el ASR/STT detrás del firewall corporativo (o abrirlo para acceder a un ASR/STT basado en la nube).

Net-net, también hay argumentos a favor del streaming del lado del cliente, ya que es posible que no todas las empresas tengan la experiencia disponible dentro de la empresa.

Existen plataformas CCaaS modernas como Amazon Connect, Twilio Flex, Genesys Cloud y Five9 que ofrecen API y acceso programable a las transmisiones multimedia. Estás de suerte si tienes una de estas plataformas. Además, si el acceso a la PSTN es a través de una plataforma CPaaS programable, como Twilio, Cable de señal, Telnyx etc., entonces es bastante

2. Soporte de protocolo desde el ASR/STT

Una vez que haya finalizado un método para bifurcar el audio, tendrá que considerar los protocolos estándar compatibles con el motor ASR/Speech-to-Text. Lo ideal sería que el motor ASR/STT fuera flexible y admitiera múltiples opciones. Uno de los enfoques más comunes en la actualidad para transmitir audio a través de websockets. Es importante confirmar que el proveedor de ASR/Speech-to-Text admite el envío de audio estéreo o de dos canales a través de websockets. Existen otros métodos: compartir audio a través de gRPC y mediante RTP sin procesar.

3. Velocidad/latencia del modelo ASR/voz a texto

La siguiente gran consideración es la latencia del modelo ASR/Speech-to-Text en tiempo real, que a su vez depende de la arquitectura de red neuronal subyacente del modelo. Para poder ofrecer recomendaciones oportunas al agente, es importante centrarse en los ASR que pueden entregar transcripciones palabra por palabra en menos de un segundo e, idealmente, en unos 500 milisegundos. Esto se debe a que la recopilación y el envío de la transcripción a los LLM y, a continuación, la entrega de la información al escritorio del agente, conlleva una latencia adicional.

4. Asequibilidad

Por último, pero no por ello menos importante, es muy importante que el precio de la transcripción en tiempo real sea asequible para crear un argumento comercial sólido para AI Co-Pilot. Es importante confirmar que el canal del agente y el de la persona que llama no se fijan precios de forma independiente, ya que esto a menudo acaba con los argumentos comerciales.

Si estás creando un copiloto de IA impulsado por un LLM y te gustaría entablar un debate más profundo, ¡envíanos un mensaje! Puedes ponerte en contacto con nosotros en sales@voicegain.ai.

‍