Conoce a Casey, el asistente de voz con IA generativa de Voicegain. Casey hace que las personas que llaman entablen una conversación natural que reemplaza a tu antiguo IVR. En el caso de las llamadas que requieren asistencia humana, Casey transfiere la llamada y se convierte en un copiloto de inteligencia artificial en tiempo real para guiar a los agentes del centro de llamadas.
La IA generativa está interrumpiendo el servicio de atención al cliente. Los modelos lingüísticos de gran tamaño pueden entender y conducir conversaciones humanas a gran escala. Voicegain puede ayudarte a implementar un asistente de voz basado en inteligencia artificial generativa que puede reemplazar los IVR tradicionales basados en árboles y actuar como entrenador de inteligencia artificial para el personal de tu call center de primera línea.
Voicegain tiene su propio ASR basado en el aprendizaje profundo altamente preciso y optimizado que se integra con los LLM para captar a las personas que llaman y ayudar a los agentes. Dado que Voicegain es propietario de este ASR, se puede ajustar y entrenar según el vocabulario del cliente. Una entrada mal reconocida en un modelo lingüístico extenso tendrá como resultado una mala experiencia de llamada.
Los fundadores de Voicegain crearon y administraron IVR compatibles con voz para grandes empresas como Charter y Comcast para Más de 15 años. Al haber automatizado millones de llamadas, tenemos un conocimiento profundo de la creación de interfaces de usuario de voz fáciles de usar y eficientes y de lo que se necesita para ofrecer la automatización en el mundo real.
La infraestructura de telefonía segura de Voicegain admite la integración directa de VoIP con operadores SIP y plataformas y sistemas telefónicos CCaaS. Nuestra plataforma puede grabar, transcribir y monitorear todo el ciclo de vida de la interacción de una persona que llama, desde el IVR de la interfaz de usuario hasta cuando el agente cuelga el teléfono.
Voicegain licencia su plataforma Voice AI en función del número de segmentos automatizados de una conversación. Esto proporciona un ROI claro a nuestros clientes. Por ejemplo, la validación de un cliente es un segmento.
Voicegain trabaja con tu operador SIP para configurar todo tu tráfico gratuito para que finalice en los URI de SIP o en los DID específicos de cada país proporcionados por Voicegain. En otras palabras, Voicegain se convierte en el IVR principal para todas tus llamadas al servicio de atención al cliente.
Casey, el asistente de voz impulsado por IA generativa de Voicegain, saludará e involucrará a las personas que llaman en una conversación natural. Tus clientes pueden hablar en frases completas. Los modelos de IA de Casey se basan en conversaciones anteriores y artículos de la base de conocimientos.
Casey puede (1) responder a una pregunta rutinaria y terminar la llamada o (2) transferir la llamada a una cola específica en su centro de llamadas para obtener más ayuda. Voicegain se integra con las principales plataformas de centros de contacto, tanto en la nube como en las instalaciones.
Cuando un agente recibe una llamada, se le presenta un resumen de los datos recopilados por Casey y, por lo tanto, puede continuar la conversación desde donde Casey la dejó. Casey permanece atento a la llamada y guía a los agentes en tiempo real. Esto reduce el tiempo de espera en su centro de atención al cliente.
El 1 de marzo de 2023, Open AI anunció que los desarrolladores podían acceder al modelo Open AI Whisper Speech-to-Text a través de API REST fáciles de usar. OpenAI también lanzó las API para GPT3.5, el LLM detrás del popular producto ChatGPT. Se espera que la próxima versión de LLM, GPT 4, esté disponible para el público en julio de 2023.
Desde el lanzamiento inicial de Open AI Whisper en octubre de 2022, ha sido un gran atractivo para los desarrolladores. Un ASR de código abierto de alta precisión es extremadamente atractivo. El Whisper de OpenAI ha sido entrenado con 680 000 horas de datos de audio, mucho más de lo que utilizan la mayoría de los modelos. Aquí hay un enlace a sus github.
Sin embargo, la comunidad de desarrolladores que busca aprovechar Whisper se enfrenta a tres limitaciones principales:
1. Costos de infraestructura: La ejecución de Whisper, especialmente los modelos grandes y medianos, requiere costosas opciones de procesamiento basadas en GPU que consumen mucha memoria (consulte a continuación).
2. Experiencia interna en IA: Para utilizar el modelo Whisper de Open AI, una empresa tiene que invertir en la creación de un equipo interno de ingeniería de aprendizaje automático que sea capaz de operar, optimizar y dar soporte a Whisper en un entorno de producción. Si bien Whisper ofrece funciones básicas, como la conversión de voz a texto, la identificación del idioma, la puntuación y el formato, aún faltan algunas funciones de inteligencia artificial, como la diarización de los hablantes y la redacción de información personal identificable, que habría que desarrollar. Además, las empresas deberían establecer un NOC en tiempo real para ofrecer un soporte continuo. Incluso contratar y mantener un equipo de desarrolladores a pequeña escala de 2 a 3 personas podría resultar caro, a menos que el volumen de llamadas justifique dicha inversión. Este equipo interno también debe asumir la plena responsabilidad de las tareas relacionadas con la infraestructura de la nube, como el escalado automático y la supervisión de registros, para garantizar el tiempo de actividad.
3. Falta de soporte para tiempo real: Whisper es un modelo de conversión de voz a texto por lotes. Los desarrolladores que necesitan modelos de transmisión de voz a texto deben evaluar otras opciones de ASR/STT.
Al asumir ahora la responsabilidad de alojar este modelo y hacerlo accesible a través de API fáciles de usar, tanto Open AI como Voicegain abordan las dos primeras limitaciones.
Actualización de agosto de 2023: El 5 de agosto de 2023, Voicegain anunció el lanzamiento de Voicegain Whisper, una versión optimizada de Whisper de Open AI que utiliza las API de Voicegain. He aquí un eslabón al anuncio. Además de Voicegain Whisper, Voicegain también ofrece transmisión de voz a texto en tiempo real y en streaming y otras funciones, como la compatibilidad con dos canales y estéreo (necesaria para los centros de llamadas), la diarización de los altavoces y la redacción de información personal identificable. Todo esto se ofrece en la infraestructura compatible con las normas PCI y SOC-2 de Voicegain.
En este artículo se destacan algunos de los puntos fuertes y las limitaciones clave del uso de Whisper, ya sea que utilices las API de Open AI, las API de Voicegain o si lo alojas por tu cuenta.
En nuestras pruebas comparativas, los modelos Whisper de OpenAI demostraron una alta precisión para una amplia gama de conjuntos de datos de audio. Nuestros ingenieros de aprendizaje automático concluyeron que los modelos Whisper funcionan bien en conjuntos de datos de audio que van desde reuniones, podcasts, conferencias en el aula, vídeos de YouTube y audio para centros de llamadas. Comparamos Whisper-base, Whisper-small y Whisper-Medium con algunos de los mejores motores de ASR/conversión de voz a texto del mercado.
La tasa media de errores de palabras (WER) de Whisper-medium fue del 11,46% para el audio de las reuniones y del 17,7% para el audio de los centros de llamadas. De hecho, esta cifra fue inferior a la de otras grandes empresas, como Microsoft Azure y Google, que ofrecían los WER de STT. Descubrimos que AWS Transcribe tenía un WER que competía con el de Whisper.
He aquí una observación interesante - es posible superar la precisión de reconocimiento de Whisper, sin embargo, sería necesario crear modelos personalizados. Los modelos personalizados son modelos que se entrenan con los datos de audio específicos de nuestros clientes. De hecho, en el caso del audio para centros de llamadas, nuestros ingenieros de aprendizaje automático pudieron demostrar que nuestros modelos de conversión de voz a texto específicos para centros de llamadas eran iguales o incluso mejores que algunos de los modelos de Whisper. Esto tiene sentido desde el punto de vista intuitivo, ya que Open AI no puede acceder fácilmente al audio de los centros de llamadas en Internet.
Póngase en contacto con nosotros por correo electrónico (support@voicegain.ai) si desea revisar y validar/probar estos puntos de referencia de precisión.
El precio de Whisper, de 0,006 USD por minuto (0,36 USD por hora), es mucho más bajo que el de las ofertas de conversión de voz a texto de algunos de los otros grandes actores de la nube. Esto se traduce en un descuento del 75% en Google Speech-to-Text y AWS Transcribe (según los precios a la fecha de esta publicación).
Actualización de agosto de 2023: En el lanzamiento de Voicegain Whisper, Voicegain anunció un precio de lista de 0,0037 USD por minuto (0,225 USD por hora). Este precio es un 37,5% más bajo que el precio de Open AI y se ha conseguido desde que optimizamos el rendimiento de Whisper. Para probarlo, regístrate para obtener una cuenta de desarrollador gratuita. Se proporcionan instrucciones aquí.
Lo que también fue significativo fue que Open AI anunció el lanzamiento de las API de ChatGPT con el lanzamiento de las API de Whisper. Los desarrolladores pueden combinar la potencia de los modelos Whisper Speech-to-Text con los modelos GPT 3.5 y GPT 4.0 LLM (el modelo subyacente que utiliza ChatGPT) para impulsar aplicaciones de IA conversacional muy interesantes. Sin embargo, hay una consideración importante: el uso de la API Whisper con LLM como ChatGPT funciona siempre que la aplicación solo utilice audio pregrabado o por lotes (por ejemplo, analizar la grabación de las conversaciones del centro de llamadas para garantizar el control de calidad o el cumplimiento o transcribir y extraer las reuniones de Zoom para recordar el contexto). Los desarrolladores que buscan crear bots de voz o IVR de voz necesitan un buen modelo de conversión de voz a texto en tiempo real.
Como se indicó anteriormente, Whisper de Open AI no admite aplicaciones que requieran transcripciones en tiempo real o en streaming; esto podría ser relevante para una amplia variedad de aplicaciones de IA que se centran en casos de uso de centros de llamadas, educativos, legales y de reuniones. Si estás buscando un proveedor de API de transmisión de voz a texto, no dudes en ponerte en contacto con nosotros a través de la dirección de correo electrónico que se indica a continuación
El rendimiento de los modelos Whisper, tanto para los modelos medianos como para los grandes, es relativamente bajo. En Voicegain, nuestros ingenieros de aprendizaje automático han probado el rendimiento de los modelos Whisper en varias instancias informáticas populares basadas en GPU de NVIDIA disponibles en nubes públicas (AWS, GCP, Microsoft Azure y Oracle Cloud). También tenemos experiencia real porque procesamos más de 10 millones de horas de audio al año. Como resultado, tenemos una sólida comprensión de lo que se necesita para ejecutar un modelo como Whisper de OpenAI en un entorno de producción.
Hemos descubierto que el coste de infraestructura de ejecutar Whisper-Medium en la nube el entorno está en el rango de 0,07 a 0,10 dólares/hora. Puede ponerse en contacto con nosotros por correo electrónico para obtener las suposiciones detalladas y el respaldo de nuestro modelo de costos. Un factor importante a tener en cuenta es que, en un entorno de producción de un solo inquilino, la infraestructura informática no puede ejecutarse con un uso muy alto. El rendimiento máximo requerido para soportar el tráfico real puede ser varias veces mayor (2 a 3 veces) que el rendimiento promedio. Net-net, determinamos que, si bien los desarrolladores no tendrían que pagar por las licencias de software, los costos de la infraestructura de la nube seguirían siendo sustanciales.
Además de este coste de infraestructura, el mayor gasto de ejecutar Whisper on the Edge (local o nube privada) es que se necesitaría un equipo dedicado de ingeniería y desarrollo de back-end que pudiera dividir la grabación de audio en segmentos que se pudieran enviar a Whisper y gestionar las colas. Este equipo también tendría que supervisar todas las necesidades de seguridad de la información y cumplimiento (por ejemplo, realizar análisis de vulnerabilidades, detectar intrusos, etc.).
A la fecha de publicación de este post, Whisper no cuenta con una API de audio multicanal. Por lo tanto, si tu aplicación incluye audio con varios altavoces, el precio por minuto efectivo de Whisper es igual al número de canales * 0,006. Tanto para reuniones como para centros de llamadas, este precio puede resultar prohibitivo.
A esta versión de Whisper le faltan algunas funciones clave que los desarrolladores necesitarían. Las tres características importantes que hemos observado son la diarización (separación de los altavoces), las marcas de tiempo y la redacción de información personal.
Voicegain está trabajando para lanzar un modelo Voicegain-Whisper a través de sus API. De este modo, los desarrolladores pueden aprovechar las ventajas de una infraestructura compatible con el protocolo PCI/SOC-2 de Voicegain y de funciones avanzadas, como la creación de diarios, la redacción de información de identificación personal, el cumplimiento de las normas PCI y las marcas de tiempo. Para unirse a la lista de espera, envíenos un correo electrónico a sales@voicegain.ai
En Voicegain, creamos modelos de voz a texto/ASR basados en el aprendizaje profundo que igualan o superan la precisión de los modelos STT de los grandes actores. Durante más de 4 años, los clientes emergentes y empresariales han utilizado nuestras API para crear y lanzar productos exitosos que procesan más de 600 millones de minutos al año. Nos centramos en los desarrolladores que necesitan una alta precisión (que se logra mediante el entrenamiento de modelos acústicos personalizados) y la implementación en infraestructuras privadas a un precio asequible. Ofrecemos un acuerdo de nivel de servicio preciso en el que garantizamos que un modelo personalizado que se base en tus datos será tan preciso, si no más, que las opciones más populares, como Whisper de Open AI.
También tenemos modelos que están capacitados específicamente en audio para centros de llamadas. Si bien Whisper es un competidor digno (por supuesto, una empresa mucho más grande con 100 veces más recursos que nosotros), como desarrolladores acogemos con satisfacción la innovación que Open AI está liberando en este mercado. Al añadir las API de ChatGPT a nuestra conversión de voz a texto, tenemos previsto ampliar nuestra oferta de API a la comunidad de desarrolladores.
Para crear una cuenta de desarrollador en Voicegain con créditos gratuitos, haz clic aquí.
Hoy nos complace anunciar el lanzamiento de Voicegain Whisper, una versión optimizada del modelo Whisper Speech Recognition/ASR de Open AI que se ejecuta en la infraestructura de nube gestionada por Voicegain y es accesible mediante las API de Voicegain. Los desarrolladores pueden usar la misma infraestructura y API sólidas y bien documentadas que procesan más de 60 millones de minutos de audio al mes para empresas líderes como Samsung, Aetna y otras empresas emergentes innovadoras como Level.AI, Onvisource y DataOrb.
La API Voicegain Whisper es una API de conversión de voz a texto por lotes sólida y asequible para desarrolladores que buscan integrar las transcripciones de conversaciones con LLM como GPT 3.5 y 4 (de Open AI), PalM2 (de Google), Claude (de Anthropic), LLAMA 2 (de código abierto de Meta) y sus propios LLM privados para impulsar aplicaciones de IA generativa. Open AI publicó varias versiones de código abierto de los modelos Whisper lanzados. Con la versión de hoy, Voicegain es compatible con Whisper-Medium, Whisper-small y Whisper-base. Voicegain ahora admite la transcripción en más de los idiomas compatibles con Whisper.
Aquí hay un eslabón a nuestra página de productos
Hay cuatro razones principales para que los desarrolladores usen Voicegain Whisper en lugar de otras ofertas:
Si bien los desarrolladores pueden usar Voicegain Whisper en nuestra oferta de nube multiusuario, un gran diferenciador de Voicegain es nuestro soporte para Edge. La plataforma Voicegain ha sido diseñada y diseñada para la implementación de centros de datos y nubes privadas con un solo usuario. Además del modelo principal de conversión de voz a texto basado en el aprendizaje profundo, nuestra plataforma incluye nuestros servicios de API REST, sistemas de registro y supervisión, escalado automático y gestión de tareas y colas sin conexión. Hoy en día, las mismas API permiten a Voicegain procesar más de 60 millones de minutos al mes. Podemos llevar esta experiencia práctica del mundo real de ejecutar modelos de IA a escala a nuestra comunidad de desarrolladores.
Dado que la plataforma Voicegain se implementa en clústeres de Kubernetes, es ideal para las empresas modernas de productos SaaS de IA y las empresas innovadoras que desean integrarse con sus LLMs privados.
En Voicegain, hemos optimizado Whisper para lograr un mayor rendimiento. Como resultado, podemos ofrecer acceso al modelo Whisper a un precio un 40% más bajo que el que ofrece Open AI.
Voicegain también ofrece funciones fundamentales para centros de contacto y reuniones. Nuestras API admiten audio estéreo de dos canales, algo habitual en los sistemas de grabación de los centros de contacto. Las marcas de tiempo a nivel de palabra son otra función importante que ofrece nuestra API y que es necesaria para asignar el audio al texto. Los modelos de Voicegain tienen otra función: los modelos de diarización mejorados, que son una función obligatoria para los casos de uso de centros de contacto y reuniones, que pronto estarán disponibles en Whisper.
También ofrecemos soporte premium y SLA de tiempo de actividad para nuestra oferta de nube multiusuario. En la actualidad, estas API procesan más de 60 millones de minutos de audio al mes para nuestros clientes empresariales y emergentes.
OpenAI Whisper es un sistema de reconocimiento automático de voz (ASR) de código abierto que se basa en 680 000 horas de datos supervisados multilingües y multitarea recopilados de la web. La arquitectura del modelo se basa en un sistema de transformadores codificadores y descodificadores y ha mostrado una mejora significativa en el rendimiento en comparación con los modelos anteriores, ya que ha sido capacitado para realizar diversas tareas de procesamiento de voz, como el reconocimiento de voz multilingüe, la traducción de voz, la identificación del lenguaje hablado y la detección de la actividad vocal.
Obtenga más información sobre Voicegain Whisper haciendo clic aquí. Cualquier desarrollador, ya sea una startup unipersonal o una gran empresa, puede acceder al modelo Voicegain Whisper registrándose para obtener una cuenta de desarrollador gratuita. Ofrecemos 15 000 minutos de créditos gratis si te registras hoy.
Hay dos maneras de probar Voicegain Whisper. Están resumidas aquí. Si desea obtener más información o si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai