Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Cómo seleccionar un ASR de voz a texto para copilotos de IA y asistencia de agentes en tiempo real con tecnología de LLM
Centro de contacto
Cómo seleccionar un ASR de voz a texto para copilotos de IA y asistencia de agentes en tiempo real con tecnología de LLM

En este artículo se describen los criterios de evaluación necesarios para seleccionar un sistema de conversión de voz a texto o ASR en tiempo real para las aplicaciones de copilotos de IA con tecnología de LLM y de asistencia a agentes en tiempo real en el centro de atención. Este artículo está dirigido a los gerentes de producto y a los líderes de ingeniería de empresas de SaaS con IA y centros de contacto y a las organizaciones de directores de TI y CDO de empresas que desean crear copilotos de IA de este tipo.

El rumor en torno a Co-Pilot & Realtime Agent Assist con tecnología de Gen AI

Un caso de uso muy popular para la IA generativa y los LLM es el copiloto de IA o la asistencia de agente en tiempo real en los centros de contacto. Al transcribir una conversación entre un agente y un cliente en tiempo real y enviar la transcripción a los LLM modernos, como GPT de Open AI, LLAMA2 de Facebook o Gemini de Google, los centros de contacto pueden guiar a sus agentes para que gestionen sus llamadas de forma más eficaz y eficiente.

Un copiloto de IA puede ofrecer grandes beneficios empresariales. Puede mejorar la CSAT y el NPS, ya que la IA puede buscar y presentar rápidamente al agente la base de conocimientos relevante, lo que le permite tener más conocimientos y ser más productivo. También puede reducir los costos de tiempo completo de los agentes al reducir el tiempo de espera y eliminar el tiempo de finalización.

Además, al crear una biblioteca de llamadas «estándar» para varios tipos de llamadas clave, LLM también puede ofrecer asesoramiento personalizado a los agentes de forma automatizada mediante la IA generativa. Las empresas están descubriendo que, si bien los copilotos impulsados por la generación de inteligencia artificial son especialmente beneficiosos para los nuevos empleados, también ofrecen beneficios a los agentes con antigüedad.

La creación de un copiloto con tecnología de inteligencia artificial requiere tres componentes principales: a) un motor de ASR/voz a texto en tiempo real para la transcripción, 2) un LLM para comprender la transcripción y 3) aplicaciones web orientadas al agente y al supervisor/gerente. Esta entrada de blog se centra en el primer componente: el motor ASR/Speech-to-Text en tiempo real.

Estos son los cuatro factores clave que debe tener en cuenta al evaluar el motor ASR/Speech-to-Text en tiempo real.

1. Facilidad de integración con la fuente de audio

El primer paso para cualquier copiloto de IA es transmitir el contenido multimedia en tiempo real del agente y del cliente a un ASR que admita la transmisión de voz a texto. Esta es sin duda la decisión de diseño de ingeniería más complicada de este proceso.

Hay dos enfoques principales: 1) La transmisión de audio desde el lado del servidor. En un centro de contacto empresarial, esto implicaría bifurcar el contenido multimedia de un controlador de borde de sesión empresarial o de la plataforma de centro de contacto (que es la IP-PBX). 2) Transmitir el audio desde el lado del cliente, es decir, desde el escritorio del agente. El escritorio de un agente puede ser un cliente pesado basado en un sistema operativo o un cliente ligero basado en un navegador; esto depende de la plataforma CCAAS/Contact-center que se utilice.

La selección del método de integración es una decisión complicada. Si bien ambos enfoques tienen ventajas y desventajas, los enfoques del lado del servidor han sido la opción preferida. Esto se debe a que evitaría la necesidad de instalar el software de cliente y planificar los recursos informáticos en el nivel de escritorio del agente.

Sin embargo, si tiene un centro de contacto local, como Avaya, Cisco o Genesys, la integración puede ser más complicada. Esto se debe a que cada plataforma tiene su propio mecanismo para bifurcar estas transmisiones multimedia y, además, es necesario instalar el ASR/STT detrás del firewall corporativo (o abrirlo para acceder a un ASR/STT basado en la nube).

Net-net, también hay argumentos a favor del streaming del lado del cliente, ya que es posible que no todas las empresas tengan la experiencia disponible dentro de la empresa.

Existen plataformas CCaaS modernas como Amazon Connect, Twilio Flex, Genesys Cloud y Five9 que ofrecen API y acceso programable a las transmisiones multimedia. Estás de suerte si tienes una de estas plataformas. Además, si el acceso a la PSTN es a través de una plataforma CPaaS programable, como Twilio, Cable de señal, Telnyx etc., entonces es bastante

2. Soporte de protocolo desde el ASR/STT

Una vez que haya finalizado un método para bifurcar el audio, tendrá que considerar los protocolos estándar compatibles con el motor ASR/Speech-to-Text. Lo ideal sería que el motor ASR/STT fuera flexible y admitiera múltiples opciones. Uno de los enfoques más comunes en la actualidad para transmitir audio a través de websockets. Es importante confirmar que el proveedor de ASR/Speech-to-Text admite el envío de audio estéreo o de dos canales a través de websockets. Existen otros métodos: compartir audio a través de gRPC y mediante RTP sin procesar.

3. Velocidad/latencia del modelo ASR/voz a texto

La siguiente gran consideración es la latencia del modelo ASR/Speech-to-Text en tiempo real, que a su vez depende de la arquitectura de red neuronal subyacente del modelo. Para poder ofrecer recomendaciones oportunas al agente, es importante centrarse en los ASR que pueden entregar transcripciones palabra por palabra en menos de un segundo e, idealmente, en unos 500 milisegundos. Esto se debe a que la recopilación y el envío de la transcripción a los LLM y, a continuación, la entrega de la información al escritorio del agente, conlleva una latencia adicional.

4. Asequibilidad

Por último, pero no por ello menos importante, es muy importante que el precio de la transcripción en tiempo real sea asequible para crear un argumento comercial sólido para AI Co-Pilot. Es importante confirmar que el canal del agente y el de la persona que llama no se fijan precios de forma independiente, ya que esto a menudo acaba con los argumentos comerciales.

Si estás creando un copiloto de IA impulsado por un LLM y te gustaría entablar un debate más profundo, ¡envíanos un mensaje! Puedes ponerte en contacto con nosotros en sales@voicegain.ai.

Read more → 
Voicegain: un sustituto perfecto para el ASR basado en Nuance Grammar
ASR
Voicegain: un sustituto perfecto para el ASR basado en Nuance Grammar

Esta entrada de blog está dirigida a cualquier persona responsable de actualizar o migrar un Nuance ASR basado en MRCP que se acerca al final de su vida útil (EOL). Pueden explorar cómo Voicegain ASR simplifica y prolonga económicamente la vida útil de las plataformas Speech-IVR existentes. Sirve como un sustituto inmediato del Nuance ASR basado en la gramática.

El ASR de Nuance está llegando al final de su vida útil

Hay varios cientos (si no miles) de IVR con voz basados en telefonía que actúan como «puerta de entrada» para todas las llamadas telefónicas de servicio al cliente para empresas de todos los tamaños. Estos IVR habilitados para voz se basan en plataformas como Genesys Voice Portal (GVP), Genesys Engage, Avaya Aura Experience Portal (AAEP) /Avaya Voice Portal, Cisco Voice Portal (CVP), la plataforma Aspect o Voxeo ProphecyVoiceXML y varias otras soluciones de IVR basadas en VoiceXML. Los sistemas utilizan principalmente el ASR de Nuance como motor de reconocimiento de voz.

A diferencia de los motores ASR/STT contemporáneos basados en redes neuronales de gran vocabulario, el ASR tradicional de Nuance es un ASR basado en la gramática. Utiliza el protocolo MRCP para comunicarse con plataformas IVR basadas en VoiceXML. La mayoría de estos sistemas se adquirieron en las dos últimas décadas (años 2000 y 2010). Los clientes solían pagar una licencia perpetua basada en el puerto (las plataformas IVR también recibían licencias similares). La mayoría de las empresas tienen contratos de mantenimiento de software o AMC para el ASR de Nuance y, por lo general, este contrato se incluye junto con la plataforma IVR. Las versiones de Nuance Recognizer del mercado varían entre la 9.0 y la 11.0. En junio de 2022, Nuance anunció el fin del soporte para Nuance 10.0. Al hablar con los clientes, tenemos entendido que la última versión de Nuance vendida, Nuance 11.0 Recognizer, se acercará al final de su ciclo de vida útil o al final de los pedidos en 2025*.

La ruta de actualización de Nuance es un desafío 

Además, al hablar con los clientes, hemos entendido que los clientes que actualmente licencian el ASR de Nuance basado en la gramática MRCP deberán actualizarse al motor Krypton de Nuance, el nuevo ASR basado en el aprendizaje profundo, en 2025. Solo se puede acceder a Nuance Krypton mediante la moderna API basada en gRPC y no mediante MRCP, lo que hace que esta actualización sea cara y lleve mucho tiempo. Por este motivo, los clientes tendrían que actualizar no solo el ASR, sino también toda la plataforma de IVR. Esto se debe a que la mayoría de las plataformas IVR antiguas, especialmente, no son compatibles con el gRPC. Esto también podría implicar migrar la lógica de flujo de llamadas existente (que probablemente esté escrita en un estudio de aplicaciones de VoiceXML o escrita en una herramienta de compilación y generada como páginas de VoiceXML).

Todos los pasos anteriores hacen que el proceso de actualización sea muy difícil. Si bien hay argumentos sólidos a favor de las ventajas de actualizar a un ASR basado en el aprendizaje profundo para respaldar las interacciones conversacionales (mejores tasas de automatización y una experiencia de usuario más natural), es fundamental para los clientes que esta actualización o migración se realice dentro de los plazos establecidos por el cliente y no a contrarreloj del proveedor.

Voicegain como sustituto directo de Nuance ASR preparado para el futuro

Voicegain ofrece un reemplazo inmediato para el ASR basado en la gramática de Nuance. Somos el único ASR moderno del mercado basado en el aprendizaje profundo y la inteligencia artificial (redes neuronales) que admite de forma nativa tanto las gramáticas orales tradicionales (grxml, SRGS) como las interacciones conversacionales con gran cantidad de vocabulario. También somos uno de los pocos proveedores de ASR a los que se puede acceder mediante un protocolo tradicional basado en la telefonía, como el MRCP, y mediante un método moderno basado en la web, como los sockets web (o gRPC). Por lo tanto, el mismo modelo de red neuronal es compatible con los protocolos antiguos y nuevos. Esto le permite disponer de un método preparado para el futuro para reemplazar el ASR de Nuance con un mínimo esfuerzo y, al mismo tiempo, proteger esta inversión a largo plazo.

Net-net, simplemente «apuntando» el recurso ASR de la plataforma VoiceXML a la dirección IP del ASR MRCP de Voicegain de su red, puede reemplazar todo el ASR de Nuance por el Voicegain ASR. Los clientes no necesitarían ni siquiera cambiar o modificar una sola línea de código de la lógica de la aplicación Speech-IVR.

En otras palabras, un cliente puede conservar la configuración de telefonía e IVR existente y simplemente realizar una «sustitución inmediata» del MRCP ASR de Nuance por el MRCP ASR de Voicegain.

A largo plazo, el mismo Voicegain ASR puede realizar transcripciones de gran cantidad de vocabulario porque se trata de un ASR basado en redes neuronales; por lo tanto, cuando el cliente esté listo para reemplazar el IVR de voz con diálogo directo por una interacción conversacional, la plataforma Voicegain ya lo admitirá.

Comience hoy mismo de forma gratuita

Para analizar su situación de actualización con más detalle, póngase en contacto con nosotros por correo electrónico a sales@voicegain.ai. Podemos responder a cualquier pregunta que tenga. También puedes empezar con una cuenta de desarrollador gratuita siguiendo estas instrucciones. No se requiere tarjeta de crédito y ofrecemos 1500 horas de uso de forma gratuita. Aquí tienes un enlace a las instrucciones; después de registrarte, ponte en contacto con nosotros en support@voicegain.aiy solicite acceso al MRCP.

* Nuance ASR y Nuance Krypton son marcas comerciales de Nuance, Inc., que ahora forma parte de Microsoft. Confirme directamente con la empresa el anuncio del fin de su ciclo de vida útil y la funcionalidad del protocolo. La información que incluimos en esta entrada de blog es anecdótica y no se ha verificado con Nuance.

Read more → 
Transcripción y resúmenes de reuniones con IA en cuentas gratuitas de Zoom
Transcripción
Transcripción y resúmenes de reuniones con IA en cuentas gratuitas de Zoom

En este artículo se describe cómo los usuarios con planes de Zoom gratuitos o no pagados pueden obtener transcripciones de reuniones, resúmenes y elementos de acción generados por IA.

Las soluciones SaaS de IA para reuniones basadas en la nube no funcionan en las cuentas gratuitas de Zoom

Hay muchas ofertas de SaaS atractivas basadas en inteligencia artificial generativa para la transcripción, el resumen y la extracción de elementos de acción para Zoom Meetings. Entre ellas se incluyen empresas como Otter, Grain, Read, Fireflies, Krisp y Superhuman, entre otras. Sin embargo, todas estas soluciones SaaS basadas en la nube para reuniones requieren cuentas de Zoom de pago, y esto se debe a que se integran con la grabación en la nube de Zoom, que es una función del plan de pago de Zoom.

¿Por qué es un problema mayor de lo que parece?

Ahora los planes Zoom de pago son bastante asequibles: el plan Pro Zoom (a la fecha de esta publicación) tiene un precio de 16 dólares al mes. Sin embargo, muchas empresas (ya sean pequeñas empresas emergentes, medianas o grandes empresas) utilizan planes Zoom gratuitos para la gran mayoría de los empleados de la empresa. Al hablar con los posibles clientes, calculamos que, en el caso de muchas empresas, solo entre el 5 y el 10% de la base de empleados tiene un plan Zoom de pago.

Las reuniones con un plan Zoom gratuito solo pueden durar hasta 40 minutos, lo que es suficiente para la mayoría de las reuniones. Por lo tanto, funciona bastante bien para un gran segmento de usuarios. Ahora, si es necesario transcribir y resumir estas reuniones, los usuarios deberán pasarse a un plan de pago. Para muchas empresas, dado que más del 90% de los usuarios tienen planes de Zoom gratuitos, cambiarlos todos a un plan de pago puede suponer un gasto muy importante.

¿Cómo aborda Voicegain Transcribe este desafío?

Transcripción de Voice Gain es un asistente de reuniones con IA que se integra con Zoom Local Recording. La grabación local de Zoom permite a los usuarios guardar la grabación de Zoom en su ordenador local en lugar de en la nube de Zoom. Una gran ventaja de la grabación local de Zoom es que está disponible en los planes gratuitos de Zoom. Por lo tanto, no es necesario actualizar a una licencia de Zoom de pago. Voicegain Transcribe también tiene un nivel gratuito que dura 5 horas (300 minutos) al mes. Como resultado, los usuarios que organicen o asistan a hasta 10 reuniones de Zoom de media hora pueden obtener de forma gratuita la transcripción y la información basada en el LLM, como el resumen y la extracción de los elementos de acción.

El beneficio adicional: privacidad de datos

Por supuesto, el otro beneficio importante de la grabación local es la privacidad de los datos. A muchas empresas no les gusta almacenar el contenido confidencial de las reuniones en la nube de Zoom o, de hecho, en la nube de cualquier otro proveedor, pero se ven obligadas a hacerlo por falta de opciones. Especialmente en la era de la IA y los LLM, existe mucha preocupación y paranoia en torno al uso de información privada para entrenar modelos de IA.

Si bien cualquier empresa puede iniciar una prueba con la oferta de SaaS en la nube multiusuario de Voicegain, toda nuestra solución se puede implementar como una solución de un solo inquilino en su nube privada. Voicegain transcribe puede funcionar de forma totalmente independiente, sin necesidad de conectarse a nuestra nube para ningún servicio.

¡Regístrate hoy con un plan gratuito de Voicegain Transcribe!

Puede empezar y evaluar nuestra oferta haciendo clic aquí. Como se mencionó anteriormente, ofrecemos 5 horas (300 minutos) de transcripción gratuita y resúmenes basados en LLM todos los meses.

Si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai

Read more → 
Creación de una ruta de actualización asequible y sin prisas desde los IVR a los bots de voz conversacionales
Empresarial
Creación de una ruta de actualización asequible y sin prisas desde los IVR a los bots de voz conversacionales

En este artículo se describen ideas para que una empresa con un IVR compatible con voz planifique su actualización o transición a un robot de voz conversacional moderno y generativo impulsado por inteligencia artificial según sus propios plazos y a un precio asequible.

Las empresas de todos los tamaños tienen un sistema IVR que actúa como puerta de entrada para todas las conversaciones de voz de sus clientes. En términos de funcionalidad, estos sistemas de IVR varían mucho; pueden ir desde el enrutamiento y la clasificación básicos de llamadas hasta la automatización de llamadas simples, como aceptar pagos, programar citas o proporcionar el saldo de la cuenta, etc. Si bien la mayoría de ellos aceptan tonos táctiles/DTMF como entrada, los más avanzados también aceptan voz en lenguaje natural como entrada y, por lo tanto, se denominan IVR con voz habilitada.

Sin embargo, estos IVR se están volviendo obsoletos y existe una creciente demanda para actualizar a una experiencia más conversacional.

1. La pila IVR/ASR tradicional se está volviendo obsoleta

Tradicionalmente, las aplicaciones Speech IVR se implementaban en las instalaciones y se construían en la misma plataforma que el ACD/Switch principal del centro de contacto. Pero pronto, los IVR también se implementaron en la nube. Entre los proveedores de IVR locales se encuentran Avaya, Genesys y Cisco, y los IVR basados en la nube incluyen proveedores como Five9, RingCentral, Mitel y 8x8.

Para el reconocimiento de voz, la opción más popular en el pasado había sido Nuance. La tecnología ASR de Nuance, que ganó popularidad a principios de la década de 2000, precedió a los motores actuales basados en redes neuronales. Era anterior a Alexa y Siri, por lo que tanto el vocabulario (es decir, lo que el cliente podía decir en respuesta a una solicitud) como la precisión eran limitados en comparación con la conversión de voz a texto actual basada en redes neuronales. Además, el protocolo de comunicación entre Nuance y la red de telefonía era el MRCP, un protocolo que no se está desarrollando activamente desde hace muchos años.

2. La pila moderna de IA conversacional se está reinventando con Gen AI

La moderna pila de IA conversacional para bots de voz incluye un moderno motor ASR/voz a texto neuronal y un marco de bots neuronal de conversión de texto a voz y NLU. Es mucho más capaz que lo que estaba disponible en el pasado para crear IVR de voz con diálogo dirigido.

Los motores ASR/STT neuronales actuales pueden transcribir no solo unas pocas palabras o frases, sino oraciones completas y también lo hacen con mucha precisión. A medida que los consumidores se van acostumbrando a este tipo de experiencias con sus asistentes de voz en casa o en el coche, esperan lo mismo cuando se ponen en contacto con una empresa por teléfono.

También se han producido avances significativos con los marcos modernos de NLU Bot sin código que se utilizan para crear la lógica de los bots y el flujo de conversación. Estos marcos de bots también están evolucionando con la llegada de tecnologías generativas de inteligencia artificial, como ChatGPT.

Si bien los dos párrafos anteriores describen buenas razones para actualizar los IVR, hay algunos factores clave que están impulsando a las empresas a planificar esta migración de los IVR con un cronograma bastante apresurado.

3. Factores que impulsan un cronograma bastante apresurado para la migración del IVR

Se acaba el tiempo para la migración de IVR

a. Plataformas de contact center centradas en las ventas en la nube

Las empresas con centros de contacto locales están migrando cada vez más a la nube. Incluso los proveedores de centros de contacto locales también se centran en migrar su base instalada a la nube. Por lo tanto, cuando una empresa planifique migrar la plataforma del centro de contacto a la nube, también tendrá que migrar los IVR.

b. Los ASR/STT modernos se centran en vender sus ofertas basadas en IA y redes neuronales

Como se explicó anteriormente, los motores ASR/STT modernos basados en IA y redes neuronales son más precisos y permiten una experiencia conversacional. Por lo tanto, los proveedores de ASR/STT se centran en vender estas nuevas ofertas. Las empresas no pueden utilizar estos ASR más nuevos con la oferta de telefonía existente. Tanto el soporte del protocolo (conectores web y gRPC frente a MRCP) como el método de desarrollo de aplicaciones (basado en la gramática frente a la transcripción de vocabulario extenso con captura de intenciones) son muy diferentes.

c. Exigir el uso de un único marco de aplicación/bot tanto para chat como para voz

En el pasado, las empresas crearon la lógica de la aplicación para Chatbot e IVR de forma independiente; muy a menudo, diferentes proveedores proporcionaban el Chatbot y el VoiceBot. Sin embargo, dadas las potentes y flexibles plataformas de IA conversacional que hay disponibles en el mercado, quieren utilizar la misma plataforma para impulsar los turnos de conversación entre una interacción con un chatbot y una interacción con un Voice Bot.

4. Tomar el control de cuándo actualizar el IVR

Como se explicó anteriormente, la migración de la pila de IVR tradicional a una pila de IA conversacional moderna implica no solo reescribir la lógica de la aplicación, sino que también es probable que implique trasladar la infraestructura de las instalaciones locales a la nube. Esta puede ser una tarea costosa.

En Voicegain, creemos que eso puede ayudar a las empresas a poder hacerlo en sus propios plazos.

Hemos desarrollado un ASR que puede admitir tanto (a) el reconocimiento basado en la gramática mediante MRCP como (b) la transcripción de vocabulario extenso en audio transmitido mediante protocolos modernos como Websockets. Además, nuestra plataforma se puede implementar en las instalaciones o en su VPC. Por lo tanto, nuestra plataforma es compatible con una aplicación existente sin necesidad de reescribirla, y también es capaz de admitir un bot de voz para conversaciones cuando se desarrolle en algún momento en el futuro.

Como resultado, los clientes pueden controlar cuándo migrar o actualizar sus IVR. Y lo que es más importante, no se verían obligados a invertir en una actualización o migración de toda su aplicación de IVR solo porque un proveedor de ASR existente dejara de ofrecer soporte a una versión anterior del software.

Si tiene alguna pregunta o desea programar una conversación para entender las opciones de actualización de su IVR, póngase en contacto con nosotros en support@voicegain.ai.

Para probar nuestro ASR basado en gramática MRCP o nuestro ASR de vocabulario extenso, regístrese para obtener una cuenta de desarrollador gratuita. Se proporcionan instrucciones aquí.

Read more → 
Voicegain logra el cumplimiento de SOC2 tipo 1, reforzando su compromiso con la seguridad y la privacidad de los datos
Empresarial
Voicegain logra el cumplimiento de SOC2 tipo 1, reforzando su compromiso con la seguridad y la privacidad de los datos

Voicegain, la plataforma líder de inteligencia artificial de voz para empresas y empresas de SaaS de voz, se complace en anunciar la finalización exitosa de una auditoría de tipo 1 de control organizacional y de sistemas (SOC) 2 realizada por Sensiba LLP.

Desarrollada por el Instituto Estadounidense de Contadores Públicos Certificados (AICPA), la auditoría de seguridad de la información SOC 2 proporciona un informe sobre el examen de los controles relevantes para las categorías de criterios de los servicios de confianza que abarcan la seguridad, la disponibilidad, la integridad del procesamiento, la confidencialidad y la privacidad. Un informe de tipo I del SOC 2 describe los sistemas de una organización de servicios y determina si el diseño de los controles específicos cumple con las categorías de servicios fiduciarios pertinentes. El informe SOC 2 tipo I de Voicegain no tuvo ninguna excepción notable y, por lo tanto, Sensiba emitió una opinión de auditoría «limpia».

«Como plataforma de IA de voz que prioriza la privacidad, en Voicegain nos tomamos la seguridad muy en serio. Como desarrollador que usa nuestras API o como usuario de nuestra plataforma, no deberías tener que preocuparte por los controles establecidos para tus datos de voz confidenciales», afirma el Dr. Jacek Jarmulak, cofundador, CTO y CISO de Voicegain.

«En Voicegain, hemos mantenido un sólido programa de seguridad de la información durante más de una década y esto se ha comunicado en toda nuestra organización desde hace bastante tiempo. A principios de este año, logramos que nuestra plataforma para desarrolladores cumpliera con la normativa PCI-DSS y, hoy, la finalización satisfactoria de la auditoría de tipo 1 del SOC 2 marca un hito importante en nuestro camino hacia la seguridad y el cumplimiento», continuó el Dr. Jarmulak.

¿Qué es SOC 2?

Control de organización de servicios 2 (SOC2) ies un conjunto de criterios establecidos por la Instituto Estadounidense de Contadores Públicos Certificados (AICPA) para evaluar los controles relevantes para la seguridad, la disponibilidad y la integridad del procesamiento de los sistemas que utiliza una organización de servicios para procesar los datos de los usuarios y la confidencialidad y privacidad de la información procesada por estos sistemas. El cumplimiento del SOC 2 es importante para las plataformas de IA de voz, como Voicegain, ya que demuestra que hemos implementado controles para proteger los datos de los usuarios.

Hay dos tipos de cumplimiento del SOC 2:

  1. SOC 2 tipo 1: valida que una organización haya establecido los controles adecuados en un momento específico. La exitosa auditoría de Voicegain estableció esto el 14 de julio de 2023.
  2. SOC 2 tipo 2: confirma que una organización ha mantenido y operado esos controles durante un período de tiempo, normalmente de 6 a 12 meses.

Implicaciones para los usuarios de Voicegain

Desde un punto de vista funcional, lograr el cumplimiento del SOC 2 tipo 1 no cambia nada. Nuestras API y aplicaciones funcionarán exactamente como siempre lo han hecho y según lo esperado. Sin embargo, el cumplimiento del SOC 2 de tipo 1 significa que hemos establecido un conjunto de controles y procesos para garantizar la seguridad de los datos de nuestros usuarios. Este cumplimiento demuestra que contamos con las medidas necesarias para proteger la información confidencial del acceso y la divulgación no autorizados.

¿Qué sigue? SOC 2 tipo II

Nuestro compromiso con la seguridad no termina con el SOC 2 de tipo 1. Ya estamos trabajando para lograr el cumplimiento del SOC 2 de tipo 2, algo que planeamos lograr en el primer trimestre de 2024. Esto confirmará aún más que mantenemos los niveles más altos de seguridad, garantizando que nuestros usuarios puedan seguir confiando en Voicegain.

La tecnología de reconocimiento de voz de Voicegain ha sido ampliamente reconocida por su innovación e impacto en todos los sectores. Desde los centros de llamadas y las aplicaciones de servicio al cliente hasta la transcripción de reuniones de Zoom en empresas y centros de salud y la transcripción de conferencias presenciales, las soluciones de Voicegain han demostrado su capacidad para transformar los datos de audio en información útil. El hecho de cumplir con el SOC 2 de tipo 1 consolida aún más la posición de Voicegain como proveedor confiable y responsable de servicios de reconocimiento de voz de vanguardia.

«Entendemos que en el panorama digital actual, la seguridad de los datos no es negociable», añadió Arun Santhebennur, cofundador y director ejecutivo de Voicegain. «Al lograr el cumplimiento del SOC 2 tipo 1, nuestro objetivo es establecer un estándar industrial para garantizar la confidencialidad e integridad de los datos que se nos confían. Nuestros clientes pueden confiar plenamente en que su información confidencial está protegida durante todo su ciclo de vida».

Para solicitar una copia de nuestro informe SOC 2 de tipo 1, envíe un correo electrónico a security.it@voicegain.ai

Read more → 
Anunciamos el lanzamiento de la API Voicegain Whisper ASR/Speech Recognition para desarrolladores de la generación de IA
ASR
Anunciamos el lanzamiento de la API Voicegain Whisper ASR/Speech Recognition para desarrolladores de la generación de IA

Hoy nos complace anunciar el lanzamiento de Voicegain Whisper, una versión optimizada del modelo Whisper Speech Recognition/ASR de Open AI que se ejecuta en la infraestructura de nube gestionada por Voicegain y es accesible mediante las API de Voicegain. Los desarrolladores pueden usar la misma infraestructura y API sólidas y bien documentadas que procesan más de 60 millones de minutos de audio al mes para empresas líderes como Samsung, Aetna y otras empresas emergentes innovadoras como Level.AI, Onvisource y DataOrb.

La API Voicegain Whisper es una API de conversión de voz a texto por lotes sólida y asequible para desarrolladores que buscan integrar las transcripciones de conversaciones con LLM como GPT 3.5 y 4 (de Open AI), PalM2 (de Google), Claude (de Anthropic), LLAMA 2 (de código abierto de Meta) y sus propios LLM privados para impulsar aplicaciones de IA generativa. Open AI publicó varias versiones de código abierto de los modelos Whisper lanzados. Con la versión de hoy, Voicegain es compatible con Whisper-Medium, Whisper-small y Whisper-base. Voicegain ahora admite la transcripción en más de los idiomas compatibles con Whisper.

Aquí hay un eslabón a nuestra página de productos


Hay cuatro razones principales para que los desarrolladores usen Voicegain Whisper en lugar de otras ofertas:

1. Soporte para la implementación local o en la nube privada (integración con LLM privados)

Si bien los desarrolladores pueden usar Voicegain Whisper en nuestra oferta de nube multiusuario, un gran diferenciador de Voicegain es nuestro soporte para Edge. La plataforma Voicegain ha sido diseñada y diseñada para la implementación de centros de datos y nubes privadas con un solo usuario. Además del modelo principal de conversión de voz a texto basado en el aprendizaje profundo, nuestra plataforma incluye nuestros servicios de API REST, sistemas de registro y supervisión, escalado automático y gestión de tareas y colas sin conexión. Hoy en día, las mismas API permiten a Voicegain procesar más de 60 millones de minutos al mes. Podemos llevar esta experiencia práctica del mundo real de ejecutar modelos de IA a escala a nuestra comunidad de desarrolladores.

Dado que la plataforma Voicegain se implementa en clústeres de Kubernetes, es ideal para las empresas modernas de productos SaaS de IA y las empresas innovadoras que desean integrarse con sus LLMs privados.

2. Precios asequibles: un 40% más barato que Open AI

En Voicegain, hemos optimizado Whisper para lograr un mayor rendimiento. Como resultado, podemos ofrecer acceso al modelo Whisper a un precio un 40% más bajo que el que ofrece Open AI.

3. Funciones mejoradas para centros de contacto y reuniones.

Voicegain también ofrece funciones fundamentales para centros de contacto y reuniones. Nuestras API admiten audio estéreo de dos canales, algo habitual en los sistemas de grabación de los centros de contacto. Las marcas de tiempo a nivel de palabra son otra función importante que ofrece nuestra API y que es necesaria para asignar el audio al texto. Los modelos de Voicegain tienen otra función: los modelos de diarización mejorados, que son una función obligatoria para los casos de uso de centros de contacto y reuniones, que pronto estarán disponibles en Whisper.

4. SLA de soporte premium y tiempo de actividad.

También ofrecemos soporte premium y SLA de tiempo de actividad para nuestra oferta de nube multiusuario. En la actualidad, estas API procesan más de 60 millones de minutos de audio al mes para nuestros clientes empresariales y emergentes.

Acerca de OpenAI-Whisper Model

OpenAI Whisper es un sistema de reconocimiento automático de voz (ASR) de código abierto que se basa en 680 000 horas de datos supervisados multilingües y multitarea recopilados de la web. La arquitectura del modelo se basa en un sistema de transformadores codificadores y descodificadores y ha mostrado una mejora significativa en el rendimiento en comparación con los modelos anteriores, ya que ha sido capacitado para realizar diversas tareas de procesamiento de voz, como el reconocimiento de voz multilingüe, la traducción de voz, la identificación del lenguaje hablado y la detección de la actividad vocal.

OpenAI Whisper model encoder-decoder transformer architecture

Fuente

Primeros pasos con Voicegain Whisper

Obtenga más información sobre Voicegain Whisper haciendo clic aquí. Cualquier desarrollador, ya sea una startup unipersonal o una gran empresa, puede acceder al modelo Voicegain Whisper registrándose para obtener una cuenta de desarrollador gratuita. Ofrecemos 15 000 minutos de créditos gratis si te registras hoy.

Hay dos maneras de probar Voicegain Whisper. Están resumidas aquí. Si desea obtener más información o si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control