Cree aplicaciones de IA de voz generativa con nuestras API de NLU basadas en ASR/Speech-to-Text y LLM. Graba y transcribe reuniones, llamadas a centros de atención al cliente, vídeos, etc. Obtén resúmenes, opiniones y mucho más basados en LLM. Cree asistentes de voz conversacionales que se integren con su plataforma de centro de contacto. Comience hoy mismo con nuestra plataforma centrada en los desarrolladores.
El ASR de aprendizaje profundo de Voicegain ofrece una combinación inmejorable de precisión, precio y flexibilidad. El ASR de Voicegain puede implementarse localmente, en su VPC o invocarse como un servicio en la nube. Nos integramos de forma inmediata con las principales plataformas de centros de contacto, videoconferencias y bots.
La precisión inmediata de Voicegain, tanto para el reconocimiento de voz por lotes como por streaming, está a la altura de las mejores. Pero puedes alcanzar una precisión de más de 90 si entrenas con tus datos.
Voicegain tiene un precio entre un 50 y un 75% más bajo que el de los grandes reproductores de voz a texto en la nube. Nuestros precios Edge también son muy asequibles en comparación con las opciones de la competencia.
Acceda a Voicegain en nuestra nube multiusuario. O impleméntelo en su centro de datos o VPC. Utilice su infraestructura de audio existente e intégrela con el protocolo que elija.
Nuestro ASR se basa en los avances más recientes en aprendizaje profundo. Utilizamos redes neuronales profundas de extremo a extremo basadas en transformadores y las hemos entrenado con varias decenas de miles de horas de diversos conjuntos de datos de audio.
API para integrar la transcripción en su aplicación y crear bots de voz accesibles por telefonía. Implemente Voicegain en su infraestructura (VPC, centro de datos) o utilice nuestro servicio en la nube
Obtenga su propio asistente de reuniones con IA para automatizar la toma de notas. ¡Sepa siempre quién dijo qué, cuándo y dónde! Se integra con plataformas de videoconferencias como Zoom, Microsoft Teams y Google Meet. Hay opciones de Edge (on-Prem o VPC) disponibles.
Automatice el control de calidad y extraiga información sobre la experiencia del cliente de las interacciones de voz en el centro de contacto. Se encuentra disponible una licencia de interfaz de usuario de marca blanca o de código fuente.
Voicegain, la plataforma líder de inteligencia artificial Edge Voice para empresas y empresas de SaaS de voz, se complace en anunciar la finalización exitosa de una auditoría de tipo 1 de control organizacional y de sistemas (SOC) 2 realizada por Sensiba LLP.
Leer más →¡Los LLM como ChatGPT y Bard están arrasando en el mundo! Un LLM como ChatGPT es muy bueno tanto para entender el lenguaje como para adquirir conocimientos sobre este contenido. El resultado de esto es casi espeluznante y aterrador. Porque una vez que estos LLM adquieren conocimientos, pueden responder con mucha precisión a preguntas que en el pasado parecían requerir el juicio humano.
Un gran caso de uso de los LLM es el análisis de las reuniones de negocios, tanto internas (entre empleados) como externas (por ejemplo, conversaciones con clientes, proveedores, etc.).
En los últimos años, las empresas han estado utilizando principalmente ofertas de SaaS de inteligencia de ventas e ingresos para múltiples inquilinos y para reuniones con IA para transcribir las conversaciones comerciales y extraer información. Con estas ofertas para varios usuarios, la transcripción y el procesamiento del lenguaje natural se llevan a cabo en la nube de Vendor. Una vez que se genera la transcripción, se utilizan los modelos de NLU ofrecidos por el proveedor de Meeting AI para extraer información. Por ejemplo, los productos de inteligencia de ingresos, como Gong, extraen preguntas y bloquean las ventas en las conversaciones de ventas. La mayoría de los asistentes de inteligencia artificial para reuniones extraen resúmenes y elementos de acción.
Básicamente, estos modelos de NLU, y muchos de ellos son anteriores a los LLM, podían resumir y extraer temas, palabras clave y frases. A las empresas no les importaba utilizar la infraestructura en la nube del proveedor para almacenar las transcripciones, ya que lo que podía hacer esta NLU parecía bastante inofensivo.
Sin embargo, los LLM llevan esto a un nivel completamente diferente. Nuestro equipo utilizó la API Open AI Embeddings para generar incrustaciones de las transcripciones de nuestras reuniones diarias que se realizaron durante un período de un mes. Almacenamos estas incrustaciones en una base de datos vectorial de código abierto (nuestra base de conocimientos). Durante las pruebas, para cada pregunta del usuario, generamos una incrustación de la pregunta y consultamos la base de datos vectorial (es decir, la base de conocimientos) para obtener incrustaciones relacionadas o similares.
Luego, proporcionamos estos documentos relacionados como contexto y la pregunta del usuario como mensaje a la API GPT 3.5 para que pudiera generar la respuesta. Obtuvimos unos resultados realmente buenos.
Pudimos obtener respuestas a las siguientes preguntas
1. Proporcione un resumen del contrato con<Largest Customer Name>.
2. ¿En qué se avanza<Key Initiative>?
3. ¿La empresa contrató nuevos empleados?
4. ¿La empresa habló de algún secreto comercial?
5. ¿Qué opina el equipo sobre Mongodb Atlas frente a Google Firestore?
6. ¿Qué nuevos productos planea desarrollar la Compañía?
7. ¿Qué proveedor de nube utiliza la empresa?
8. ¿Cuál es el progreso de una iniciativa clave?
9. ¿Los empleados están contentos trabajando en la empresa?
10. ¿El equipo está apagando incendios?
Las respuestas de ChatGPT a las preguntas anteriores fueron asombrosamente precisas e inquietantemente precisas. En cuanto a la pregunta 4, indicó que no quería responderla. Y cuando no disponía de la información adecuada (por ejemplo, la pregunta 9), sí lo indicó en su respuesta.
En Voicegain, siempre hemos sido grandes defensores de por qué la IA de voz debe permanecer al límite. Teníamos escrito sobre ello en el pasado.
Las transcripciones de las reuniones en cualquier negocio son una verdadera mina de oro de información. Ahora, con el poder de los LLM, ahora se pueden consultar con mucha facilidad para obtener información sorprendente. Sin embargo, si estas transcripciones se almacenan en la nube de otro proveedor, es posible que la información confidencial y exclusiva de cualquier empresa quede expuesta a terceros.
Por lo tanto, para las empresas es extremadamente importante que dichas transcripciones se almacenen solo en una infraestructura privada (detrás del firewall). Es muy importante que la TI empresarial se asegure de que esto suceda para proteger la información confidencial y de propiedad exclusiva.
Si está buscando una solución de este tipo, podemos ayudarlo. En Voicegain, ofrecemos Voicegain Transcribe, una solución empresarial para la IA de reuniones. Con Voicegain Transcribe, toda la solución se puede implementar en un centro de datos (sin sistema operativo) o en una nube privada. Puedes leer más sobre esto aquí.
[ACTUALIZACIÓN DEL 23 DE ENERO DE 22: Tras entrenarse con datos adicionales, el reconocedor Voicegain ahora alcanza un WER promedio del 11,89% (una mejora del 0,35%) y un WER medio del 10,82% (una mejora del 0,21%) en este punto de referencia.
Voicegain ahora es mejor que Google Enhanced en 44 archivos (antes 39).
Voicegain es ahora el reconocedor más preciso en 12 de los archivos (anteriormente 10).
Tenemos datos adicionales sobre los que nos capacitaremos pronto y luego proporcionaremos un conjunto completamente nuevo de resultados y comparaciones.]
Han pasado más de 4 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Amazon y Microsoft (cerca del segundo lugar), luego Google Enhanced y Voicegain (también cerca del cuarto lugar) y, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos modificado la arquitectura de nuestro modelo y lo hemos entrenado con más datos. Esto resultó en un aumento adicional en la precisión de nuestro modelo. En lo que respecta al resto de reconocedores, Microsoft fue el que más mejoró la precisión de su modelo, mientras que la precisión de otros se mantuvo más o menos igual.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que el mejor reconocedor no pudo alcanzar una tasa de errores de palabras (WER) inferior al 25%. Nota: anteriormente, utilizábamos el 20% como umbral, pero esta vez hemos decidido conservar más archivos con una precisión baja para ilustrar las diferencias en ese tipo de archivos entre los reconocedores.
Solo tres archivos eran tan difíciles que ninguno de los reconocedores podía alcanzar el 25% de WER. Los dos archivos borrados eran entrevistas radiofónicas con una grabación de mala calidad.
Como puedes ver en el gráfico de resultados anterior, Voicegain ahora es mejor que Google Enhanced, tanto en promedio como en promedio de WER. Al observar los archivos individuales, los resultados también muestran que la precisión de Voicegain es, en la mayoría de los casos, mejor que la de Google:
Observaciones clave sobre otros resultados:
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?