Anunciamos el lanzamiento de la API Voicegain Whisper ASR/Speech Recognition para desarrolladores de la generación de IA

Hoy nos complace anunciar el lanzamiento de Voicegain Whisper, una versión optimizada del modelo Whisper Speech Recognition/ASR de Open AI que se ejecuta en la infraestructura de nube gestionada por Voicegain y es accesible mediante las API de Voicegain. Los desarrolladores pueden usar la misma infraestructura y API sólidas y bien documentadas que procesan más de 60 millones de minutos de audio al mes para empresas líderes como Samsung, Aetna y otras empresas emergentes innovadoras como Level.AI, Onvisource y DataOrb.

La API Voicegain Whisper es una API de conversión de voz a texto por lotes sólida y asequible para desarrolladores que buscan integrar las transcripciones de conversaciones con LLM como GPT 3.5 y 4 (de Open AI), PalM2 (de Google), Claude (de Anthropic), LLAMA 2 (de código abierto de Meta) y sus propios LLM privados para impulsar aplicaciones de IA generativa. Open AI publicó varias versiones de código abierto de los modelos Whisper lanzados. Con la versión de hoy, Voicegain es compatible con Whisper-Medium, Whisper-small y Whisper-base. Voicegain ahora admite la transcripción en más de los idiomas compatibles con Whisper.

‍

Aquí hay un eslabón a nuestra página de productos

‍
Hay cuatro razones principales para que los desarrolladores usen Voicegain Whisper en lugar de otras ofertas:

1. Soporte para la implementación local o en la nube privada (integración con LLM privados)

Si bien los desarrolladores pueden usar Voicegain Whisper en nuestra oferta de nube multiusuario, un gran diferenciador de Voicegain es nuestro soporte para Edge. La plataforma Voicegain ha sido diseñada y diseñada para la implementación de centros de datos y nubes privadas con un solo usuario. Además del modelo principal de conversión de voz a texto basado en el aprendizaje profundo, nuestra plataforma incluye nuestros servicios de API REST, sistemas de registro y supervisión, escalado automático y gestión de tareas y colas sin conexión. Hoy en día, las mismas API permiten a Voicegain procesar más de 60 millones de minutos al mes. Podemos llevar esta experiencia práctica del mundo real de ejecutar modelos de IA a escala a nuestra comunidad de desarrolladores.

Dado que la plataforma Voicegain se implementa en clústeres de Kubernetes, es ideal para las empresas modernas de productos SaaS de IA y las empresas innovadoras que desean integrarse con sus LLMs privados.

2. Precios asequibles: un 40% más barato que Open AI

En Voicegain, hemos optimizado Whisper para lograr un mayor rendimiento. Como resultado, podemos ofrecer acceso al modelo Whisper a un precio un 40% más bajo que el que ofrece Open AI.

3. Funciones mejoradas para centros de contacto y reuniones.

Voicegain también ofrece funciones fundamentales para centros de contacto y reuniones. Nuestras API admiten audio estéreo de dos canales, algo habitual en los sistemas de grabación de los centros de contacto. Las marcas de tiempo a nivel de palabra son otra función importante que ofrece nuestra API y que es necesaria para asignar el audio al texto. Los modelos de Voicegain tienen otra función: los modelos de diarización mejorados, que son una función obligatoria para los casos de uso de centros de contacto y reuniones, que pronto estarán disponibles en Whisper.

4. SLA de soporte premium y tiempo de actividad.

También ofrecemos soporte premium y SLA de tiempo de actividad para nuestra oferta de nube multiusuario. En la actualidad, estas API procesan más de 60 millones de minutos de audio al mes para nuestros clientes empresariales y emergentes.

‍

Acerca de OpenAI-Whisper Model

OpenAI Whisper es un sistema de reconocimiento automático de voz (ASR) de código abierto que se basa en 680 000 horas de datos supervisados multilingües y multitarea recopilados de la web. La arquitectura del modelo se basa en un sistema de transformadores codificadores y descodificadores y ha mostrado una mejora significativa en el rendimiento en comparación con los modelos anteriores, ya que ha sido capacitado para realizar diversas tareas de procesamiento de voz, como el reconocimiento de voz multilingüe, la traducción de voz, la identificación del lenguaje hablado y la detección de la actividad vocal.

OpenAI Whisper model encoder-decoder transformer architecture

Fuente

Primeros pasos con Voicegain Whisper

Obtenga más información sobre Voicegain Whisper haciendo clic aquí. Cualquier desarrollador, ya sea una startup unipersonal o una gran empresa, puede acceder al modelo Voicegain Whisper registrándose para obtener una cuenta de desarrollador gratuita. Ofrecemos 15 000 minutos de créditos gratis si te registras hoy.

Hay dos maneras de probar Voicegain Whisper. Están resumidas aquí. Si desea obtener más información o si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai

Casey

AI Voice Agent Platform

Transcribe