Voicegain Whisper API | Simple and affordable API for Open AI Whisper ASR

Consulte nuestro blog para obtener información, puntos de referencia y más

Blog Voicegain

ASR

Consideraciones prácticas para los desarrolladores que estén considerando el Whisper ASR de OpenAI

Por

Arun Santhebennur

•

lectura mínima

El 1 de marzo de 2023, Open AI anunció que los desarrolladores podían acceder al modelo Open AI Whisper Speech-to-Text a través de API REST fáciles de usar. OpenAI también lanzó las API para GPT3.5, el LLM detrás del popular producto ChatGPT. Se espera que la próxima versión de LLM, GPT 4, esté disponible para el público en julio de 2023.

Desde el lanzamiento inicial de Open AI Whisper en octubre de 2022, ha sido un gran atractivo para los desarrolladores. Un ASR de código abierto de alta precisión es extremadamente atractivo. El Whisper de OpenAI ha sido entrenado con 680 000 horas de datos de audio, mucho más de lo que utilizan la mayoría de los modelos. Aquí hay un enlace a sus github.

Sin embargo, la comunidad de desarrolladores que busca aprovechar Whisper se enfrenta a tres limitaciones principales:

1. Costos de infraestructura: La ejecución de Whisper, especialmente los modelos grandes y medianos, requiere costosas opciones de procesamiento basadas en GPU que consumen mucha memoria (consulte a continuación).

2. Experiencia interna en IA: Para utilizar el modelo Whisper de Open AI, una empresa tiene que invertir en la creación de un equipo interno de ingeniería de aprendizaje automático que sea capaz de operar, optimizar y dar soporte a Whisper en un entorno de producción. Si bien Whisper ofrece funciones básicas, como la conversión de voz a texto, la identificación del idioma, la puntuación y el formato, aún faltan algunas funciones de inteligencia artificial, como la diarización de los hablantes y la redacción de información personal identificable, que habría que desarrollar. Además, las empresas deberían establecer un NOC en tiempo real para ofrecer un soporte continuo. Incluso contratar y mantener un equipo de desarrolladores a pequeña escala de 2 a 3 personas podría resultar caro, a menos que el volumen de llamadas justifique dicha inversión. Este equipo interno también debe asumir la plena responsabilidad de las tareas relacionadas con la infraestructura de la nube, como el escalado automático y la supervisión de registros, para garantizar el tiempo de actividad.

3. Falta de soporte para tiempo real: Whisper es un modelo de conversión de voz a texto por lotes. Los desarrolladores que necesitan modelos de transmisión de voz a texto deben evaluar otras opciones de ASR/STT.

‍

Al asumir ahora la responsabilidad de alojar este modelo y hacerlo accesible a través de API fáciles de usar, tanto Open AI como Voicegain abordan las dos primeras limitaciones.

Actualización de agosto de 2023: El 5 de agosto de 2023, Voicegain anunció el lanzamiento de Voicegain Whisper, una versión optimizada de Whisper de Open AI que utiliza las API de Voicegain. He aquí un eslabón al anuncio. Además de Voicegain Whisper, Voicegain también ofrece transmisión de voz a texto en tiempo real y en streaming y otras funciones, como la compatibilidad con dos canales y estéreo (necesaria para los centros de llamadas), la diarización de los altavoces y la redacción de información personal identificable. Todo esto se ofrece en la infraestructura compatible con las normas PCI y SOC-2 de Voicegain.‍

‍
En este artículo se destacan algunos de los puntos fuertes y las limitaciones clave del uso de Whisper, ya sea que utilices las API de Open AI, las API de Voicegain o si lo alojas por tu cuenta.

Puntos fuertes

1. Precisión

En nuestras pruebas comparativas, los modelos Whisper de OpenAI demostraron una alta precisión para una amplia gama de conjuntos de datos de audio. Nuestros ingenieros de aprendizaje automático concluyeron que los modelos Whisper funcionan bien en conjuntos de datos de audio que van desde reuniones, podcasts, conferencias en el aula, vídeos de YouTube y audio para centros de llamadas. Comparamos Whisper-base, Whisper-small y Whisper-Medium con algunos de los mejores motores de ASR/conversión de voz a texto del mercado.

La tasa media de errores de palabras (WER) de Whisper-medium fue del 11,46% para el audio de las reuniones y del 17,7% para el audio de los centros de llamadas. De hecho, esta cifra fue inferior a la de otras grandes empresas, como Microsoft Azure y Google, que ofrecían los WER de STT. Descubrimos que AWS Transcribe tenía un WER que competía con el de Whisper.

He aquí una observación interesante - es posible superar la precisión de reconocimiento de Whisper, sin embargo, sería necesario crear modelos personalizados. Los modelos personalizados son modelos que se entrenan con los datos de audio específicos de nuestros clientes. De hecho, en el caso del audio para centros de llamadas, nuestros ingenieros de aprendizaje automático pudieron demostrar que nuestros modelos de conversión de voz a texto específicos para centros de llamadas eran iguales o incluso mejores que algunos de los modelos de Whisper. Esto tiene sentido desde el punto de vista intuitivo, ya que Open AI no puede acceder fácilmente al audio de los centros de llamadas en Internet.

Póngase en contacto con nosotros por correo electrónico (support@voicegain.ai) si desea revisar y validar/probar estos puntos de referencia de precisión.

2. Asequible en comparación con los grandes jugadores, pero no es la API de Whisper más barata del mercado

El precio de Whisper, de 0,006 USD por minuto (0,36 USD por hora), es mucho más bajo que el de las ofertas de conversión de voz a texto de algunos de los otros grandes actores de la nube. Esto se traduce en un descuento del 75% en Google Speech-to-Text y AWS Transcribe (según los precios a la fecha de esta publicación).

Actualización de agosto de 2023: En el lanzamiento de Voicegain Whisper, Voicegain anunció un precio de lista de 0,0037 USD por minuto (0,225 USD por hora). Este precio es un 37,5% más bajo que el precio de Open AI y se ha conseguido desde que optimizamos el rendimiento de Whisper. Para probarlo, regístrate para obtener una cuenta de desarrollador gratuita. Se proporcionan instrucciones aquí.

3. API Whisper y API ChatGPT, diseñadas para usarse juntas

Lo que también fue significativo fue que Open AI anunció el lanzamiento de las API de ChatGPT con el lanzamiento de las API de Whisper. Los desarrolladores pueden combinar la potencia de los modelos Whisper Speech-to-Text con los modelos GPT 3.5 y GPT 4.0 LLM (el modelo subyacente que utiliza ChatGPT) para impulsar aplicaciones de IA conversacional muy interesantes. Sin embargo, hay una consideración importante: el uso de la API Whisper con LLM como ChatGPT funciona siempre que la aplicación solo utilice audio pregrabado o por lotes (por ejemplo, analizar la grabación de las conversaciones del centro de llamadas para garantizar el control de calidad o el cumplimiento o transcribir y extraer las reuniones de Zoom para recordar el contexto). Los desarrolladores que buscan crear bots de voz o IVR de voz necesitan un buen modelo de conversión de voz a texto en tiempo real.

Limitaciones

1. No es compatible con la transmisión/en tiempo real

Como se indicó anteriormente, Whisper de Open AI no admite aplicaciones que requieran transcripciones en tiempo real o en streaming; esto podría ser relevante para una amplia variedad de aplicaciones de IA que se centran en casos de uso de centros de llamadas, educativos, legales y de reuniones. Si estás buscando un proveedor de API de transmisión de voz a texto, no dudes en ponerte en contacto con nosotros a través de la dirección de correo electrónico que se indica a continuación

2. Costos de infraestructura relacionados con la ejecución de Whisper

El rendimiento de los modelos Whisper, tanto para los modelos medianos como para los grandes, es relativamente bajo. En Voicegain, nuestros ingenieros de aprendizaje automático han probado el rendimiento de los modelos Whisper en varias instancias informáticas populares basadas en GPU de NVIDIA disponibles en nubes públicas (AWS, GCP, Microsoft Azure y Oracle Cloud). También tenemos experiencia real porque procesamos más de 10 millones de horas de audio al año. Como resultado, tenemos una sólida comprensión de lo que se necesita para ejecutar un modelo como Whisper de OpenAI en un entorno de producción.

Hemos descubierto que el coste de infraestructura de ejecutar Whisper-Medium en la nube el entorno está en el rango de 0,07 a 0,10 dólares/hora. Puede ponerse en contacto con nosotros por correo electrónico para obtener las suposiciones detalladas y el respaldo de nuestro modelo de costos. Un factor importante a tener en cuenta es que, en un entorno de producción de un solo inquilino, la infraestructura informática no puede ejecutarse con un uso muy alto. El rendimiento máximo requerido para soportar el tráfico real puede ser varias veces mayor (2 a 3 veces) que el rendimiento promedio. Net-net, determinamos que, si bien los desarrolladores no tendrían que pagar por las licencias de software, los costos de la infraestructura de la nube seguirían siendo sustanciales.

Además de este coste de infraestructura, el mayor gasto de ejecutar Whisper on the Edge (local o nube privada) es que se necesitaría un equipo dedicado de ingeniería y desarrollo de back-end que pudiera dividir la grabación de audio en segmentos que se pudieran enviar a Whisper y gestionar las colas. Este equipo también tendría que supervisar todas las necesidades de seguridad de la información y cumplimiento (por ejemplo, realizar análisis de vulnerabilidades, detectar intrusos, etc.).

b) El precio por canal hace que sea caro para los casos de uso de centros de llamadas y reuniones

A la fecha de publicación de este post, Whisper no cuenta con una API de audio multicanal. Por lo tanto, si tu aplicación incluye audio con varios altavoces, el precio por minuto efectivo de Whisper es igual al número de canales * 0,006. Tanto para reuniones como para centros de llamadas, este precio puede resultar prohibitivo.

3. Características clave que faltan: diarización, marcas de tiempo, redacción de PII

A esta versión de Whisper le faltan algunas funciones clave que los desarrolladores necesitarían. Las tres características importantes que hemos observado son la diarización (separación de los altavoces), las marcas de tiempo y la redacción de información personal.

Próximamente: API Voicegain Whisper

Voicegain está trabajando para lanzar un modelo Voicegain-Whisper a través de sus API. De este modo, los desarrolladores pueden aprovechar las ventajas de una infraestructura compatible con el protocolo PCI/SOC-2 de Voicegain y de funciones avanzadas, como la creación de diarios, la redacción de información de identificación personal, el cumplimiento de las normas PCI y las marcas de tiempo. Para unirse a la lista de espera, envíenos un correo electrónico a sales@voicegain.ai

‍

Acerca de Voicegain

En Voicegain, creamos modelos de voz a texto/ASR basados en el aprendizaje profundo que igualan o superan la precisión de los modelos STT de los grandes actores. Durante más de 4 años, los clientes emergentes y empresariales han utilizado nuestras API para crear y lanzar productos exitosos que procesan más de 600 millones de minutos al año. Nos centramos en los desarrolladores que necesitan una alta precisión (que se logra mediante el entrenamiento de modelos acústicos personalizados) y la implementación en infraestructuras privadas a un precio asequible. Ofrecemos un acuerdo de nivel de servicio preciso en el que garantizamos que un modelo personalizado que se base en tus datos será tan preciso, si no más, que las opciones más populares, como Whisper de Open AI.

También tenemos modelos que están capacitados específicamente en audio para centros de llamadas. Si bien Whisper es un competidor digno (por supuesto, una empresa mucho más grande con 100 veces más recursos que nosotros), como desarrolladores acogemos con satisfacción la innovación que Open AI está liberando en este mercado. Al añadir las API de ChatGPT a nuestra conversión de voz a texto, tenemos previsto ampliar nuestra oferta de API a la comunidad de desarrolladores.

Para crear una cuenta de desarrollador en Voicegain con créditos gratuitos, haz clic aquí.

Leer más →

ASR

Anunciamos el lanzamiento de la API Voicegain Whisper ASR/Speech Recognition para desarrolladores de la generación de IA

Por

Arun Santhebennur

•

lectura mínima

Hoy nos complace anunciar el lanzamiento de Voicegain Whisper, una versión optimizada del modelo Whisper Speech Recognition/ASR de Open AI que se ejecuta en la infraestructura de nube gestionada por Voicegain y es accesible mediante las API de Voicegain. Los desarrolladores pueden usar la misma infraestructura y API sólidas y bien documentadas que procesan más de 60 millones de minutos de audio al mes para empresas líderes como Samsung, Aetna y otras empresas emergentes innovadoras como Level.AI, Onvisource y DataOrb.

La API Voicegain Whisper es una API de conversión de voz a texto por lotes sólida y asequible para desarrolladores que buscan integrar las transcripciones de conversaciones con LLM como GPT 3.5 y 4 (de Open AI), PalM2 (de Google), Claude (de Anthropic), LLAMA 2 (de código abierto de Meta) y sus propios LLM privados para impulsar aplicaciones de IA generativa. Open AI publicó varias versiones de código abierto de los modelos Whisper lanzados. Con la versión de hoy, Voicegain es compatible con Whisper-Medium, Whisper-small y Whisper-base. Voicegain ahora admite la transcripción en más de los idiomas compatibles con Whisper.

‍

Aquí hay un eslabón a nuestra página de productos

‍
Hay cuatro razones principales para que los desarrolladores usen Voicegain Whisper en lugar de otras ofertas:

1. Soporte para la implementación local o en la nube privada (integración con LLM privados)

Si bien los desarrolladores pueden usar Voicegain Whisper en nuestra oferta de nube multiusuario, un gran diferenciador de Voicegain es nuestro soporte para Edge. La plataforma Voicegain ha sido diseñada y diseñada para la implementación de centros de datos y nubes privadas con un solo usuario. Además del modelo principal de conversión de voz a texto basado en el aprendizaje profundo, nuestra plataforma incluye nuestros servicios de API REST, sistemas de registro y supervisión, escalado automático y gestión de tareas y colas sin conexión. Hoy en día, las mismas API permiten a Voicegain procesar más de 60 millones de minutos al mes. Podemos llevar esta experiencia práctica del mundo real de ejecutar modelos de IA a escala a nuestra comunidad de desarrolladores.

Dado que la plataforma Voicegain se implementa en clústeres de Kubernetes, es ideal para las empresas modernas de productos SaaS de IA y las empresas innovadoras que desean integrarse con sus LLMs privados.

2. Precios asequibles: un 40% más barato que Open AI

En Voicegain, hemos optimizado Whisper para lograr un mayor rendimiento. Como resultado, podemos ofrecer acceso al modelo Whisper a un precio un 40% más bajo que el que ofrece Open AI.

3. Funciones mejoradas para centros de contacto y reuniones.

Voicegain también ofrece funciones fundamentales para centros de contacto y reuniones. Nuestras API admiten audio estéreo de dos canales, algo habitual en los sistemas de grabación de los centros de contacto. Las marcas de tiempo a nivel de palabra son otra función importante que ofrece nuestra API y que es necesaria para asignar el audio al texto. Los modelos de Voicegain tienen otra función: los modelos de diarización mejorados, que son una función obligatoria para los casos de uso de centros de contacto y reuniones, que pronto estarán disponibles en Whisper.

4. SLA de soporte premium y tiempo de actividad.

También ofrecemos soporte premium y SLA de tiempo de actividad para nuestra oferta de nube multiusuario. En la actualidad, estas API procesan más de 60 millones de minutos de audio al mes para nuestros clientes empresariales y emergentes.

‍

Acerca de OpenAI-Whisper Model

OpenAI Whisper es un sistema de reconocimiento automático de voz (ASR) de código abierto que se basa en 680 000 horas de datos supervisados multilingües y multitarea recopilados de la web. La arquitectura del modelo se basa en un sistema de transformadores codificadores y descodificadores y ha mostrado una mejora significativa en el rendimiento en comparación con los modelos anteriores, ya que ha sido capacitado para realizar diversas tareas de procesamiento de voz, como el reconocimiento de voz multilingüe, la traducción de voz, la identificación del lenguaje hablado y la detección de la actividad vocal.

OpenAI Whisper model encoder-decoder transformer architecture

Fuente

Primeros pasos con Voicegain Whisper

Obtenga más información sobre Voicegain Whisper haciendo clic aquí. Cualquier desarrollador, ya sea una startup unipersonal o una gran empresa, puede acceder al modelo Voicegain Whisper registrándose para obtener una cuenta de desarrollador gratuita. Ofrecemos 15 000 minutos de créditos gratis si te registras hoy.

Hay dos maneras de probar Voicegain Whisper. Están resumidas aquí. Si desea obtener más información o si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai

Leer más →

Casey

AI Voice Agent Platform

Transcribe

La mejor API de conversión de voz a texto para Whisper de OpenAI

Arquitectura de transformadores

LLM para IA conversacional

Múltiples idiomas

Ajuste con precisión para obtener una mayor precisión

Precios asequibles

Inquilino único

Diarización y marcas de tiempo

Soporte de clase empresarial las 24 horas

Conformidad con PCI-DSS y SOC-2

Servicios de ajuste de Whisper

Regístrate en Voicegain

Elige la opción adecuada para ti

Puntos fuertes

1. Precisión

2. Asequible en comparación con los grandes jugadores, pero no es la API de Whisper más barata del mercado

3. API Whisper y API ChatGPT, diseñadas para usarse juntas

Limitaciones

1. No es compatible con la transmisión/en tiempo real

2. Costos de infraestructura relacionados con la ejecución de Whisper

b) El precio por canal hace que sea caro para los casos de uso de centros de llamadas y reuniones

3. Características clave que faltan: diarización, marcas de tiempo, redacción de PII

Próximamente: API Voicegain Whisper

Acerca de Voicegain

1. Soporte para la implementación local o en la nube privada (integración con LLM privados)

2. Precios asequibles: un 40% más barato que Open AI

3. Funciones mejoradas para centros de contacto y reuniones.

4. SLA de soporte premium y tiempo de actividad.

Acerca de OpenAI-Whisper Model

Primeros pasos con Voicegain Whisper

Whisper - Request a Demo

La mejor API de conversión de voz a texto para Whisper de OpenAI

Arquitectura de transformadores

LLM para IA conversacional

Múltiples idiomas

Ajuste con precisión para obtener una mayor precisión

Precios asequibles

Inquilino único

Diarización y marcas de tiempo

Soporte de clase empresarial las 24 horas

Conformidad con PCI-DSS y SOC-2

Servicios de ajuste de Whisper

Regístrate en Voicegain

Elige la opción adecuada para ti

Puntos fuertes

1. Precisión

2. Asequible en comparación con los grandes jugadores, pero no es la API de Whisper más barata del mercado

3. API Whisper y API ChatGPT, diseñadas para usarse juntas

Limitaciones

1. No es compatible con la transmisión/en tiempo real

2. Costos de infraestructura relacionados con la ejecución de Whisper

b) El precio por canal hace que sea caro para los casos de uso de centros de llamadas y reuniones

3. Características clave que faltan: diarización, marcas de tiempo, redacción de PII

Próximamente: API Voicegain Whisper

Acerca de Voicegain

1. Soporte para la implementación local o en la nube privada (integración con LLM privados)

2. Precios asequibles: un 40% más barato que Open AI

3. Funciones mejoradas para centros de contacto y reuniones.

4. SLA de soporte premium y tiempo de actividad.

Acerca de OpenAI-Whisper Model

Primeros pasos con Voicegain Whisper