Acceda al modelo Whisper de OpenAI con las API REST fáciles de usar de Voicegain. Obtén el soporte empresarial de Voicegain, cumple con las normas SOC2 y PCI y añade funciones como la compatibilidad con dos canales (estéreo), la diarización, las marcas de tiempo a nivel de palabras y mucho más.
Whisper es un modelo de reconocimiento automático de voz (ASR) de código abierto basado en el aprendizaje profundo desarrollado por Open AI. Whisper está capacitado para procesar 680 000 horas de datos multilingües, lo que le permite funcionar bien con una variedad de acentos y ruidos de fondo.
La arquitectura Whisper es un enfoque simple de extremo a extremo, implementado como un transformador codificador-decodificador.
Los desarrolladores pueden enviar fácilmente el resultado de la transcripción a un LLM como GPT para mejorar la legibilidad de las transcripciones, resumirlas, extraer opiniones y más análisis.
OpenAI Whisper ASR puede transcribir en varios idiomas. Los siguientes 57 idiomas tienen una tasa de error de palabras de menos del 50%. Consulte nuestros servicios de ajuste para obtener un ASR mejor.
Whisper está predominantemente entrenado para inglés y, por lo tanto, las tasas de error de palabras en otros idiomas pueden seguir siendo altas. Voicegain ofrece a Whisper los servicios de ajuste preciso de sus datos para obtener una mayor precisión y un WER más bajo.
La API Voicegain Whisper Speech-to-Text tiene un precio asequible de 0,25 USD por hora (para la instancia con sede en EE. UU.); es un 40% más bajo que el precio de Open AI (a diciembre de 2023)
Implemente Voicegain Whisper en su centro de datos o en su instancia de VPC para obtener la máxima privacidad y control de los datos. Introduce nuestros registros y métricas en tu Grafana para supervisar el rendimiento.
Voicegain Whisper añade funciones clave como la diarización y las marcas de tiempo a nivel de palabra a Whisper de Open AI
Voicegain's ofrece un soporte de clase empresarial de alto nivel las 24 horas del día, los 7 días de la semana, para el modelo Whisper. Esto permite a los desarrolladores centrar sus esfuerzos en la optimización de la LLM y utilizar nuestras API para ASR.
Voicegain es una organización que cumple con las normas PCI-DSS y SOC-2. Redactamos todas las entidades relacionadas con la PCI y la PII, tanto en la transcripción como en el audio. Escaneamos el código subyacente en busca de vulnerabilidades y mantenemos todas las bibliotecas actualizadas.
Whisper se ha formado predominantemente en conjuntos de datos en inglés disponibles al público. Voicegain puede proporcionar servicios de optimización a Whisper con tus datos para reducir el WER en tu conjunto de datos.
Puedes registrarte hoy mismo para obtener una cuenta de desarrollador con la dirección de correo electrónico de tu empresa.
Si desea comprobar rápidamente la precisión de Whisper sin escribir código, puede consultar la primera opción que se menciona a continuación. Si eres desarrollador y quieres probar realmente nuestras API, consulta la opción 2 que aparece a continuación.
El 1 de marzo de 2023, Open AI anunció que los desarrolladores podían acceder al modelo Open AI Whisper Speech-to-Text a través de API REST fáciles de usar. OpenAI también lanzó las API para GPT3.5, el LLM detrás del popular producto ChatGPT. Se espera que la próxima versión de LLM, GPT 4, esté disponible para el público en julio de 2023.
Desde el lanzamiento inicial de Open AI Whisper en octubre de 2022, ha sido un gran atractivo para los desarrolladores. Un ASR de código abierto de alta precisión es extremadamente atractivo. El Whisper de OpenAI ha sido entrenado con 680 000 horas de datos de audio, mucho más de lo que utilizan la mayoría de los modelos. Aquí hay un enlace a sus github.
Sin embargo, la comunidad de desarrolladores que busca aprovechar Whisper se enfrenta a tres limitaciones principales:
1. Costos de infraestructura: La ejecución de Whisper, especialmente los modelos grandes y medianos, requiere costosas opciones de procesamiento basadas en GPU que consumen mucha memoria (consulte a continuación).
2. Experiencia interna en IA: Para utilizar el modelo Whisper de Open AI, una empresa tiene que invertir en la creación de un equipo interno de ingeniería de aprendizaje automático que sea capaz de operar, optimizar y dar soporte a Whisper en un entorno de producción. Si bien Whisper ofrece funciones básicas, como la conversión de voz a texto, la identificación del idioma, la puntuación y el formato, aún faltan algunas funciones de inteligencia artificial, como la diarización de los hablantes y la redacción de información personal identificable, que habría que desarrollar. Además, las empresas deberían establecer un NOC en tiempo real para ofrecer un soporte continuo. Incluso contratar y mantener un equipo de desarrolladores a pequeña escala de 2 a 3 personas podría resultar caro, a menos que el volumen de llamadas justifique dicha inversión. Este equipo interno también debe asumir la plena responsabilidad de las tareas relacionadas con la infraestructura de la nube, como el escalado automático y la supervisión de registros, para garantizar el tiempo de actividad.
3. Falta de soporte para tiempo real: Whisper es un modelo de conversión de voz a texto por lotes. Los desarrolladores que necesitan modelos de transmisión de voz a texto deben evaluar otras opciones de ASR/STT.
Al asumir ahora la responsabilidad de alojar este modelo y hacerlo accesible a través de API fáciles de usar, tanto Open AI como Voicegain abordan las dos primeras limitaciones.
Actualización de agosto de 2023: El 5 de agosto de 2023, Voicegain anunció el lanzamiento de Voicegain Whisper, una versión optimizada de Whisper de Open AI que utiliza las API de Voicegain. He aquí un eslabón al anuncio. Además de Voicegain Whisper, Voicegain también ofrece transmisión de voz a texto en tiempo real y en streaming y otras funciones, como la compatibilidad con dos canales y estéreo (necesaria para los centros de llamadas), la diarización de los altavoces y la redacción de información personal identificable. Todo esto se ofrece en la infraestructura compatible con las normas PCI y SOC-2 de Voicegain.
En este artículo se destacan algunos de los puntos fuertes y las limitaciones clave del uso de Whisper, ya sea que utilices las API de Open AI, las API de Voicegain o si lo alojas por tu cuenta.
En nuestras pruebas comparativas, los modelos Whisper de OpenAI demostraron una alta precisión para una amplia gama de conjuntos de datos de audio. Nuestros ingenieros de aprendizaje automático concluyeron que los modelos Whisper funcionan bien en conjuntos de datos de audio que van desde reuniones, podcasts, conferencias en el aula, vídeos de YouTube y audio para centros de llamadas. Comparamos Whisper-base, Whisper-small y Whisper-Medium con algunos de los mejores motores de ASR/conversión de voz a texto del mercado.
La tasa media de errores de palabras (WER) de Whisper-medium fue del 11,46% para el audio de las reuniones y del 17,7% para el audio de los centros de llamadas. De hecho, esta cifra fue inferior a la de otras grandes empresas, como Microsoft Azure y Google, que ofrecían los WER de STT. Descubrimos que AWS Transcribe tenía un WER que competía con el de Whisper.
He aquí una observación interesante - es posible superar la precisión de reconocimiento de Whisper, sin embargo, sería necesario crear modelos personalizados. Los modelos personalizados son modelos que se entrenan con los datos de audio específicos de nuestros clientes. De hecho, en el caso del audio para centros de llamadas, nuestros ingenieros de aprendizaje automático pudieron demostrar que nuestros modelos de conversión de voz a texto específicos para centros de llamadas eran iguales o incluso mejores que algunos de los modelos de Whisper. Esto tiene sentido desde el punto de vista intuitivo, ya que Open AI no puede acceder fácilmente al audio de los centros de llamadas en Internet.
Póngase en contacto con nosotros por correo electrónico (support@voicegain.ai) si desea revisar y validar/probar estos puntos de referencia de precisión.
El precio de Whisper, de 0,006 USD por minuto (0,36 USD por hora), es mucho más bajo que el de las ofertas de conversión de voz a texto de algunos de los otros grandes actores de la nube. Esto se traduce en un descuento del 75% en Google Speech-to-Text y AWS Transcribe (según los precios a la fecha de esta publicación).
Actualización de agosto de 2023: En el lanzamiento de Voicegain Whisper, Voicegain anunció un precio de lista de 0,0037 USD por minuto (0,225 USD por hora). Este precio es un 37,5% más bajo que el precio de Open AI y se ha conseguido desde que optimizamos el rendimiento de Whisper. Para probarlo, regístrate para obtener una cuenta de desarrollador gratuita. Se proporcionan instrucciones aquí.
Lo que también fue significativo fue que Open AI anunció el lanzamiento de las API de ChatGPT con el lanzamiento de las API de Whisper. Los desarrolladores pueden combinar la potencia de los modelos Whisper Speech-to-Text con los modelos GPT 3.5 y GPT 4.0 LLM (el modelo subyacente que utiliza ChatGPT) para impulsar aplicaciones de IA conversacional muy interesantes. Sin embargo, hay una consideración importante: el uso de la API Whisper con LLM como ChatGPT funciona siempre que la aplicación solo utilice audio pregrabado o por lotes (por ejemplo, analizar la grabación de las conversaciones del centro de llamadas para garantizar el control de calidad o el cumplimiento o transcribir y extraer las reuniones de Zoom para recordar el contexto). Los desarrolladores que buscan crear bots de voz o IVR de voz necesitan un buen modelo de conversión de voz a texto en tiempo real.
Como se indicó anteriormente, Whisper de Open AI no admite aplicaciones que requieran transcripciones en tiempo real o en streaming; esto podría ser relevante para una amplia variedad de aplicaciones de IA que se centran en casos de uso de centros de llamadas, educativos, legales y de reuniones. Si estás buscando un proveedor de API de transmisión de voz a texto, no dudes en ponerte en contacto con nosotros a través de la dirección de correo electrónico que se indica a continuación
El rendimiento de los modelos Whisper, tanto para los modelos medianos como para los grandes, es relativamente bajo. En Voicegain, nuestros ingenieros de aprendizaje automático han probado el rendimiento de los modelos Whisper en varias instancias informáticas populares basadas en GPU de NVIDIA disponibles en nubes públicas (AWS, GCP, Microsoft Azure y Oracle Cloud). También tenemos experiencia real porque procesamos más de 10 millones de horas de audio al año. Como resultado, tenemos una sólida comprensión de lo que se necesita para ejecutar un modelo como Whisper de OpenAI en un entorno de producción.
Hemos descubierto que el coste de infraestructura de ejecutar Whisper-Medium en la nube el entorno está en el rango de 0,07 a 0,10 dólares/hora. Puede ponerse en contacto con nosotros por correo electrónico para obtener las suposiciones detalladas y el respaldo de nuestro modelo de costos. Un factor importante a tener en cuenta es que, en un entorno de producción de un solo inquilino, la infraestructura informática no puede ejecutarse con un uso muy alto. El rendimiento máximo requerido para soportar el tráfico real puede ser varias veces mayor (2 a 3 veces) que el rendimiento promedio. Net-net, determinamos que, si bien los desarrolladores no tendrían que pagar por las licencias de software, los costos de la infraestructura de la nube seguirían siendo sustanciales.
Además de este coste de infraestructura, el mayor gasto de ejecutar Whisper on the Edge (local o nube privada) es que se necesitaría un equipo dedicado de ingeniería y desarrollo de back-end que pudiera dividir la grabación de audio en segmentos que se pudieran enviar a Whisper y gestionar las colas. Este equipo también tendría que supervisar todas las necesidades de seguridad de la información y cumplimiento (por ejemplo, realizar análisis de vulnerabilidades, detectar intrusos, etc.).
A la fecha de publicación de este post, Whisper no cuenta con una API de audio multicanal. Por lo tanto, si tu aplicación incluye audio con varios altavoces, el precio por minuto efectivo de Whisper es igual al número de canales * 0,006. Tanto para reuniones como para centros de llamadas, este precio puede resultar prohibitivo.
A esta versión de Whisper le faltan algunas funciones clave que los desarrolladores necesitarían. Las tres características importantes que hemos observado son la diarización (separación de los altavoces), las marcas de tiempo y la redacción de información personal.
Voicegain está trabajando para lanzar un modelo Voicegain-Whisper a través de sus API. De este modo, los desarrolladores pueden aprovechar las ventajas de una infraestructura compatible con el protocolo PCI/SOC-2 de Voicegain y de funciones avanzadas, como la creación de diarios, la redacción de información de identificación personal, el cumplimiento de las normas PCI y las marcas de tiempo. Para unirse a la lista de espera, envíenos un correo electrónico a sales@voicegain.ai
En Voicegain, creamos modelos de voz a texto/ASR basados en el aprendizaje profundo que igualan o superan la precisión de los modelos STT de los grandes actores. Durante más de 4 años, los clientes emergentes y empresariales han utilizado nuestras API para crear y lanzar productos exitosos que procesan más de 600 millones de minutos al año. Nos centramos en los desarrolladores que necesitan una alta precisión (que se logra mediante el entrenamiento de modelos acústicos personalizados) y la implementación en infraestructuras privadas a un precio asequible. Ofrecemos un acuerdo de nivel de servicio preciso en el que garantizamos que un modelo personalizado que se base en tus datos será tan preciso, si no más, que las opciones más populares, como Whisper de Open AI.
También tenemos modelos que están capacitados específicamente en audio para centros de llamadas. Si bien Whisper es un competidor digno (por supuesto, una empresa mucho más grande con 100 veces más recursos que nosotros), como desarrolladores acogemos con satisfacción la innovación que Open AI está liberando en este mercado. Al añadir las API de ChatGPT a nuestra conversión de voz a texto, tenemos previsto ampliar nuestra oferta de API a la comunidad de desarrolladores.
Para crear una cuenta de desarrollador en Voicegain con créditos gratuitos, haz clic aquí.
Hoy nos complace anunciar el lanzamiento de Voicegain Whisper, una versión optimizada del modelo Whisper Speech Recognition/ASR de Open AI que se ejecuta en la infraestructura de nube gestionada por Voicegain y es accesible mediante las API de Voicegain. Los desarrolladores pueden usar la misma infraestructura y API sólidas y bien documentadas que procesan más de 60 millones de minutos de audio al mes para empresas líderes como Samsung, Aetna y otras empresas emergentes innovadoras como Level.AI, Onvisource y DataOrb.
La API Voicegain Whisper es una API de conversión de voz a texto por lotes sólida y asequible para desarrolladores que buscan integrar las transcripciones de conversaciones con LLM como GPT 3.5 y 4 (de Open AI), PalM2 (de Google), Claude (de Anthropic), LLAMA 2 (de código abierto de Meta) y sus propios LLM privados para impulsar aplicaciones de IA generativa. Open AI publicó varias versiones de código abierto de los modelos Whisper lanzados. Con la versión de hoy, Voicegain es compatible con Whisper-Medium, Whisper-small y Whisper-base. Voicegain ahora admite la transcripción en más de los idiomas compatibles con Whisper.
Aquí hay un eslabón a nuestra página de productos
Hay cuatro razones principales para que los desarrolladores usen Voicegain Whisper en lugar de otras ofertas:
Si bien los desarrolladores pueden usar Voicegain Whisper en nuestra oferta de nube multiusuario, un gran diferenciador de Voicegain es nuestro soporte para Edge. La plataforma Voicegain ha sido diseñada y diseñada para la implementación de centros de datos y nubes privadas con un solo usuario. Además del modelo principal de conversión de voz a texto basado en el aprendizaje profundo, nuestra plataforma incluye nuestros servicios de API REST, sistemas de registro y supervisión, escalado automático y gestión de tareas y colas sin conexión. Hoy en día, las mismas API permiten a Voicegain procesar más de 60 millones de minutos al mes. Podemos llevar esta experiencia práctica del mundo real de ejecutar modelos de IA a escala a nuestra comunidad de desarrolladores.
Dado que la plataforma Voicegain se implementa en clústeres de Kubernetes, es ideal para las empresas modernas de productos SaaS de IA y las empresas innovadoras que desean integrarse con sus LLMs privados.
En Voicegain, hemos optimizado Whisper para lograr un mayor rendimiento. Como resultado, podemos ofrecer acceso al modelo Whisper a un precio un 40% más bajo que el que ofrece Open AI.
Voicegain también ofrece funciones fundamentales para centros de contacto y reuniones. Nuestras API admiten audio estéreo de dos canales, algo habitual en los sistemas de grabación de los centros de contacto. Las marcas de tiempo a nivel de palabra son otra función importante que ofrece nuestra API y que es necesaria para asignar el audio al texto. Los modelos de Voicegain tienen otra función: los modelos de diarización mejorados, que son una función obligatoria para los casos de uso de centros de contacto y reuniones, que pronto estarán disponibles en Whisper.
También ofrecemos soporte premium y SLA de tiempo de actividad para nuestra oferta de nube multiusuario. En la actualidad, estas API procesan más de 60 millones de minutos de audio al mes para nuestros clientes empresariales y emergentes.
OpenAI Whisper es un sistema de reconocimiento automático de voz (ASR) de código abierto que se basa en 680 000 horas de datos supervisados multilingües y multitarea recopilados de la web. La arquitectura del modelo se basa en un sistema de transformadores codificadores y descodificadores y ha mostrado una mejora significativa en el rendimiento en comparación con los modelos anteriores, ya que ha sido capacitado para realizar diversas tareas de procesamiento de voz, como el reconocimiento de voz multilingüe, la traducción de voz, la identificación del lenguaje hablado y la detección de la actividad vocal.
Obtenga más información sobre Voicegain Whisper haciendo clic aquí. Cualquier desarrollador, ya sea una startup unipersonal o una gran empresa, puede acceder al modelo Voicegain Whisper registrándose para obtener una cuenta de desarrollador gratuita. Ofrecemos 15 000 minutos de créditos gratis si te registras hoy.
Hay dos maneras de probar Voicegain Whisper. Están resumidas aquí. Si desea obtener más información o si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai