Pricing | Speech-to-Text Platform

Nube de ganancia de voz

Precios de pago por uso sin compromisos. 50$ en créditos proporcionado al registrarse, No se requiere tarjeta de crédito para empezar hoy. Se aplican límites de tarifas; obtenga límites de tarifas personalizados con compromisos de ingresos. Ponte en contacto para obtener más información.

Comenzar - Crédito gratuito

* No se requiere tarjeta de crédito.

Producto para desarrolladores

Por segundo

Por minuto

Por hora

STT - Fuera de línea - Básico³

0,00005

0,0030$

0,180$

STT - Sin conexión - Mejorado³

0,00006

0,0036$

0,216$

STT - Offline - Multicanal³

0,00010

0,0060$

0,36$

STT-RealTime - Transcripción⁴

0,00009

0,0054$

0,324$

STT - Personalizado⁵

Póngase en contacto con nosotros

Contacta con nosotros

Póngase en contacto con nosotros

STT-Realtime: bots/IVR (MRCP y API de bots)⁶

0,00015

0,0090$

0,54$

Voicegain Cloud: suposiciones

1. El uso de la plataforma se mide y se factura por segundo, pero nuestro sistema de facturación muestra el uso en horas.
‍
2. Cada solicitud de API está sujeta a una facturación mínima de 6 segundos y a un incremento de 1 segundo a partir de ese momento. Una solicitud en tiempo real de 4 segundos se factura durante 6 segundos o 0,0012 USD (0,00020 USD*6) y una solicitud en tiempo real de 7 segundos se factura 0,00020*7 USD.
‍
3. STT Offline-Basic ofrece STT en un solo canal sin diarización ni redacción de PII. Voicegain Whisper-small se ofrece al precio básico. STT Offline-Enhanced ofrece diarización y redacción de PII además de la transcripción. Voicegain Whisper-Medium se ofrece a un precio mejorado. También admite grabaciones de 2 canales para centros de llamadas, en las que el agente y la persona que llama están en canales separados. STT-Offline: el modo multicanal sirve para grabar reuniones en Zoom o en cualquier otra plataforma de reuniones en la que cada orador esté en un archivo de audio independiente.

4. STT Realtime-Transcription es para la transmisión de voz a texto de Voicegain a través de sockets web. El precio sobre la mesa es por canal. Ofrecemos un descuento del 50% a los clientes de centros de llamadas en los que el canal del agente y el canal de la persona que llama se transmiten en canales distintos.

5. El modelo personalizado de conversión de voz a texto se basa en el entrenamiento de nuestro modelo estándar con datos adicionales del cliente (mediante el aprendizaje por transferencia). Póngase en contacto con nosotros para conocer los precios.
‍
6. El precio del uso de nuestra API Speech-to-Text/ASR es STT-Realtime con MRCP o Telephony Bot API como parte de una sesión de MRCP o Telephony Bot API. Este precio se aplica durante toda la sesión de MRCP o del bot de telefonía o SIP. No incluye la grabación total de las sesiones durante toda la llamada.
‍
7. Se aplican límites de tarifas al pago por uso. Ofrecemos límites de tarifas más altos y precios más bajos con compromisos de volumen y plazo. Póngase en contacto con nosotros en sales@voicegain.ai para obtener los detalles.

Voicegain Edge (centro de datos/nube privada)

Implemente Voicegain en su infraestructura privada. Se ofrece una prueba gratuita de 30 días. Se ofrecen licencias basadas en puertos o en el uso. Se aplica la compra mínima de puertos y usos. Es posible que se apliquen costos de soporte anuales adicionales.

Póngase en contacto con nosotros

Producto para desarrolladores

Por puerto/mes

Por audio/hora

STT - Sin conexión - (mejorado y multicanal)

60$

0,15$

STT - Tiempo real - Transcripción

72 dólares

0,20$

STT - Personalizado

Póngase en contacto con nosotros

STT - Tiempo real - Bots/IVR (API de bots/MRCP)

66 dólares

0,18$

Voicegain Edge - Supuestos

1. Voicegain Edge hace referencia a que nuestra plataforma se implementa en la infraestructura del cliente (sin sistema operativo o VPC). Voicegain se implementa en un clúster de Kubernetes. Preferimos las GPU de NVIDIA para las aplicaciones que requieren una alta concurrencia. Las CPU son compatibles con las aplicaciones con baja concurrencia. La orquestación del clúster se realiza desde la nube Voicegain.
‍
2. El cliente incurrirá en costos de infraestructura y es responsable de monitorear Kubernetes. En el caso de la VPC, recomendamos administrar Kubernetes desde el proveedor de la nube y, en el caso de Datacenter, puedes ponerte en contacto con nosotros para conocer las opciones de asistencia.
‍‍
3. El «puerto», para STT Offline, se define como el rendimiento. Por lo tanto, 25 puertos le permitirían transcribir 25 horas de audio sin conexión por hora. En el caso del STT en tiempo real, el puerto es el número de sesiones de websocket simultáneas. Por ejemplo, 25 puertos significan un máximo de 25 sesiones STT simultáneas en tiempo real durante un mes.
‍
4. En el caso de las licencias basadas en el uso, cada solicitud está sujeta a una facturación mínima de 6 segundos y a un incremento de 1 segundo después. Por ejemplo, una solicitud en tiempo real de 4 segundos se facturará por 6 segundos o 0,0012 USD (0,00020 dólares*6 USD) y una solicitud en tiempo real de 7 segundos se facturará por 7 segundos.
‍
5. Voicegain ofrece descuentos para confirmaciones por volumen y plazo. Póngase en contacto con nosotros en sales@voicegain.ai para recibir precios personalizados.

Preguntas frecuentes

Consulte nuestro blog para obtener información, puntos de referencia, códigos de muestra y más

Blog Voicegain

Bot de voz

Cómo crear un Voicebot con Voicegain, Twilio, RASA y AWS Lambda

Por

Jacek Jarmulak

•

lectura mínima

Puede encontrar el código completo (menos la lógica RASA; tendrá que proporcionar el suyo propio) en nuestra github repositorio.

¿Qué es lo que hace?

La configuración le permite llamar a un número de teléfono y luego interactuar con un Voicebot que usa RASA como motor lógico de diálogo.

¿Cómo funciona?

Los componentes

Voz programable Twilio - Configuramos un número de teléfono de Twilio para que apunte a una aplicación TWiML que tenga la función AWS Lambda como URL de devolución de llamada.
Función AWS Lambda - una única función de Node.js con un activador de API Gateway (tipo de API HTTP simple).
API Voicegain STT - estamos usando la api /asr/transcribe/async con entrada a través de un flujo de websocket y salida a través de una devolución de llamada. La devolución de llamada se realiza a la misma función de AWS Lambda, pero la devolución de llamada de Voicegain es POST mientras que la devolución de llamada de Twilio es GET.
RASA - La lógica de diálogo la proporciona el servidor RASA NLU Dialog, al que se puede acceder a través de la API RestInput.
COMO S3 para almacenar los resultados de la transcripción en cada turno de diálogo.

Actualización de noviembre de 2021: No recomendamos S3 ni AWS Lambda para una configuración de producción. Se describe una revisión más actualizada de varias opciones para crear un Voice Bot aquí. Debería considerar reemplazar la funcionalidad de S3 y AWS Lambda por un servidor web que pueda mantener el estado, como Node.js o Python Flask.

Los escalones

El diagrama de secuencia se proporciona a continuación. Básicamente, la secuencia de operaciones es la siguiente:

Llama a un número de teléfono de Twilio
Twilio realiza una devolución de llamada inicial a la función Lambda
La función Lambda envía «Hola» a RASA y RASA responde con el mensaje de diálogo inicial
La función Lambda llama a Voicegain para iniciar una sesión de transcripción asíncrona. Voicegain responde con la URL de un websocket para la transmisión de audio
La función Lambda responde a Twilio con un comando TWiML <Connect><Stream>para abrir una transmisión multimedia para Voicegain. El comando también contendrá el texto de la línea de pregunta.
Voicegain usa TTS para generar a partir del texto de la pregunta RASA un mensaje de audio y lo transmite a través de websocket a Twilio para su reproducción.
La persona que llama escucha el aviso y dice algo en respuesta
Twilio transmite el audio de la persona que llama a Voicegain ASR para el reconocimiento de voz
Voicegain ASR transcribe el discurso a texto y devuelve la llamada con el resultado de la transcripción a la función Lambda.
La función lambda almacena el resultado de la transcripción en S3
Voicegain cierra la sesión de websocket con Twilio
Twilio se da cuenta del final de la sesión con ASR y devuelve la llamada a la función Lambda para saber qué hacer a continuación
La función Lambda recupera el resultado del reconocimiento de S3 y lo pasa a RASA.
RASA procesa la respuesta y genera la siguiente pregunta del diálogo
Continuamos en el siguiente turno igual que en el paso 4.

‍

Leer más →

Lo que dicen nuestros clientes...

«Elegimos Voicegain porque son precisos, asequibles y fáciles de usar. Implementamos toda la plataforma en nuestro centro de datos en menos de 30 minutos».

Ray Naeini -
Presidente y director ejecutivo de Onvisource

«Elegimos Voicegain para Sutherland CX360, nuestra oferta SaaS de AI/ML, para evaluar todas las interacciones de CX de Sutherland. Buscábamos una oferta ASR/STT precisa y compatible con PCI para nuestros clientes empresariales y la encontramos en Voicegain».

Doug Gilbert, CIO y CDO, Sutherland

«¡Voicegain es increíble! Tienen un excelente ASR y una arquitectura moderna. Pero lo que realmente valoramos es su soporte rápido y oportuno. Usamos sus API MRCP, ASR y STT, y funcionan a la perfección».

Chirayú Oza -
Director de ingeniería de Hammer

Casey

AI Voice Agent Platform

Transcribe

Plataforma para desarrolladores

Nube de ganancia de voz

Voicegain Cloud: suposiciones

Voicegain Edge (centro de datos/nube privada)

Voicegain Edge - Supuestos

¿Qué es lo que hace?

¿Cómo funciona?

Los componentes

Los escalones

Empresarial