Pricing - Developers | Speech-to-Text Platform

Nube de ganancia de voz

Precios de pago por uso sin compromisos.50$ en créditos proporcionado al registrarse, No se requiere tarjeta de crédito para empezar hoy. Se aplican límites de tarifas; obtenga límites de tarifas personalizados con compromisos de ingresos. El soporte premium conlleva costos adicionales. Póngase en contacto para obtener más información.

Comenzar - Crédito gratuito

* No se requiere tarjeta de crédito.

Producto para desarrolladores

Por segundo

Por minuto

Por hora

STT - Fuera de línea - Básico

0,00005

0,0030$

0,18$

STT - Sin conexión - Mejorado

0,00007

0,0042$

0,252

STT - Tiempo real - Básico

0,00007

0,0042$

0,252

STT - Tiempo real - Mejorado

0,00009

0,0054$

0,324$

API de bots de telefonía (IVR+ STT)

Póngase en contacto con nosotros

Voicegain Cloud: suposiciones

1. El uso de la plataforma se mide y se factura por segundo, pero las facturas generadas por nuestro sistema de facturación indican el uso en horas.
‍
2. Cada solicitud de API está sujeta a una facturación mínima de 6 segundos y a un incremento de 1 segundo a partir de ese momento. Una solicitud de API de 4 segundos se factura durante 6 segundos o 0,0012 USD (0,00020 USD*6) y una solicitud en tiempo real de 7 segundos se factura 0,00020*7 USD.
‍
3. El modelo básico ofrece STT en un solo canal sin diarización ni redacción de PII. El modelo mejorado ofrece STT para audio de dos canales para centros de llamadas (el agente y la persona que llama en canales separados). También incluye la diarización (un canal con varios altavoces) y la redacción de la PII.
‍
4. STT Realtime-Basic y STT Realtime-Enhanced son para transmitir audio a través de Web-socket. Basic es para monocanal sin diarización. Enhanced es para audio de centro de llamadas estéreo o de dos canales para aplicaciones de centro de llamadas.

5. La API Telephony Bot es una combinación de IVR y conversión de voz a texto de Voicegain.
‍
6. El MRCP ASR es el ASR de voz a texto en tiempo real que forma parte de una sesión de MRCP. Este precio se aplica durante toda la sesión del MRCP. No incluye el costo de la grabación total de las sesiones durante toda la llamada.
‍
7. Se aplican límites de tarifas al pago por uso. Ofrecemos límites de tarifas más altos y precios más bajos con compromisos de volumen y plazo. Póngase en contacto con nosotros en sales@voicegain.ai para obtener los detalles.

Voicegain Edge (centro de datos/nube privada)

Implemente Voicegain en su infraestructura privada. Se ofrece una prueba gratuita de 30 días. Licencias basadas en puertos o en uso disponibles. Se aplica la compra mínima de puertos y usos. Además, hay un costo de soporte anual.

Póngase en contacto con nosotros

Producto para desarrolladores

Por puerto/mes

Por audio/hora

STT - Sin conexión - (mejorado y multicanal)

60$

0,16$

STT - Tiempo real - Transcripción

72 dólares

0,20$

STT - Personalizado

Póngase en contacto con nosotros

MRCP ASR

48 - 72 dólares

Not offered

Voicegain Edge - Supuestos

1. Voicegain Edge hace referencia a que nuestra plataforma se implementa en la infraestructura privada del cliente (sin uso en un centro de datos o en una nube privada). Voicegain se implementa en un clúster de Kubernetes. Preferimos las GPU de NVIDIA para las aplicaciones que requieren una alta concurrencia. Las CPU son compatibles con las aplicaciones con baja concurrencia. La orquestación del clúster se realiza desde la nube Voicegain.

2. For high throughput/concurrency, we recommend NVIDIA-GPU-based VMs or Kubernetes Clusters. CPU-based VMs are recommended for low concurrency use-cases. We also offer fully air gapped deployments where the Licensing Server is deployed in Client's datacaenter.
‍
2. El cliente incurrirá en costos de infraestructura y es responsable de monitorear Kubernetes. Para la nube privada, recomendamos administrar Kubernetes desde el proveedor de la nube. Para Datacenter, ponte en contacto con nosotros para conocer las opciones de asistencia.
‍‍
3. El «puerto», para STT Offline, se define como el rendimiento. Por lo tanto, 25 puertos le permitirían transcribir 25 horas de audio sin conexión por hora. En el caso del STT en tiempo real, el puerto es el número de sesiones de websocket simultáneas. Por ejemplo, 25 puertos significan un máximo de 25 sesiones STT simultáneas en tiempo real durante un mes.

5. MRCP Tier 1 provides access to our Grammar-based ASR. Voicegain supports grXML and JSGF grammars. Tier 2 provides access to our large vocabulary transcription.
‍
4. En el caso de las licencias basadas en el uso, cada solicitud está sujeta a una facturación mínima de 6 segundos y a un incremento de 1 segundo después. Por ejemplo, una solicitud en tiempo real de 4 segundos se facturará por 6 segundos o 0,0012 USD (0,00020 dólares*6 USD) y una solicitud en tiempo real de 7 segundos se facturará por 7 segundos.
‍
5. Voicegain ofrece descuentos para confirmaciones por volumen y plazo. Póngase en contacto con nosotros en sales@voicegain.ai para recibir precios personalizados.

Preguntas frecuentes

Consulte nuestro blog para obtener información, puntos de referencia, códigos de muestra y más

Blog Voicegain

Bot de voz

Cómo crear un Voicebot con Voicegain, Twilio, RASA y AWS Lambda

Por

Jacek Jarmulak

•

lectura mínima

Puede encontrar el código completo (menos la lógica RASA; tendrá que proporcionar el suyo propio) en nuestra github repositorio.

¿Qué es lo que hace?

La configuración le permite llamar a un número de teléfono y luego interactuar con un Voicebot que usa RASA como motor lógico de diálogo.

¿Cómo funciona?

Los componentes

Voz programable Twilio - Configuramos un número de teléfono de Twilio para que apunte a una aplicación TWiML que tenga la función AWS Lambda como URL de devolución de llamada.
Función AWS Lambda - una única función de Node.js con un activador de API Gateway (tipo de API HTTP simple).
API Voicegain STT - estamos usando la api /asr/transcribe/async con entrada a través de un flujo de websocket y salida a través de una devolución de llamada. La devolución de llamada se realiza a la misma función de AWS Lambda, pero la devolución de llamada de Voicegain es POST mientras que la devolución de llamada de Twilio es GET.
RASA - La lógica de diálogo la proporciona el servidor RASA NLU Dialog, al que se puede acceder a través de la API RestInput.
COMO S3 para almacenar los resultados de la transcripción en cada turno de diálogo.

Actualización de noviembre de 2021: No recomendamos S3 ni AWS Lambda para una configuración de producción. Se describe una revisión más actualizada de varias opciones para crear un Voice Bot aquí. Debería considerar reemplazar la funcionalidad de S3 y AWS Lambda por un servidor web que pueda mantener el estado, como Node.js o Python Flask.

Los escalones

El diagrama de secuencia se proporciona a continuación. Básicamente, la secuencia de operaciones es la siguiente:

Llama a un número de teléfono de Twilio
Twilio realiza una devolución de llamada inicial a la función Lambda
La función Lambda envía «Hola» a RASA y RASA responde con el mensaje de diálogo inicial
La función Lambda llama a Voicegain para iniciar una sesión de transcripción asíncrona. Voicegain responde con la URL de un websocket para la transmisión de audio
La función Lambda responde a Twilio con un comando TWiML <Connect><Stream>para abrir una transmisión multimedia para Voicegain. El comando también contendrá el texto de la línea de pregunta.
Voicegain usa TTS para generar a partir del texto de la pregunta RASA un mensaje de audio y lo transmite a través de websocket a Twilio para su reproducción.
La persona que llama escucha el aviso y dice algo en respuesta
Twilio transmite el audio de la persona que llama a Voicegain ASR para el reconocimiento de voz
Voicegain ASR transcribe el discurso a texto y devuelve la llamada con el resultado de la transcripción a la función Lambda.
La función lambda almacena el resultado de la transcripción en S3
Voicegain cierra la sesión de websocket con Twilio
Twilio se da cuenta del final de la sesión con ASR y devuelve la llamada a la función Lambda para saber qué hacer a continuación
La función Lambda recupera el resultado del reconocimiento de S3 y lo pasa a RASA.
RASA procesa la respuesta y genera la siguiente pregunta del diálogo
Continuamos en el siguiente turno igual que en el paso 4.

‍

Leer más →

Lo que dicen nuestros clientes...

«Elegimos Voicegain porque son precisos, asequibles y fáciles de usar. Implementamos toda la plataforma en nuestro centro de datos en menos de 30 minutos».

Ray Naeini -
Presidente y director ejecutivo de Onvisource

«Elegimos Voicegain para Sutherland CX360, nuestra oferta SaaS de AI/ML, para evaluar todas las interacciones de CX de Sutherland. Buscábamos una oferta ASR/STT precisa y compatible con PCI para nuestros clientes empresariales y la encontramos en Voicegain».

Doug Gilbert, CIO y CDO, Sutherland

«¡Voicegain es increíble! Tienen un excelente ASR y una arquitectura moderna. Pero lo que realmente valoramos es su soporte rápido y oportuno. Usamos sus API MRCP, ASR y STT, y funcionan a la perfección».

Chirayú Oza -
Director de ingeniería de Hammer

Casey

AI Voice Agent Platform

Transcribe

Plataforma para desarrolladores

Nube de ganancia de voz

Voicegain Cloud: suposiciones

Voicegain Edge (centro de datos/nube privada)

Voicegain Edge - Supuestos

Preguntas frecuentes

¿Qué es lo que hace?

¿Cómo funciona?

Los componentes

Los escalones

Empresarial