Blog | Speech-to-Text Platform

ASR, punto de referencia

Punto de referencia de precisión de voz a texto: junio de 2022

Jacek Jarmulak

•

min read

•

June 16, 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.

Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

‍

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

‍

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

Microsoft fue el mejor en 35 de los 63 archivos
Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
El último de Google fue el mejor en 4
Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

‍

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

‍

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

‍

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

‍

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

‍

Edge

Voicegain Speech-to-Text/ASR se puede implementar en AWS VPC

Jacek Jarmulak

•

min read

•

August 16, 2021

Toda la plataforma Voicegain Speech-to-Text/ASR y todos los productos asociados, que van desde las API Web Speech-to-Text (STT), las API de análisis de voz, las API de Telephony Bot y el motor MRCP ASR y nuestro marco de registro y monitoreo, se pueden implementar en «Edge».

Con «Edge» queremos decir que los principales modelos de IA basados en redes neuronales profundas que convierten la voz y el audio en texto se ejecutan exclusivamente en hardware implementado en un centro de datos de un cliente. O bien, tras este anuncio, también pueden ejecutarse en una instancia informática en una nube privada virtual. En cualquier caso, la plataforma Voicegain se «organiza» mediante la consola Voicegain, que es una aplicación web que se implementa en la nube Voicegain.

En Edge, la plataforma Voicegain se implementa como un contenedor en un clúster de Kubernetes. También se puede acceder a Voicegain como un servicio en la nube si los clientes no desean administrar el hardware del servidor ni las instancias de computación de VPC.

Despliegue perimetral en centros de datos o locales

La plataforma Voicegain siempre se ha podido implementar de forma sencilla y automatizada en el hardware de un centro de datos. Nuestros clientes adquieren servidores basados en Intel Xeon compatibles con GPU basadas en Nvidia. Además, pueden instalar toda la plataforma Voicegain con unos pocos clics desde el Cloud Portal (consulte estos vídeos para demostración).

Puede leer sobre las ventajas de este tipo de implementación perimetral de centro de datos en nuestra página anterior entrada de blog. En resumen, estas ventajas son:

Latencias de red bajas y alta confiabilidad de red
Menor costo de ancho de banda
Privacidad y control de datos
Menor costo de recursos informáticos

Ahora, estos beneficios también estarán disponibles para los clientes empresariales que utilizan una nube privada virtual en AWS para ejecutar una parte de sus cargas de trabajo empresariales.

Implementación perimetral en la «nube privada» de AWS

Muchas empresas han migrado varias cargas de trabajo empresariales a la infraestructura de nube de AWS para beneficiarse de la escalabilidad, la flexibilidad y la facilidad de mantenimiento. Al trasladar estas cargas de trabajo a la nube, estas empresas prefieren en gran medida las ofertas de nube privada de AWS, por ejemplo, mediante el aislamiento de red mediante VPC, la VPN de sitio a sitio y las instancias informáticas dedicadas. Para estas empresas, lo ideal es que cualquier carga de trabajo nueva pueda ejecutarse dentro de su VPC de AWS. En particular, si una empresa ya cuenta con instancias o hosts informáticos de AWS dedicados, podría darse cuenta todo de las 4 ventajas anteriores de Edge Deployment al implementarse en su infraestructura de AWS dedicada.

La plataforma Voicegain ahora se puede implementar en AWS VPC

Recientemente, anticipando el interés de algunos de nuestros clientes, hemos realizado pruebas exhaustivas de implementación completa de nuestra plataforma en AWS. Como la plataforma Voicegain está basada en Kubernetes, básicamente solo hay dos diferencias con respecto a la implementación en hardware local local:

(obviamente) Cómo preparas y configuras el clúster de K8s, en particular los usuarios y roles: por motivos de seguridad, querrás mantener el clúster de Voicegain separado de esta manera del resto de tu infraestructura de AWS.
Cómo habilita el acceso de red a la implementación aprovisionada: tendrá que modificar las reglas de entrada en el grupo de seguridad del clúster, en lugar de modificar la configuración de su enrutador/firewall.

De lo contrario, el núcleo del proceso de implementación es prácticamente idéntico entre el hardware local y la VPC de AWS.

Puede leer los detalles relacionados en el Proceso de implementación de AWS en la página github de Voicegain.

Crea una cuenta de desarrollador en Voicegain.

Si eres un desarrollador que está creando algo que requiere añadir o integrar funciones de conversión de voz a texto (transcripción, Voice Bot o Speech Analytics en los centros de contacto, análisis de reuniones o llamadas de ventas, etc.), te invitamos a probar Voicegain. Puedes empezar por registrarse para obtener una cuenta de desarrollador y usa nuestra capa gratuita. También puedes enviarnos un correo electrónico a info@voicegain.ai.

CPaaS

Conversión de voz a texto precisa y asequible para desarrolladores de SignalWire

Jacek Jarmulak

•

min read

•

August 10, 2021

Esta entrada del blog describe cómo los desarrolladores de SignalWire deben integrar Voicegain Speech-to-Text/ASR en función de la aplicación que están creando.

Voicegain ofrece una altamente preciso Opción de conversión de voz a texto/ASR en SignalWire. Voicegain es muy con precios disruptivos y una de las principales ventajas es que permite a los desarrolladores personalizar los modelos acústicos subyacentes para lograr una precisión muy alta para acentos específicos o verticales de la industria.

#1: Transcripción en tiempo real y análisis del habla con LaML <Stream>

Los desarrolladores de SignalWire pueden bifurcar el audio a Voicegain mediante el <Stream>instrucción en LAML. La <Stream>instrucción permite enviar transmisiones de audio sin procesar desde una llamada telefónica en curso a través de WebSockets casi en tiempo real, a una URL específica.

Los desarrolladores que solo deseen obtener el texto o la transcripción sin procesar pueden usar la API Voicegain STT para obtener la transcripción en tiempo real del audio transmitido desde SignalWire.

Para los desarrolladores que necesitan etiquetas de NLU como sentimiento, entidades nombradas, intenciones y palabras clave además de la transcripción, la API Speech Analytics de Voicegain proporciona esas métricas además de la transcripción.

Las aplicaciones de transcripción y análisis de voz en tiempo real incluyen la asistencia de agentes en tiempo real en los centros de contacto, la extracción de información para las llamadas de ventas realizadas por telefonía y el análisis de reuniones.

#2: Voice Bot o IVR de voz con diálogo dirigido

Si desea crear un Voice Bot o una aplicación de voz IVR de diálogo dirigido que gestione las llamadas que llegan a través de SignalWire, le sugerimos que utilice Voicegain. API de bots de telefonía. Se trata de una API de devolución de llamadas web similar a LaML y contiene instrucciones o comandos especialmente útiles para crear IVR o bots de voz. Esta API gestiona la conversión de voz a texto, los dígitos DTMF y también reproduce las indicaciones (en TTS, pregrabadas o una combinación).

Las llamadas se transfieren desde SignalWire a un terminal SIP proporcionado por Voicegain (basado en FreeSwitch) mediante un simple SIP INVITE.

La API Voicegain Telephony Bot le permite crear dos tipos de aplicaciones:

Bot de voz aplicaciones que utilizan un marco Bot de su elección. Voicegain proporciona el «oído» y la «boca» del bot, mientras que el Bot Framework gestiona el diálogo y extrae las intenciones del texto transcrito. En esta entrada del blog se describe cómo crear un Voice Bot uso del marco de bots de RASA.

IVR de diálogo dirigido utilizando flujos de llamadas y gramáticas. Puede programarlos directamente mediante la API Telephony Bot implementando las devoluciones de llamada adecuadas. Como alternativa, proporcionamos un script simple que te permite especificar toda la aplicación IVR de forma declarativa en un archivo YAML. Puedes encontrar un ejemplo completo de cómo hacerlo en nuestro github: platform/declarative-ivr at master · voicegain/platform (github.com)

#3: Aplicaciones personalizadas

Un ejemplo de aplicación que podría ser una aplicación de dictado o recuperación de correo de voz controlada por voz en la que la API de reconocimiento de Voicegain se utiliza en modo continuo y escucha comandos como reproducir, detener, seguir, etc.

Además de SignalWire, Voicegain también ofrece integraciones con FreeSwitch mediante el complemento mrcp y un módulo independiente para la transcripción en tiempo real.

Si es desarrollador de SignalWire y desea crear una aplicación que requiera conversión de voz a texto/ASR, puede regístrate para obtener una cuenta de desarrollador utilizando las instrucciones que se proporcionan aquí.

CPaaS

Cuatro formas de usar Voicegain Speech-to-Text con Telnyx

Jacek Jarmulak

•

min read

•

August 1, 2021

Esta entrada de blog describirá 4 formas en las que puede usar Telnyx con la plataforma Speech-to-Text/ASR basada en la red neuronal profunda de Voicegain.

#1: Transcripción y análisis de voz en tiempo real

Para los desarrolladores que buscan obtener el texto o la transcripción sin procesar, la API Voicegain STT admite la transcripción en tiempo real del audio transmitido desde Telnyx.

Para las aplicaciones de IA conversacional que necesitan etiquetas de NLU como sentimientos, entidades nombradas, intenciones y palabras clave en el audio enviado, la API de análisis de voz en tiempo real de Voicegain proporciona esas métricas además de la transcripción.

Si bien tanto la API STT como la API Speech Analytics admiten varios métodos para transmitir audio, Voicegain recomienda la transmisión RTP como método principal con Telnyx. Los desarrolladores pueden transmitir RTP de 1 o 2 canales (los dos canales están unidos, lo cual es importante para algunas funciones de Speech Analytics).

Puedes usar la API de control de llamadas de Telnyx para bifurcar el audio de la llamada y enviarlo a Voicegain. La API de control de llamadas te permite enviar audio entrante (rx) o saliente (tx) o ambos. Esto se hace mediante el fork_start comando. Puedes encontrar un ejemplo completo de un código necesario para la transcripción en tiempo real de una llamada aquí: platform/examples/telnyx/call_control_fork_of_bridged_call at master · voicegain/platform (github.com)

#2: Voice Bot o IVR con la API Voicegain Telephony Bot

Si desea crear un Voice Bot o una aplicación de IVR que gestione las llamadas que llegan a través de Telnyx, le sugerimos que utilice Voicegain. API de bots de telefonía - se trata de una API de devolución de llamadas similar en estilo a la TwiML de Twilio. Esta API gestiona la conversión de voz a texto, los dígitos DTMF y también reproduce las indicaciones (TTS, pregrabadas o una combinación).

Sus llamadas se transfieren de Telnyx a Voicegain mediante un simple SIP INVITE. El SIP INVITE se realiza mediante Telnyx Call Control Dial comando. Puedes encontrar un ejemplo completo de cómo hacerlo aquí: platform/telnyx-dial-outbound-lambda.py at master · voicegain/platform (github.com)

La API Voicegain Telephony Bot le permite crear dos tipos de aplicaciones:

Bot de voz aplicaciones que utilizan su propio marco de bots o que utilizan marcos como RASA o Google Dialog flow para la lógica del bot. Voicegain proporciona la «oreja» y la «boca» del bot. Este blog muestra cómo se puede construir un robot de voz con RASA: Instrucciones sencillas: cree un robot de voz con Voicegain, RASA y AWS Lambda.
Alternativamente, puedes construir más IVR tradicionales utilizando flujos de llamadas y gramáticas. Puede programarlos directamente mediante la API Telephony Bot implementando las devoluciones de llamada adecuadas. Como alternativa, proporcionamos un script simple que te permite especificar toda la aplicación IVR de forma declarativa en un archivo YAML. Puedes encontrar un ejemplo completo de cómo hacerlo en nuestro github: platform/declarative-ivr at master · voicegain/platform (github.com)

#3: Usa la API Voicegain STT según sea necesario en tu aplicación de control de llamadas

Si tu aplicación solo tiene una necesidad limitada de reconocimiento de voz, puedes invocar la API Voicegain STT solo cuando sea necesario. Cada vez que necesites el reconocimiento de voz, solo tienes que iniciar una nueva sesión de ASR con Voicegain, ya sea en transcribir (transcripción de vocabulario extenso) o reconocer modo (reconocimiento basado en gramática). La sesión devolverá un ip:port de RTP al que podrá acceder horquilla tu audio Telnyx. Puedes recibir los resultados de conversión de voz a texto a través de un websocket o mediante una llamada. Cuando termines con la sesión de transcripción/reconocimiento, detienes la bifurcación de audio de Telnyx.

Un ejemplo de aplicación que podría crearse de esa manera es una aplicación de recuperación de correo de voz controlada por voz en la que la API de reconocimiento de Voicegain se usa en modo continuo y escucha comandos como reproducir, detener, seguir, etc.

#4: Cree su propio bot de voz con la API STT de sesión larga

Por último, puedes usar la API Voicegain Long-Session (cuyo lanzamiento está previsto para finales de 2021). Esta API te permite establecer una sesión única y larga que reciba una transmisión continua de audio entrante desde Telnyx (mediante el comando fork). Una vez establecida la sesión, puede emitir comandos para la transcripción o el reconocimiento. Devolverían los resultados al encontrar un punto final de voz o cuando los detuvieras de forma explícita. Tras procesar los resultados, puedes emitir comandos adicionales en la misma sesión de Voicegain.

Además de mostrar los resultados del reconocimiento, la API STT de sesión larga muestra eventos importantes, como, por ejemplo, el inicio de la voz, que le permite implementar un comportamiento de irrumpir adecuado.

Con esta API, puede crear su propio Voice Bot al igual que los Voice Bots de #2, pero podría tener más control sobre su sesión de Telnyx, por ejemplo, podría usar comandos de conferencia.

Punto de referencia

Comparación de análisis de voz: capacidades y precisión de NER

Jacek Jarmulak

•

min read

•

July 22, 2021

Esta publicación es la primera de una serie de publicaciones que comparan el rendimiento de Voicegain Speech Analytics con el de Google y Amazon. Esta publicación compara las capacidades y la precisión del reconocimiento/extracción de entidades nombradas. Las API de Google utilizadas para la comparación fueron las siguientes Lenguaje natural en la nube y las API de Amazon estaban en AWS Comprehend.

El reconocimiento de entidades nombradas (NER) o la extracción de entidades nombradas es una de las características del API de análisis de voz Voicegain. El reconocimiento de entidades nombradas localiza y clasifica las entidades nombradas en texto no estructurado que se puede obtener, por ejemplo, de la transcripción de los archivos de audio. Aunque hay muchas coincidencias entre Google, Amazon y Voicegain con respecto a las categorías de clasificación, también hay algunas diferencias importantes que se resumen a continuación.

Categorías NER compatibles

La hoja de cálculo completa está enlazada aquí muestra las entidades con nombre extraídas por la API de análisis de voz de Voicegain y las compara con las categorías de entidades con nombre disponibles en las API de Google y Amazon Comprehend. Amazon tiene dos API NER: Entity y PII Entity.

Si observa la hoja de cálculo, verá que la API de entidades que no son PII de Amazon ofrece poca granularidad en las categorías de entidades nombradas. Por ejemplo, agrupa muchas entidades con nombres numéricos en una sola categoría QUANTITY. Agrupa las fechas y la hora (del día) en una sola categoría, FECHA. Por otro lado, la API de entidades de PII tiene muchos elementos relacionados con categorías finas, normalmente redactados por la PII, pero omite muchas otras categorías de entidades comunes.

La API de Google parece cubrir las categorías habituales, pero omite algunas entidades utilizadas en la aplicación de centro de llamadas, por ejemplo, CC, SNN, EMAIL>

Una categoría que Voicegain no admite es OTRA. Esta categoría, que está disponible en Google y Amazon, requiere una lógica de aplicación adicional para interpretar la cadena con la que coincide.

Comparación de precisión

Hemos probado las 4 API en un conjunto de llamadas a centros de llamadas.

Los resultados generales muestran que Voicegain y Amazon Non-PII PAI detectan entidades con nombres similares (con la salvedad de que las categorías de Amazon NER son menos específicas). En comparación con estas dos, la API NER de Google omite más entidades, pero también marca muchas palabras adicionales que pertenecen a otras categorías (lo que, por lo general, no es muy útil, al menos no cuando se analizan las llamadas a los centros de llamadas).

Al analizar las entidades de PII de Amazon, observamos que:

era bueno en NAME, BANK_ACCOUNT_NUMBER
EL CORREO ELECTRÓNICO y EL TELÉFONO funcionaron casi bien, pero tuvieron algunos falsos positivos extraños
CREDIT_DEBIT_NUMBER tenía falsos positivos (por ejemplo, del teléfono) o coincidencias parciales
DATE_TIME no seleccionaba todas las frases que la descripción decía que esta categoría debía reconocer
ADDRESS funcionó con un éxito desigual: a veces no seleccionaba un texto de dirección claro o reconocía solo una parte de él.
EXPIRY_DATE tenía muchos falsos positivos, combinaciones de 4 dígitos que claramente no eran fechas de caducidad válidas

Cuando Voicegain tiene una categoría de entidad coincidente para la entidad de PII de AWS, su rendimiento es igual o mejor. Como puede ver, es difícil resumir los resultados porque las entidades no son directamente comparables. Si desea saber cómo funcionará Voicegain NER con sus datos, le sugerimos que pruebe la API de análisis de voz de Voicegain, que incluye la detección de NER, la detección de palabras clave y frases, el análisis de opiniones, etc.

Para realizar las pruebas, tiene dos opciones:

Puedes crear una cuenta de desarrollador gratuita en la plataforma Voicegain. Así es como puedes registrarte. Una vez que se registre, utilice la función Transcribe+. Si tiene alguna pregunta, envíenos un correo electrónico a support@voicegain.ai
También puedes usar la versión beta de nuestra aplicación Speech Analytics y subir tu grabación de audio de 2 canales. Para acceder, envíanos un correo electrónico a support@voicegain.ai

Casos de uso

CPaaS

Captación de voz SIP INVITE de Twilio, SignalWire y Telnyx CPaaS

Jacek Jarmulak

•

min read

•

July 13, 2021

La API Voicegain Telephony Bot permite a los desarrolladores usar Voicegain Speech-to-Text para crear bots de voz o un IVR de voz programable mediante una sencilla API de devolución de llamadas. Con la última versión 1.21.0 de la plataforma Voicegain, ahora es posible establecer sesiones SIP en la API Voicegain Telephony Bot mediante una sencilla Invitación SIP.

Antes de la versión 1.21.0, la única forma en que los desarrolladores de aplicaciones de voz podían usar la API Voicegain Telephony Bot era llamar a la aplicación mediante números de teléfono comprados en Voicegain (a través de la consola web). Sin embargo, siempre hemos querido permitir a los clientes traer su propia plataforma de telefonía móvil o CPaaS, y esta versión permite a los desarrolladores hacer precisamente eso.

En Voicegain nos centramos en ofrecer nuestra funcionalidad de reconocimiento de voz y ASR y nuestras API de conversión de voz a texto con todas las funciones. Entendemos que los desarrolladores confían en sus plataformas CPaaS para una gran cantidad de funciones importantes: mensajería, correos electrónicos, conferencias y cobertura internacional. Ahora es posible integrar la API Voicegain Telephony Bot con cualquier CPaaS compatible con SIP Invite. Puedes combinar las potentes y asequibles funciones de reconocimiento de voz de la plataforma Voicegain con las completas funciones de API de estas plataformas de CPaaS

Ya hemos probado ampliamente SIP Invite en Twilio, Cable de señal, y Telnyx plataformas. Otras plataformas similares también deberían funcionar sin problemas. Informaremos sobre cualquier plataforma adicional que hayamos probado explícitamente en el futuro.

Cómo funciona SIP INVITE con Twilio y SignalWire

En las plataformas Twilio y SignalWire es trivial establecer una sesión SIP a Voicegain. Lo único que se necesita es el <Dial><Sip>comando de TWiML o LaML, por ejemplo:

‍

Algunas notas sobre el ejemplo anterior:

El nombre de usuario SIP URI es un identificador aleatorio único asignado en la plataforma Voicegain a cada aplicación de bot de telefonía.
Una vez que se establezca la conexión SIP, las instrucciones de la aplicación y el reconocimiento de voz estarán bajo el control de la plataforma Voicegain en función de los comandos enviados mediante nuestra API Telephony Bot
Una vez que se emita el comando «desconectar» de Voicegain, el control del flujo de la aplicación volverá a la plataforma host (es decir, Twilio, SignalWire o cualquier otra plataforma de CPaaS).
Es posible pasar encabezados personalizados a Voicegain durante SIP Invite; de esta forma, es posible asociar las sesiones del anfitrión con las sesiones de Voicegain.
Es posible realizar varias <Dial><Sip>solicitudes a Voicegain desde la aplicación host durante una sola sesión host.

En nuestro github puedes encontrar un ejemplo de código que muestra cómo marcar una llamada saliente y luego conectarla a Voicegain SIP:

¿Qué pasa con Telnyx?

En Telnyx probamos SIP INVITE con la API de control de llamadas de Telnyx. La única diferencia funcional con respecto a Twilio y SignalWire es que en Telnyx no se puede elegir TCP como transporte SIP (solo se admite UDP).

Este es un ejemplo de código Python que muestra cómo marcar Voicegain SIP:

‍

El código completo de una función de AWS Lambda que marca un número con Telnyx y, a continuación, lo conecta a Voicegain SIP está disponible aquí: platform/telnyx-dial-outbound-lambda.py at master · voicegain/platform (github.com)

¿Qué puedo crear con la API Telephony Bot?

Nuestra API de bots de telefonía es una API de devolución de llamadas similar a TWiML o LamL. La principal diferencia es que se basa en JSON y nuestra funcionalidad se centra en el reconocimiento de voz. Puedes obtener más información al respecto en nuestra entrada de blog anunciando el lanzamiento de esa API en agosto.

En nuestro Github, puede encontrar un ejemplo de una función de Node.js en AWS Lambda que muestra cómo interconectar la API Voicegain Telephony Bot con un bot RASA NLU: platform/examples/voicebot-lambda-vg-rasa at master · voicegain/platform (github.com)

También puede consultar nuestro ejemplo de código de función de Python en AWS Lambda, que muestra cómo implementar IVR más tradicionales (similares a VoiceXML) con el uso de gramáticas de voz además de nuestra API de bots de telefonía: platform/declarative-ivr at master · voicegain/platform (github.com)

‍

Desarrolladores

Cómo crear una cuenta de desarrollador y empezar a usar Voicegain

Jacek Jarmulak

•

min read

•

July 9, 2021

Estos son todos los pasos necesarios para crear una cuenta de desarrollador en la plataforma Voicegain. Una vez que tengas la cuenta, podrás acceder a la consola web y encontrar toda la información sobre cómo usar la consola web y las API en nuestro Base de conocimientos de Zendesk .

1. Empieza en console.voicegain.ai/registro

2. Introduzca su nombre y correo electrónico. Si lo desea, puede consultar los Términos de servicio y/o la Política de privacidad.

3. En la página siguiente, cuéntanos cómo te enteraste de Voicegain, cómo quieres usar Voicegain y aceptas los Términos de servicio.

5. Tras hacer clic en Siguiente, Voicegain te enviará un correo electrónico con el enlace al siguiente paso. Si no recibes el correo electrónico, comprueba la carpeta de correo no deseado y, si no está ahí, sigue las instrucciones de la página que se muestra a continuación.

‍

6. Una vez que reciba el correo electrónico, haga clic en el botón Establecer contraseña.

7. Se te dirigirá a una página web donde puedes configurar tu contraseña de Voicegain.

8. Tras hacer clic en (Restablecer) la contraseña, accederá a la página de inicio de sesión donde podrá introducir sus credenciales de inicio de sesión.

9. En la página siguiente, haz clic en el icono de la flecha hacia la derecha situado junto a «Cloud Web Console»

10. Esto lo llevará a la página de inicio de la consola web Voicegain. Puedes seguir el minitutorial que está disponible en la página de inicio.

11. Los artículos de ayuda están disponibles bajo el signo de interrogación (?) menú. Allí también encontrará nuestro enlace de soporte del servicio de asistencia. Tenga en cuenta que algunos de los artículos de soporte están disponibles solo para usuarios que hayan iniciado sesión, mientras que otros son públicos.