Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced. Nuestro precio es ahora de 0,95 céntimos por minuto]
[ACTUALIZAR: Para los resultados notificados utilizando una metodología ligeramente diferente vea nuestra nueva entrada de blog.]
Se trata de una continuación del entrada de blog de junio donde informamos de los resultados anteriores de precisión de voz a texto. Te animamos a que lo leas primero, ya que establece un contexto para entender mejor la importancia de la evaluación comparativa de la conversión de voz a texto.
Además de esa introducción de fondo, las diferencias clave con respecto a la publicación anterior son:
Estos son los resultados.
Han pasado menos de 3 meses desde la prueba anterior, por lo que no es sorprendente no ver ninguna mejora en los reconocedores de Google y Amazon.
El reconocedor Voicegain ha superado a Amazon por un pelo en cuanto a precisión media, aunque la precisión media de Amazon en este conjunto de datos es ligeramente superior a Voicegain.
El reconocedor de Microsoft ha mejorado durante este período: en los 44 archivos de referencia, ahora es, de media, mejor que Google Enhanced (en el gráfico, conservamos los pedidos de la prueba de junio). El único valor atípico negativo en los resultados de Google Enhanced no explica por sí solo el mejor promedio de WER de Microsoft en este conjunto de datos.
Google Standard sigue siendo muy malo y es probable que dejemos de informar sobre él en detalle en nuestras futuras comparaciones.
El audio del archivo 20 rev.ai la prueba no es tan difícil como algunos de los archivos del conjunto de referencia de 44 archivos. En consecuencia, los resultados son, en promedio, mejores, pero la clasificación de los reconocedores no cambia.
Como puede ver en este gráfico, en este conjunto de datos, el reconocedor Voicegain es ligeramente mejor que el de Amazon. Tiene un WER más bajo en 13 de los 20 archivos de prueba y supera a Amazon en los valores medios y medianos. En este conjunto de datos, Google Enhanced supera a Microsoft.
Finalmente, aquí están los resultados combinados de los 64 archivos de referencia que probamos.
En el índice de referencia combinado, Voicegain supera a Amazon tanto en promedio como en promedio de WER, aunque la ventaja media no es tan grande como en el conjunto rev.ai de 20 archivos. [Tenga en cuenta que, a partir del 2 de octubre de 2021, el WER de Voicegain es ahora 16,46|14,26]
Lo que nos gustaría señalar es que, al comparar Google Enhanced con Microsoft, uno gana si comparamos el WER promedio, mientras que el otro tiene un valor de WER mediano mejor. Esto pone de relieve que los resultados varían mucho según el archivo de audio específico que se esté comparando.
Estos resultados muestran que la elección del mejor reconocedor para una aplicación determinada solo debe hacerse después de realizar pruebas exhaustivas. El rendimiento de los reconocedores varía mucho según los datos de audio y el entorno acústico. Además, los precios varían significativamente. Le animamos a que prueba Voicegain Speech-to-Text motor para su aplicación. Puede que sea más adecuado para su aplicación. Aunque la precisión esté un par de puntos por detrás de la de los dos mejores jugadores, tal vez quieras considerar Voicegain porque:
Voicegain lanzó una extensión para Voicegain API /asr/recognize que apoya Twilio Transmisiones multimedia vía TwiML <Connect><Stream>. Con este lanzamiento, los desarrolladores que utilizan la voz programable de Twilio obtienen una preciso, asequible, y un ASR fácil de usar para crear Voice Bots /Speech-IVRs.
Actualización: Voicegain también anunció que su transcripción de vocabulario extenso (/asr/transcribe API) se integra con Twilio Media Streams. Los desarrolladores pueden usarlo para activar por voz un bot de chat desarrollado en cualquier plataforma de bots o desarrollar una aplicación de asistencia para agentes en tiempo real.
La compatibilidad con Voicegain Twilio Media Streams ofrece a los desarrolladores las siguientes funciones:
TWiML <Stream>requiere una URL de websocket. Esta URL se puede obtener invocando la API Voicegain /asr/recognize/async. Al invocar esta API, se debe proporcionar la gramática que se utilizará en el reconocimiento. La URL del websocket se devolverá en la respuesta.
Además de la URL wss, los parámetros personalizados del <Connect><Stream>comando se utilizan para transmitir información sobre la línea de pregunta que Voicegain reproducirá a la persona que llama. Puede ser un texto o una URL a un servicio que proporcionará el audio.
Una vez que <Connect><Stream>se ha invocado, la plataforma Voicegain se hace cargo de ella:
Por cierto, también admitimos la entrada DTMF como alternativa a la entrada de voz.
[ACTUALIZACIÓN: puedes ver más detalles sobre cómo usar Voicegain con Twilio Media Streams en esta nueva Entrada de blog.]
1. Soporte Edge local: Si bien las API de Voicegain están disponibles como un servicio de PaaS en la nube, Voicegain también admite la implementación local o perimetral. Voicegain se puede implementar como un servicio en contenedores en un clúster de Kubernetes de un solo nodo o en un clúster de Kubernetes de alta disponibilidad de varios nodos (en el hardware de la GPU o en la VPC).
2. Personalización del modelo acústico: Esto permite lograr una precisión muy alta más allá de lo que es posible sin los reconocedores listos para usar. La herramienta de ajuste gramatical y regresión mencionada anteriormente se puede utilizar para recopilar datos de entrenamiento para la personalización del modelo acústico.
En nuestra hoja de ruta a corto plazo para los usuarios de Twilio, tenemos varias funciones más:
Puedes inscribirte en prueba nuestro plataforma. Ofrecemos 600 minutos de uso mensual gratuito de la plataforma. Si tienes preguntas sobre la integración con Twilio, envíanos una nota a support@voicegain.ai.
Twilio, TwiML y Twilio Programmable Voice son marcas comerciales registradas de Twilio, Inc.
Empresas de todos los tamaños buscan desarrollar Voicebots para automatizar las llamadas de servicio al cliente o las interacciones de ventas basadas en la voz. Estos bots pueden ser versiones de voz de los chatbots existentes o bots basados exclusivamente en la voz. Si bien los chatbots automatizan las transacciones rutinarias en la web, a muchos usuarios les gusta poder usar la voz (aplicación o teléfono) cuando es conveniente.
Un cuadro de diálogo de un robot de voz consta de varias interacciones, en las que una sola interacción normalmente implica 3 pasos:
Para el primer paso, los desarrolladores utilizan una plataforma de conversión de voz a texto para transcribir la expresión hablada en texto. El ASR o reconocimiento automático de voz es otro término que se utiliza para describir el mismo tipo de software.
Cuando se trata de extraer la intención del discurso del cliente, normalmente utilizan un motor de NLU. Esto es comprensible porque a los desarrolladores les gustaría reutilizar el flujo de diálogo o los turnos de conversación programados en su aplicación Chatbot para su Voicebot.
Una segunda opción es usar Gramáticas del discurso que coinciden con la expresión hablada y le asignan un significado (intención). Esta opción no está muy de moda hoy en día, pero las gramáticas de voz se han utilizado con éxito en los sistemas IVR de telefonía que permitían la interacción de voz mediante ASR.
Este artículo explora ambos enfoques para crear Voicebots.
La mayoría de los desarrolladores actuales utilizan el enfoque NLU como opción predeterminada para los pasos 2 y 3. Los motores de NLU más populares incluyen Flujo de diálogo de Google, Microsoft LUIS, Amazon Lex y también cada vez más un marco de código abierto como RASA.
Un motor de NLU ayuda a los desarrolladores a configurar diferentes intenciones que coincidan con las frases de entrenamiento, especificar los contextos de entrada y salida que están asociados a estas intenciones y definir las acciones que impulsan los turnos de conversación. Este método de desarrollo es muy poderoso y expresivo. Te permite crear bots que sean verdaderamente conversacionales. Si usas NLU para crear un chatbot, generalmente puedes reutilizar la lógica de su aplicación para un Voicebot.
Sin embargo, tiene un inconveniente importante. Es necesario contratar desarrolladores de lenguaje natural altamente cualificados. Diseñar nuevas intenciones, gestionar los contextos de entrada y salida, las entidades, etc., no es fácil. Dado que se necesitan desarrolladores expertos, el desarrollo de bots con NLU es caro. No solo es caro de construir, sino que también es costoso de mantener. Por ejemplo, si quieres añadir nuevas habilidades al bot que superen su conjunto inicial de capacidades, modificar los contextos no es un proceso fácil.
El enfoque de NLU de Net-net es una muy buena opción si (a) quieres desarrollar un bot sofisticado que pueda soportar una experiencia verdaderamente conversacional (b) puedes contratar e involucrar a desarrolladores de PNL expertos y (c) tienes los presupuestos adecuados para desarrollar dichos bots.
Un enfoque que se utilizó en el pasado y que parece haberse olvidado en estos días es el uso de Gramáticas del discurso. Las gramáticas se utilizaron ampliamente para crear IVR de voz tradicionales basados en telefonía desde hace más de 20 años, pero la mayoría de los desarrolladores web y de PNL no las conocen.
La gramática de un discurso proporciona una lista de todos los enunciados que se pueden reconocer o, más comúnmente, un conjunto de reglas que pueden generar los enunciados que se pueden reconocer. Esta gramática combina dos funciones:
La segunda función se logra adjuntando etiquetas a las reglas de las gramáticas. Existen formatos de etiqueta que permiten evaluar expresiones complejas en gramáticas con muchas reglas anidadas. Estas etiquetas permiten al desarrollador básicamente codificar la extracción de la intención directamente en la gramática.
Además, el paso 3, que es la gestión del flujo de diálogos y conversaciones, se puede implementar en cualquier lenguaje de programación de backend (Java, Python o Node.js). Los desarrolladores de bots de voz que dispongan de un presupuesto limitado y quieran crear un bot sencillo con pocas intenciones deberían considerar seriamente la gramática como un enfoque alternativo a la NLU.
Voicegain es uno de los pocos motores de conversión de voz a texto o ASR que admite ambos enfoques.
Los desarrolladores pueden integrar fácilmente el amplio vocabulario de voz a texto de Voicegain (API de transcripción) con cualquier motor NLU popular. Una ventaja que tenemos aquí es la capacidad de generar múltiples hipótesis, cuando se utiliza el modo de salida de árbol de palabras. Esto permite hacer múltiples coincidencias entre las intenciones de la NLU para las diferentes hipótesis de voz con el objetivo de determinar si existe un consenso en la NLU a pesar de las diferencias en la producción de voz a texto. Este enfoque puede ofrecer una mayor precisión.
También ofrecemos nuestro Reconocer la API y API de devolución de llamadas de RTC ; ambos son compatibles con la gramática del habla. Los desarrolladores pueden codificar el flujo o diálogo de la aplicación del robot de voz en cualquier lenguaje de programación de fondo: Java, Python o Node.Js. Tenemos un amplio soporte para protocolos de telefonía como SIP/RTP y admitimos WebRTC.
La mayoría de los demás motores STT, incluidos Microsoft, Amazon y Google, no admiten gramáticas. Esto puede tener algo que ver con el hecho de que también están intentando promocionar sus motores de NLU para aplicaciones de chatbots.
Si estás creando un Voicebot y te gustaría tener una conversación sobre el enfoque que más te conviene, no dudes en obtener en contacto con nosotros. Puede enviarnos un correo electrónico a info@voicegain.ai.
Muchas aplicaciones de voz a texto (STT) o reconocimiento de voz (ASR) requieren que la conversión de audio a texto se realice en tiempo real. Estas aplicaciones pueden ser los bots de voz, la subtitulación en directo de vídeos, eventos o charlas, la transcripción de reuniones, el análisis de voz en tiempo real de las llamadas de ventas o la asistencia de un agente en un centro de contacto.
Una pregunta importante para los desarrolladores que buscan integrar STT en tiempo real en sus aplicaciones es la elección del protocolo y/o mecanismo para transmitir audio en tiempo real a la plataforma STT. Si bien algunos proveedores de STT ofrecen solo un método, en Voicegain ofrecemos varias opciones entre las que los desarrolladores pueden elegir. En esta publicación, exploramos en detalle todos estos métodos para que un desarrollador pueda elegir el más adecuado para su caso de uso específico.
Algunos de los factores que pueden guiar la elección específica son:
En Voicegain actualmente ofrecemos siete métodos/protocolos diferentes para admitir la transmisión a nuestra plataforma STT. Los tres primeros son métodos basados en TCP y los últimos cuatro métodos están basados en UDP.
El uso de WebSockets es una opción simple y popular para transmitir audio a Voicegain para el reconocimiento de voz. Los WebSockets existen desde hace tiempo y la mayoría de los lenguajes de programación web tienen bibliotecas que los admiten. Esta opción puede ser la forma más fácil de empezar. La API Voicegain usa WebSockets binarios, y tenemos algunos ejemplos sencillos para empezar.
Voicegain también admite la transmisión a través de HTTP 1.1 mediante codificación de transferencia fragmentada. Esto le permite enviar datos de audio sin procesar con un tamaño desconocido, como suele ser el caso de la transmisión de audio. Voicegain es compatible con ambos modos: podemos obtener el audio de la URL que tú proporciones o la aplicación puede enviar el audio a la URL que tú proporciones. Para usar este método, tu lenguaje de programación debe tener bibliotecas que admitan la codificación por transferencia fragmentada a través de HTTP; algunas de las bibliotecas HTTP más antiguas o más sencillas no la admiten.
gRPC se basa en el protocolo HTTP/2, que se diseñó para admitir conexiones bidireccionales de larga duración. Además, gRPC usa búferes de protocolo, que son un formato de serialización de datos más eficiente en comparación con el JSON que se usa comúnmente en las API HTTP RESTful. Ambos aspectos de gRPC permiten que los datos de audio se envíen de manera eficiente a través de la misma conexión que también se usa para enviar comandos y recibir resultados.
Con gRPC, las bibliotecas del lado del cliente se pueden generar fácilmente para varios lenguajes, como Java, C#, C++, Go, Python, Node Js, etc. El código de cliente generado contiene stubs para que los clientes de gRPC los usen para llamar a los métodos definidos por el servicio.
Con gRPC, los clientes pueden invocar las API STT de Voicegain como un objeto local cuyos métodos exponen las API. Este método es una forma rápida, eficiente y de baja latencia de transmitir audio a Voicegain y recibir respuestas de reconocimiento. Las respuestas se envían desde el servidor al cliente a través de la misma conexión, lo que elimina la necesidad de realizar sondeos o llamadas para obtener los resultados cuando se usa HTTP.
gRPC es excelente cuando se usa desde el código de fondo o desde Android. No es una solución lista para usar cuando se usa desde navegadores web, pero requiere algunos pasos adicionales.
Los tres primeros métodos descritos anteriormente son métodos basados en TCP. Funcionan muy bien para la transmisión de audio siempre que la conexión no tenga ninguna pérdida de paquetes o ésta sea mínima. La pérdida de paquetes provoca importantes retrasos y fluctuaciones en las conexiones TCP. Esto puede funcionar bien si el audio no tiene que procesarse en tiempo real y se puede almacenar en búfer.
Si el comportamiento en tiempo real es importante y se sabe que la red no es confiable, el protocolo UDP es una mejor alternativa al TCP para la transmisión de audio. Con el UDP, la pérdida de paquetes se manifiesta como interrupciones del audio, pero esto puede ser preferible a pausas y fluctuaciones excesivas en el caso del TCP.
RTP es un protocolo estándar para la transmisión de audio a través de UDP. Sin embargo, el RTP en sí mismo no suele ser suficiente y normalmente se usa con el protocolo de control RTP (RTCP) que lo acompaña. Voicegain ha implementado su propia variante del RTCP que se puede usar para controlar las transmisiones de audio RTP enviadas al reconocedor.
Actualmente, la única forma de transmitir audio mediante RTP a la plataforma Voicegain es utilizar nuestra biblioteca Java patentada Audio Sender. También ofrecemos Audio Sender Daemon, que es capaz de leer datos directamente desde dispositivos de audio y transmitirlos a Voicegain para su transcripción en tiempo real.
Si quieres invocar la conversión de voz a texto en un centro de contacto, Voicegain ofrece API de bots de telefonía. Puedes leer más sobre ellos aquí. Básicamente, la plataforma Voicegain puede actuar como un punto final SIP y se puede invitar a una sesión SIP. Podemos hacer dos cosas: 1) Como parte de un IVR o un bot, reproducir las instrucciones y recopilar las entradas de la persona que llama. 2) Como parte de la asistencia de un agente en tiempo real, podemos escuchar y transcribir la interacción entre el agente y la persona que llama.
Para dar más detalles (1), con estas API puedes invitar a la plataforma Voicegain a una sesión SIPn, que proporciona acceso al audio con el motor Voicegain Speech-to-Text. Una vez que se haya establecido la transmisión de audio, puedes emitir comandos para reconocer las expresiones de las llamadas y recibir la respuesta de reconocimiento mediante nuestras llamadas web. Puede escribir la lógica de su aplicación utilizando cualquier lenguaje de programación o un motor de NLU de su elección; todo lo que necesita es poder gestionar las solicitudes HTTP y enviar respuestas.
La plataforma Voicegain en este escenario actúa esencialmente como una «boca» y un «oído» para toda la conversación que tiene lugar a través de SIP/RTP. La aplicación puede emitir comandos JSON a través de HTTP que reproducen las instrucciones y convierten la voz de la persona que llama en texto durante toda la llamada en una sola sesión. También puedes grabar toda la conversación si la llamada se transfiere a un agente en vivo y transcribirla en texto.
Los proveedores de plataformas de centros de contacto, como las plataformas CCaaS basadas en Cisco, Genesys, Avaya y FreeSwitch, suelen admitir MRCP para conectarse a los motores de reconocimiento de voz. Voicegain permite el acceso mediante MRCP al reconocimiento de voz basado en vocabulario extenso y gramatical. Recomendamos el MRCP solo para despliegues en Edge, en la nube privada o locales
En los centros de contacto, para la transcripción en tiempo real de la interacción entre el agente y la persona que llama, Voicegain es compatible con SIPREC. Se proporciona más información aquí.
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Actualización de diciembre de 2020: hemos cambiado el nombre de las API de devolución de llamadas de RTC a API de bots de telefonía para reflejar mejor cómo los desarrolladores pueden usar estas API, es decir, crear bots de voz o IVR.
Si querías habilitar tu chatbot por voz o crear tu propio bot de voz basado en telefonía o un IVR con voz, Voicegain ha creado una API que es realmente genial - Versión 1.12.0 de Voicegain Speech-to-Text Platform ahora incluye las API de Telephony Bot (anteriormente denominadas API de devolución de llamadas de RTC).
Las API Voicegain Telephony Bot permiten cualquier Marco NLU/Bot para integrarse fácilmente con la infraestructura de telefonía y PSTN mediante (a) la plataforma SIP INVITE de Voicegain desde una plataforma de CPaaS de su elección o (b) comprando un número de teléfono directamente desde el portal Voicegain y apuntándolo a su bot. Luego puedes usar estas API de tipo callback para (i) reproducir instrucciones (ii) reconocer expresiones vocales o dígitos DTMF (iii) permitir la entrada rápida y otras funciones interesantes. Ofrecemos ejemplos de código que le ayudarán a integrar fácilmente el marco de bots de su elección en nuestras API de bots de telefonía.
Si no tienes un Bot Framework, también está bien. Puedes escribir la lógica en cualquier lenguaje de programación de backend (Python, Java o Node.JS) que pueda serializar las respuestas en formato JSON e interactuar con nuestras API de estilo Callback. Voicegain también ofrece un formato YAML declarativo para definir el flujo de llamadas. Además, puedes alojar esta lógica de archivos YAML e interactuar con estas API. Los desarrolladores también pueden codificar e implementar la lógica de la aplicación en un entorno informático sin servidor, como Amazon Lambda.
Muchas empresas (de la banca, los servicios financieros, la atención médica, las telecomunicaciones y el comercio minorista) están atrapadas en los IVR tradicionales basados en la telefonía, que se acercan a la obsolescencia.
Las API de Telephony Bot de Voicegain proporcionan una excelente ruta de actualización preparada para el futuro para este tipo de empresas. Dado que estas API se basan en devoluciones de llamadas web, pueden interactuar con cualquier lenguaje de programación de back-end. Por lo tanto, cualquier desarrollador web de backend puede diseñar, crear y mantener dichas aplicaciones.
Con las API de Telephony Bot, la integración es mucho más sencilla para los desarrolladores.
1) Puede INVITAR SIP a la plataforma Voicegain Speech-to-Text/ASR a una sesión SIP/RTP durante el tiempo que sea necesario. Admitimos la integración de SIP con plataformas de CPaaS como Twilio, Signalwire y Telnyx. También admitimos plataformas de CCaaS como Genesys, Cisco y Avaya.
2) También admitimos el pedido directo de números de teléfono y enlaces troncales SIP desde la consola web Voicegain. Pronto se añadirán más integraciones.
API de bots de telefonía se basan en devoluciones de llamadas web en las que el programa/implementación real está en el lado del cliente y las API del bot de telefonía de Voicegain definen las solicitudes y las respuestas. El significado de solicitudes y respuestas es el mismo que el de una API web normal:
A continuación se muestra un ejemplo de una interacción sencilla con una llamada telefónica controlada por la API Telephony Bot. El diagrama secuencial muestra cuatro llamadas recibidas durante una encuesta sobre juguetes:
La API Telephony Bot admite 4 tipos de acciones:
Cada llamada puede ser grabada (grabación de dos canales) y luego transcrito. Se puede acceder a la grabación y a la transcripción desde el portal y a través de la API.
Próximamente habrá funciones:
A partir del 5 de agosto de 2020, la programación en Python con la API Voicegain Speech-to-Text (STT) se hizo aún más fácil con el lanzamiento de la versión oficial ganancia de voz - voz paquete a Repositorio del índice de paquetes de Python (PyPI).
El paquete SDK está disponible en: https://pypi.org/project/voicegain-speech/
El código fuente del SDK está disponible en: https://github.com/voicegain/python-sdk
Este paquete incluye la API web Voicegain Speech-to-Text. Puede encontrar una vista previa de las especificaciones de la API en: https://www.voicegain.ai/api
La documentación completa sobre las especificaciones de la API está disponible en: https://console.voicegain.ai/api-documentation
Las API principales son para conversión de voz a texto, ya sea para transcripción o reconocimiento (se describen con más detalle a continuación). Otras API disponibles incluyen:
/asr/transcribirLa API Transcribe le permite enviar audio y recibir el texto transcrito palabra por palabra desde el motor STT. Esta API utiliza nuestro modelo de lenguaje de vocabulario extenso y admite audio de formato largo en modo asíncrono.
La API se puede usar, por ejemplo, para transcribir datos de audio, ya sean podcasts, correos de voz, grabaciones de llamadas, etc. En el modo de transmisión en tiempo real, se puede usar, por ejemplo, para crear robots de voz (la aplicación tendrá que proporcionar capacidades de NLU para determinar la intención a partir del texto transcrito).
El resultado de la transcripción se puede devolver en cuatro formatos:
/asr/reconocerEsta API se debe utilizar si desea restringir los resultados del reconocimiento del STT a la gramática del habla que se envía junto con el audio (se utilizan gramáticas en lugar del modelo de lenguaje de vocabulario extenso).
Si bien tener que proporcionar gramáticas es un paso adicional (en comparación con la API de Transcribe), pueden simplificar el desarrollo de aplicaciones, ya que el significado semántico se puede extraer junto con el texto.
Otra ventaja del uso de la gramática es que pueden ignorar palabras del enunciado que están fuera de la gramática, lo que sigue ofreciendo reconocimiento, aunque con menor confianza.
Voicegain admite gramáticas en los formatos JSGF y GRXML, ambos estándares gramaticales utilizados por las empresas en los IVR desde principios de la década de 2000. La API de reconocimiento solo admite audio de formato corto, no más de 60 segundos.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?