Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
La API de análisis de voz de Voicegain está disponible de forma general
Análisis de voz
La API de análisis de voz de Voicegain está disponible de forma general

Voicegain ha lanzado su API Speech Analytics (SA) que admite una variedad de tareas de análisis realizadas en el audio o la transcripción de ese audio. Las funciones compatibles con la API de Voicegain SA se eligieron para nuestro caso de uso principal, que es el procesamiento de las llamadas al centro de llamadas.


Cosas que Speech Analytics puede hacer ahora (a partir de la versión 1.22.0)

La versión actual admite desconectado Análisis de voz. Los datos que se pueden obtener a través de la API de análisis de voz se enumeran a continuación.

Tenga en cuenta que aquí no incluimos elementos que también se puedan obtener de nuestra API de transcripción, como: la transcripción, los valores de decibelios, las zonas de audio, etc. Sin embargo, se podrá acceder a ellos desde la respuesta de la API de Speech Analytics.

Análisis por canal:

  • género - género probable del hablante según las características de la voz. Actualmente es «masculino» o «femenino».
  • emoción - Tanto los totales de toda la llamada como una lista de valores calculados en varios lugares de la transcripción. Cada elemento contendrá valores de: (1) sentimiento - de -1,0 (enfadado/enfadado) a +1,0 (feliz/satisfecho) (2) estado animico - un mapa con valores estimados (rango de 0.0 a 1.0) para los siguientes estados de ánimo: «neutral» «tranquilo» «feliz» «triste» «enojado» «temeroso» «disgusto» «sorprendido» (3) ubicación: inicio y final en milisegundos e índice de la palabra
  • Entidades nombradas reconocido en la llamada. Será una lista con el tipo de entidad y la ubicación de la llamada. Los valores NER admitidos son: CARDINAL: números que no pertenecen a otro tipo.Fecha: fechas o períodos absolutos o relacionados.Evento: huracanes, batallas, guerras, eventos deportivos, etc.FAC: edificios, aeropuertos, autopistas, puentes, etc.GPE: países, ciudades, estados.NORP: nacionalidades o grupos religiosos o políticos.Dinero: valores monetarios, incluida la unidad.Ordinal: «primero», «segundo», etc. .org - Empresas, agencias, instituciones, etc. Porcentaje: porcentaje, incluido el «%» .PERSONA: personas, incluidas las ficticias. Cantidad: medidas, según el peso o Distance.time: documentos nombrados convertidos en leyes.
  • palabras clave - lista de palabras clave o grupos de palabras clave reconocidos en la llamada. Las palabras clave que se deben reconocer se pueden configurar fácilmente a partir de ejemplos.
  • blasfemia - se trata esencialmente de un grupo de palabras clave predefinido
  • habla métricas: cosas como la racha de conversación máxima y media, la velocidad de conversación, la energía
  • exagerar métricas: la exageración ocurre si el hablante comienza a hablar mientras el otro ya está hablando.

Análisis global:

  • silenciar métricas: se definen como el tiempo en el que ninguno de los canales habla. Nota: Se supone que solo el agente tiene el control del tiempo de uso de la palabra. Esto es una simplificación, pero es difícil determinar si el silencio fue causado por la persona que llamó y fue inevitable.
  • nube de palabras frecuencias: datos de nube de palabras inteligentes en los que se eliminan las palabras de parada y se eliminan las variaciones de las palabras antes de calcular las frecuencias

Las funciones de Speech Analytics estarán disponibles próximamente

En tiempo real Speech Analytics estará disponible en un futuro próximo. Pronto también planeamos lanzar la compatibilidad con tarjetas de puntuación para Speech Analytics.

Próximamente se publicarán análisis por canal:

  • Dos entidades nombradas adicionales: CC - Tarjeta de crédito,SSN - Número de seguro social
  • edad - edad estimada del hablante en función de las características de la voz. Tres valores posibles: «joven-adulto», «senior», «desconocido»
  • frases - lista de frases o grupos de frases reconocidos en la llamada. Estos se identifican mediante algoritmos de NLU, básicamente los mismos que se utilizan para identificar la NLU intentos. Las frases que se van a reconocer se pueden configurar a partir de ejemplos.
  • lanzamiento las estadísticas se añadirán a habla métricas

Además, pronto apoyaremos Redacción de PII de cualquier entidad nombrada a partir de la transcripción o el audio.

Tipos de audio compatibles

La API Speech Analytics admite los siguientes tipos de entrada de audio:

  • 2 canales audio (estéreo) como el que se encuentra normalmente en los centros de llamadas donde la voz de la persona que llama se graba en un canal y la voz del agente se graba en el otro canal. Algunas métricas, como la sobreconversación, por ejemplo, solo se pueden calcular si el audio de entrada es de este tipo.
  • 1 canal audio con dos altavoces: para este tipo de audio diarización se realizará para separar los dos altavoces. El análisis por canal se realizará después de la diarización. Las métricas de Overtalk no están disponibles para este caso de uso.

Puedes ver la especificación de la API aquí.

Read more → 
Combinación del reconocimiento de voz basado en gramática y vocabulario extenso
ASR
Combinación del reconocimiento de voz basado en gramática y vocabulario extenso

En esta entrada del blog, presentamos una característica única de la plataforma de conversión de voz a texto Voicegain que combina de manera eficiente el uso de gramáticas con el uso de modelos de vocabulario extensos para brindar a los desarrolladores la capacidad de lograr una alta precisión de reconocimiento de una manera muy eficiente y conveniente.

Dos tipos de reconocimiento de voz

Los sistemas de reconocimiento de voz (ASR) generalmente se pueden dividir en dos tipos:


Amplio vocabulario y reconocimiento continuo de voz

Este tipo de reconocedor se usa generalmente para la transcripción cuando el vocabulario es muy amplio y la duración del audio de la voz es ilimitada (excepto por motivos prácticos, por ejemplo, límite relacionado con los recursos). A continuación se muestran los componentes típicos y los pasos de procesamiento de un sistema de este tipo:

El funcionamiento de un sistema de este tipo es el siguiente: (s) La señal de audio se procesa en características. (b) Las funciones se introducen en un procesador de modelo acústico. El procesador convierte los datos del ámbito acústico a texto/lingüístico o a algún otro ámbito intermedio (por ejemplo, incrustaciones de audio). Los valores de salida pueden ser fonemas, letras, fragmentos de palabras, incrustaciones de audio, etc., presentados como vectores de probabilidades. (c) Estos vectores se pasan luego al componente de búsqueda/optimización. La búsqueda utiliza el modelo lingüístico para decidir qué hipótesis formadas a partir del resultado de la etapa anterior tienen más probabilidades de ser la interpretación textual correcta del audio del discurso de entrada.


Los modelos lingüísticos utilizados pueden adoptar diversas formas. Dos de las muchas manifestaciones posibles son: (a) los modelos lingüísticos ARPA, que se basan en n gramas, y (b) los modelos lingüísticos de redes neuronales en los que una red neuronal (por ejemplo, RNN) es entrenada para representar un modelo lingüístico. Algunos de los modelos lingüísticos también pueden incorporar una parte descodificadora si la salida del modelo acústico está codificada (por ejemplo, si se representa mediante incrustaciones acústicas).


Debido a que el vocabulario de este tipo de reconocedores es amplio, son propensos a errores de reconocimiento. Este es particularmente el caso de los enunciados cortos que no proporcionan mucho contexto al modelo lingüístico como para restringir suficientemente las hipótesis. Un ejemplo sería reconocer erróneamente «tarjeta» como «coche» si esa es la única palabra que se dice y el hablante tiene un acento específico.


Las ofertas de conversión de voz a texto en la nube de los proveedores de Big Cloud (Google, Amazon y Microsoft) son ejemplos de ASR de vocabulario amplio.


Reconocimiento de voz basado en gramática

En un sistema de este tipo, el desarrollador de Voice Bot/IVR utiliza una gramática libre de contexto para definir un conjunto de posibles expresiones que pueden reconocerse. Por lo general, las gramáticas se definen utilizando el estándar SRGS (especificación gramatical de reconocimiento de voz), ya sea en gramática ABNF o GRXML. Otros tipos de gramáticas que se utilizan son JSGF (formato gramatical de JSpeech) y GSL (que es el lenguaje de especificación gramatical de Nuance).


Los componentes y los pasos de procesamiento de un sistema de reconocimiento de voz típico que usa tales gramáticas se ilustran a continuación:

En este sistema, la evaluación de los resultados del procesamiento del modelo acústico se realiza mediante un optimizador de búsqueda/optimización que utiliza las reglas contenidas en la gramática para decidir qué hipótesis son aceptables. Solo se pueden generar los enunciados que se pueden generar a partir de la gramática.


Si se pronuncia una expresión fuera de la gramática y se presenta al reconocedor, es posible que aún se reconozca, pero con poca confianza. Si la confianza está por debajo de un umbral establecido, se devolverá un NOMATCH.


La desventaja obvia de usar un reconocedor de este tipo es que no reconocerá expresiones fuera del alcance de la gramática. Estas expresiones se denominan expresiones fuera de gramática. Sin embargo, una gran ventaja de este enfoque es que es menos propenso a ser reconocido erróneamente cuando una expresión que ya se ha dicho se ha anticipado y se incluye en la gramática.


Una ventaja adicional de usar un reconocedor basado en la gramática es que la mayoría de las gramáticas permiten la inserción de etiquetas semánticas, que permiten a la gramática no solo definir un enunciado, sino también la interpretación semántica de ese enunciado.


Ejemplos de este tipo de sistema de reconocimiento de voz basado en la gramática serían las ofertas de conversión de voz a texto, como Nuance ASR o Lumenvox ASR.


Combinación del reconocimiento gramatical y de vocabulario extenso


Es evidente que ambos tipos de sistemas de reconocimiento de voz tienen ventajas y desventajas. Por lo tanto, parece comprensible que una combinación de ambos pueda tener las ventajas de ambos y, al mismo tiempo, evitar algunos inconvenientes.


Enfoque utilizando una combinación de ASR existentes


Un enfoque simple sería combinar dos sistemas de reconocimiento de voz diferentes. Sería necesario crear dos sesiones de reconocimiento de voz y dividir la transmisión de audio entrante para que cada sesión reciba una copia del audio entrante. Esas dos sesiones procesarían el audio por separado y generarían resultados separados que luego tendrían que combinarse. Esto se ilustra a continuación:


Desventajas de usar dos sesiones de ASR


La configuración presentada anteriormente tiene varias desventajas:

  1. Introduce complejidad en la transmisión del audio al reconocedor. Es necesario agregar un componente similar a un proxy adicional que divida la transmisión de audio y la envíe a dos sistemas ASR independientes.
  2. La combinación de los resultados también requiere un nuevo componente independiente. Esto no es necesariamente trivial, ya que los dos sistemas ASR desconectados tienen diferentes puntos finales, lo que significa que los resultados llegarán en momentos diferentes.
  3. Se necesitarán recursos informáticos adicionales para permitir la ejecución de dos sistemas ASR independientes en lugar de solo uno.
  4. Otra desventaja es tener que pague el doble de la tarifa de licencia ya que cada ASR tendrá que tener una licencia de sesión independiente.


Enfoque de ganancia de voz


La plataforma Voicegain proporciona un sistema de reconocimiento de voz que combina ambos tipos de reconocimiento de voz para aprovechar las ventajas de ambos. Nuestro sistema se ilustra en la siguiente figura:

En este sistema, el procesamiento hasta la salida del procesamiento del modelo acústico es esencialmente idéntico al procesamiento realizado en los sistemas representados en las dos primeras figuras de esta publicación. Sin embargo, tras este paso, Voicegain incluye un novedoso módulo de búsqueda/optimización que utiliza tanto la gramática como el modelo lingüístico de vocabulario extenso para generar los resultados finales del reconocimiento. La señalización final se realiza de manera similar a la de un reconocedor basado en gramática, ya que parece tener más sentido dado el caso de uso (pero esto se puede modificar). El resultado final del reconocimiento constará de los n mejores resultados del reconocimiento basado en la gramática, si la gramática coincidió, y una o más hipótesis del reconocimiento de vocabulario extenso.


El desarrollador de la aplicación puede tomar sus propias decisiones sobre cómo usar el resultado del reconocimiento. Por ejemplo, el valor de confianza se puede usar para determinar si el resultado basado en la gramática o el resultado del vocabulario extenso se debe usar en un punto determinado de la aplicación.


Con la versión 1.22.0 de Voicegain, esta función está disponible de forma general como parte de nuestra API de reconocimiento.


Un ejemplo de solicitud con nuestra API /asr/recognize/async tiene este aspecto:


Como puede ver, solo hay una definición para la transmisión de audio entrante. La sección de gramática de settings.asr contiene dos definiciones gramaticales:

  • una es una gramática JSGF estándar con semántica de formato de etiqueta literal,
  • el otro no es en realidad una gramática sino un comando para activar la transcripción de vocabulario grande para esta sesión {type:Built-in, name:transcribe}

Caso de uso de MRCP

Además de estar disponible en nuestras API STT y Telephone Bot, la interfaz MRCP admite el reconocimiento de vocabulario extenso y basado en gramática al mismo tiempo. Por ejemplo, desde VXML puedes pasar tanto la gramática GRXML como la gramática builtin:speech/transcribe y recibirás tanto el resultado de GRXML como el de vocabulario extenso.

Si está creando un asistente de voz inteligente, un bot de voz, una aplicación de voz IVR o cualquier otra aplicación que pueda beneficiarse de esta función, contacta con nosotros vía (correo electrónico) info@voicegain.ai) para entablar un debate más profundo.


Read more → 
Modernice su IVR de VoiceXML y conviértalo en bots de voz conversacionales
Bot de voz
Modernice su IVR de VoiceXML y conviértalo en bots de voz conversacionales

La urgente necesidad de modernizar la plataforma IVR

La mayoría de las organizaciones de TI empresariales tienen aplicaciones avanzadas de IVR basadas en telefonía que sirven como «puerta de entrada» para todas las llamadas de atención al cliente basadas en voz. Estas aplicaciones utilizan una combinación de tonos táctiles (DTMF) y voz para interactuar con las personas que llaman. Se han diseñado, desarrollado y ajustado cuidadosamente a lo largo de los años.


Los objetivos de cualquier IVR son dos: 1) Automatizar las consultas rutinarias sencillas (como la consulta del saldo, el estado de los pagos, etc.) y 2) autenticar y dirigir de forma inteligente las llamadas que requieren asistencia en vivo al agente correspondiente.


Las organizaciones de TI de todos los sectores verticales de la industria, como los servicios financieros, los viajes, los medios de comunicación, las telecomunicaciones, el comercio minorista o la atención médica, cuentan con un pequeño equipo de desarrolladores de IVR internos o subcontratados para mantener estas aplicaciones. Si bien las empresas se han centrado en ampliar y actualizar sus canales de soporte digital (como el chat y el correo electrónico), las aplicaciones de IVR prácticamente no se han utilizado durante años.


A medida que los CIO y los CDO (directores digitales) se embarcan en iniciativas estratégicas para migrar las cargas de trabajo empresariales a la nube, una carga de trabajo «especializada» en esta lista es el IVR. Sin embargo, migrar los IVR «tal cual» a la nube es complicado. Los lenguajes, protocolos y plataformas en los que se crearon estos IVR basados en telefonía datan de principios de la década de 2000 y están a punto de quedar obsoletos. Además, si bien admiten diálogos dirigidos con expresiones habladas limitadas por parte del cliente, no son adecuados para las interacciones conversacionales entre bots.


Por lo tanto, las organizaciones de TI se enfrentan a una situación difícil. Por un lado, es engorroso mantener estas cargas de trabajo de IVR. Por otro lado, la justificación para migrar las plataformas existentes «tal cual» a una infraestructura de nube moderna es cuestionable. ¿Para qué soportar las molestias y los gastos si los IVR eventualmente van a ser reemplazados por bots conversacionales?


Por lo tanto, existe una necesidad real de modernizar estos IVR como parte de su estrategia de migración a la nube.


Un breve análisis de la infraestructura subyacente de estas aplicaciones de IVR

Tradicionalmente, las aplicaciones de IVR de voz se ejecutaban en plataformas de telefonía de Contact Center locales. Empresas como Avaya, Nortel, Cisco, Intervoice, Genesys y Aspect dominaron el panorama de los proveedores. A principios y mediados de la década de 2000, estos proveedores trabajaron en colaboración como parte del consorcio del W3C para desarrollar XML de voz, un lenguaje abierto independiente del proveedor para aplicaciones de IVR con capacidad de voz.


VoiceXML permitió a los desarrolladores crear diálogos de voz interactivos y proporcionó una forma estándar de interactuar con un reconocedor automático de voz (ASR). Esto se hizo mediante un protocolo basado en telefonía llamado MRCP. El estándar también proporcionaba un método para definir las gramáticas del habla denominado SARGOS y un formato llamado GRXML.


La arquitectura y la jerga y terminología de apoyo en torno a VoiceXML se inspiraron en gran medida en el mundo web. La plataforma VoiceXML se denominaba «navegador de voz» que podía «renderizar páginas de VoiceXML» del mismo modo que un navegador web podía renderizar páginas HTML. La mayoría de las plataformas de centros de contacto proporcionaban IDE visuales para ayudar a crear y mantener estos flujos de llamadas interactivos. Algunas también automatizaron la generación de las páginas de VoiceXML. El IDE generaba código que podía ejecutarse en un servidor de aplicaciones (como Apache Tomcat), que a su vez generaba páginas de VoiceXML que se enviaban a una plataforma de VoiceXML a través de HTTP estándar. El servidor de aplicaciones también era responsable de realizar las solicitudes de servicios web a los recursos de bases de datos empresariales que eran necesarios para la interacción con el IVR; por ejemplo, los sistemas de facturación y pago o los sistemas CRM.


Además, la mayoría de los ASR de finales de los 90 y principios de los 2000 se basaron en modelos ocultos de Markov y modelos de mezcla gaussiana. Principalmente eran compatibles con el reconocimiento gramatical, lo que significaba que, como desarrollador de Speech IVR, tenías que anticipar todas las expresiones posibles que un usuario podía pronunciar en respuesta a una pregunta o mensaje. Existían algunas opciones para crear modelos lingüísticos estadísticos abiertos, pero eran complicadas y requerían una cuidadosa selección del corpus formativo.

¿Por qué modernizar ahora?

Si bien VoiceXML funcionó bien en el pasado, es un lenguaje especializado y anticuado. ¡La última versión de VoiceXML 2.1 fue en 2007! Eso fue hace más de una década.

Y muchas cosas han cambiado en el mundo web desde entonces. VoiceXML se desarrolló en una época en la que se utilizaba ampliamente JSP (Java Server Pages). Así fue antes de JSON, YAML, las API RESTful y AJAX.


Para las empresas, es caro mantener un personal dedicado, ya sea interno o subcontratado, con conocimientos especializados en tecnologías como VoiceXML y MRCP.


Lo ideal es que las empresas puedan ejecutar la aplicación IVR como cualquier otra aplicación web moderna. La mayoría de las aplicaciones web empresariales se basan en lenguajes de programación como Python y Node.JS, que son populares entre los desarrolladores web. Se almacenan en contenedores con Docker y se orquestan con Kubernetes.


Sería ideal para una organización de TI empresarial que su aplicación IVR se construyera en lenguajes de programación similares para que pueda recibir soporte o mantenimiento al igual que otras aplicaciones de la cartera de TI.


Además de la obsolescencia de VoiceXML, el motor de reconocimiento de voz (ASR) que se implementó a principios de la década de 2000 también ha quedado obsoleto. Los motores modernos de conversión de voz a texto se basan en redes neuronales profundas que funcionan en una potente infraestructura de GPU. Ofrecen una precisión asombrosa y permiten el uso de un vocabulario muy amplio, que es lo que se necesita para una experiencia conversacional similar a la de los bots. Además, los modernos motores de NLU permiten extraer fácilmente las intenciones del texto transcrito.


Por lo tanto, si una empresa quiere ofrecer un bot de voz que admita una experiencia de conversación abierta, debe pasar a una plataforma moderna de conversión de voz a texto basada en DNN que pueda integrarse con dichos motores de NLU.


Nuestra receta para la modernización de las aplicaciones IVR



En Voicegain, recomendamos que la empresa primero modernice la infraestructura subyacente y, al mismo tiempo, conserve la lógica de aplicación de IVR existente. Este es un excelente primer paso. Permite a una empresa seguir atendiendo a los usuarios existentes y, al mismo tiempo, dar un paso hacia la prestación de una experiencia de usuario más conversacional.

¿Cómo puede una empresa modernizar su aplicación IVR heredada?

Sugerimos que la lógica de flujo de llamadas existente, que normalmente se mantiene mediante IDE visuales de las plataformas de centros de contacto, se reescriba (idealmente con la ayuda de herramientas automatizadas) en un lenguaje de programación moderno como Python o Node.Js.

En lugar de generar páginas antiguas de VoiceXML, las empresas deberían utilizar lenguajes de representación de datos compatibles con la web, como JSON o YAML, para interactuar con las modernas API RESTful Speech-to-Text mediante llamadas web.

¿Cómo apoya Voicegain la modernización de la aplicación IVR?

En Voicegain, ofrecemos una plataforma moderna de IA de voz que incluye

  1. Un moderno reconocedor de voz basado en DNN accesible mediante API RESTful
  2. Capacidad de interactuar directamente con las llamadas telefónicas entregadas a través de SIP/RTP
  3. API de devolución de llamadas de estilo JSON para reemplazar la funcionalidad de un VoiceXML
  4. Capacidad de implementación en su VPC/nube privada o de uso como servicio en la nube
  5. Totalmente compatible con las funciones de los estándares antiguos (admite gramáticas SRGS y universales)
  6. Entrenamiento del modelo acústico subyacente y los modelos lingüísticos para obtener una alta precisión de reconocimiento

Voicegain está desarrollando herramientas para convertir automáticamente VoiceXML a una representación JSON/YAML equivalente que se comunica con nuestras API de devolución de llamadas.


¿Cómo es esta una arquitectura «preparada para el futuro» para una empresa?

La plataforma Voicegain es capaz de transcribir gran cantidad de vocabulario, lo cual es un requisito para los Voice Bots basados en NLU. Esta será la forma en que los clientes interactuarán con las empresas en el futuro.


Permitimos a los desarrolladores cambiar entre el reconocimiento basado en la gramática y el reconocimiento de vocabulario extenso en cada turno del cuadro de diálogo; o bien, puedes usar ambos simultáneamente para lograr una mayor flexibilidad.


Nuestra API de bots de telefonía también puede integrarse con Bot Frameworks como Google Dialog Flow,.


Estamos invitando a desarrolladores web empresariales de forma gratuita juicio de nuestra plataforma.






Read more → 
Por qué la IA de voz es fundamental para las empresas en un mundo posterior a Covid
Empresarial
Por qué la IA de voz es fundamental para las empresas en un mundo posterior a Covid

Los esfuerzos de transformación digital en la mayoría de las empresas solo se han acelerado como resultado de la pandemia. ¡La máxima que circuló en los círculos corporativos en 2020 (y es muy probable que continúe en 2021) es que el coronavirus era el verdadero director digital (CDO) de la mayoría de las empresas! Los directores de TI, directores de tecnología y directores de tecnología tienen hoy en día mandatos más fuertes y audaces para cambiar radicalmente la economía de sus negocios.

Sus directores ejecutivos les piden cada vez más que hagan grandes apuestas y adopten iniciativas que puedan transformar «materialmente» la economía subyacente de sus negocios.

Un área importante de enfoque para las empresas digitales es lo que se conoce como «IA práctica». ¿Cómo utilizan las empresas la IA y el aprendizaje automático de una manera práctica pero fundamental para transformarse? Las empresas de diferentes sectores (servicios financieros, viajes, telecomunicaciones, medios de comunicación y comercio minorista) se están dando cuenta de que invertir en sólidas capacidades de inteligencia artificial y aprendizaje automático en sus equipos es fundamental para su futuro digital después de la pandemia. En muchas de las empresas que figuran en la lista Fortune 1000, las empresas recurren a la «externalización» y contratan con ahínco equipos de inteligencia artificial y aprendizaje automático, aun cuando subcontratan el mantenimiento de los sistemas de back-end antiguos para obtener una ventaja competitiva.

Y una de las aplicaciones de IA más prácticas de la empresa es la IA de voz, que se refiere al uso de la IA y el aprendizaje automático en las conversaciones de voz dentro de la empresa.

¿Por qué la voz seguirá siendo importante y relevante para la empresa?

A pesar de la proliferación de canales digitales como el chat y los mensajes de texto, el correo electrónico y las redes sociales, valor más alto las conversaciones de ventas, las reuniones y las discusiones relacionadas con el servicio de atención al cliente se llevan a cabo predominantemente por voz. Hablar no solo es más eficiente que escribir, ¡también es más atractivo! El contacto humano con la voz es algo que nosotros, como humanos, siempre valoraremos. ¡La voz ha llegado para quedarse y su significado perdurable es tan inmutable como las leyes de la gravedad!

Entonces, ¿qué está cambiando en el mundo de la voz? Lo que pasa es que las raíces subyacentes se están transformando: las conversaciones de voz tradicionalmente se realizaban a través de las redes de telefonía tradicionales. Se están trasladando rápidamente a plataformas de reuniones como Zoom, Microsoft Teams y Webex; por ello, las conversaciones de voz y vídeo se están sustituyendo por conversaciones de voz y vídeo más ricas que se llevan a cabo a través de Internet.

Las barreras asociadas históricamente con la voz (los costos y la complejidad de la infraestructura de voz) se han eliminado con tecnologías como WebRTC, 4G/5G y la computación en nube. Para los consumidores, el coste de realizar una llamada de voz es ahora cero: es el coste de su ancho de banda WiFi o 4G/5G (ya que los consumidores utilizan aplicaciones móviles gratuitas como Facetime, Skype y WhatsApp).

¿Qué es Voice AI? ¿Y por qué es emocionante?

La IA de voz es una conversión de voz a texto y NLU de alta precisión que se basa en redes neuronales profundas altamente especializadas y personalizables (entrenables) que se ejecutan en GPU.

Lo único de las redes neuronales profundas es que los modelos subyacentes de conversión de voz a texto y NLU se pueden entrenar, de forma fácil y asequible, en conjuntos de datos específicos de la empresa. Puede aprovechar el léxico y el corpus empresariales, tanto de voz como de texto. Por lo tanto, en lugar de adoptar un enfoque único, cada empresa puede tener su propia infraestructura de inteligencia artificial de voz, capacitada en función de los nombres de sus productos, la jerga del sector, los nombres de los empleados y clientes, los acentos únicos, etc. Una vez capacitada, hay dos grandes aplicaciones: 1) la IA de voz para la automatización y 2) la IA de voz para el análisis.

IA de voz para automatización

Las empresas pueden crear bots de voz para responder de forma inteligente a las solicitudes de contacto de sus clientes potenciales y potenciales en cualquier momento y lugar. Los bots de voz también se pueden usar para responder a las consultas de los empleados internos en un contexto de servicio o mesa de ayuda. El caso práctico de la automatización es uno de los que realmente se ha acelerado durante la pandemia. Los bots pueden ayudar a las empresas a hacer frente a las enormes interrupciones provocadas por el hecho de que todo el mundo (ventas, atención al cliente y servicio) trabajara desde casa durante la pandemia. McKinsey ha escrito sobre automatización mediante IA.

IA de voz para análisis

La IA de voz también permite a las empresas transcribir el 100% de sus conversaciones de voz y, posteriormente, extraer el texto en busca de opiniones y análisis o información.

Con Voice AI, las empresas pueden garantizar que su personal de ventas de primera línea pueda presentar su propuesta de valor fundamental, sus beneficios y las características de sus productos y servicios de manera coherente y convincente. Esto puede suponer un gran impulso para los equipos de ventas, ya que pueden mejorar las tasas de conversión y pronosticar con precisión los flujos de producción con Voice AI.

La IA de voz también puede garantizar que el personal de atención al cliente y de atención al cliente reciba información personalizada y personalizada para mejorar no solo su eficiencia (métricas como la AHT en el centro de contacto), sino también para mejorar las medidas de eficacia, como las puntuaciones de CSAT y NPS.

En Ganación de voz, nos apasiona ayudar a las empresas, las pequeñas y medianas empresas, los emprendedores y las empresas emergentes con sus esfuerzos de inteligencia artificial de voz. Nuestra misión es crear la plataforma de IA de voz más abierta y fácil de usar para desarrolladores del mundo. Sé parte de nuestra misión registrándote aquí. ¡Puedes transcribir tus llamadas o reuniones, probar nuestras API, crear increíbles bots de telefonía y mucho más!

Acerca del autor:

Arun Santhebennur es el cofundador y director ejecutivo de Voicegain. Para tener una conversación más profunda, ponte en contacto con Arun en LinkedIn o envíanos un correo electrónico.

Read more → 
¡La selección de una API de conversión de voz a texto para su aplicación SaaS no es un éxito!
Desarrolladores
¡La selección de una API de conversión de voz a texto para su aplicación SaaS no es un éxito!

Los desarrolladores que crean aplicaciones SaaS compatibles con voz que incorporan voz a texto o transcripción como parte de su producto tienen varios proveedores entre los que elegir.

Sin embargo, la decisión de elegir la plataforma o API de conversión de voz a texto adecuada es bastante complicada. Este artículo describe tres tipos de vendedores y el tres criterios clave (resumido como 3 A: precisión, asequibilidad y accesibilidad) para tener en cuenta al hacer esa elección.

La mayoría de las aplicaciones SaaS habilitadas para voz que incorporan API de conversión de voz a texto se clasifican en general en dos categorías: 1) Análisis y 2) Automatización.

Ya sea que esté desarrollando una aplicación de análisis o una aplicación de automatización, los desarrolladores tienen las siguientes opciones de proveedores.

El panorama de los proveedores

Hay 3 tipos distintos de vendedores

  1. Los tres principales proveedores de nube
  2. Plataformas ASR para grandes empresas
  3. Startups de IA de voz y voz que solo utilizan voz y voz

1. Los tres principales proveedores de nube



El primer conjunto de opciones para la mayoría de los desarrolladores son las API de conversión de voz a texto de las grandes empresas de nube - Google, Amazon y Microsoft. Estas grandes empresas ofrecen API de conversión de voz a texto como parte de su cartera de servicios de IA y aprendizaje automático en la nube. La estrategia de los proveedores de Big Cloud consiste en vender toda su oferta, desde la infraestructura en la nube hasta las API e incluso los productos.

Sin embargo, los proveedores de servicios en la nube pueden competir directamente con los desarrolladores a los que buscan atender. Por ejemplo, Amazon Connect compite directamente con las plataformas de centros de contacto alojadas en AWS. Google Dialogflow compite directamente con otras empresas emergentes de NLU que pueden estar buscando crear y ofrecer bots de voz y asistentes de voz a las empresas.

2. Plataformas ASR para grandes empresas

Además de los grandes 3, Matiz y IBM Watson son grandes empresas que tienen una rica historia en el suministro de reconocimiento de voz automatizado (ASR). De estas dos, Nuance es la más conocida y ha ocupado un lugar dominante tanto en el mercado de los centros de llamadas empresariales con su motor ASR de Nuance como en el sector de la transcripción médica con su oferta Dragon. IBM tiene una larga historia de reconocimiento de voz fundamental e IBM Watson Speech-to-Text es su oferta orientada a los desarrolladores.

3. Startups de IA de voz a texto o de voz exclusivamente

Voicegain.ai, nuestra empresa, actúa junto a otras empresas emergentes como Deepgram que se dirigen a los desarrolladores de SaaS con su mejor conversión de voz a texto basada en DNN. Dado que estas empresas emergentes son proveedores especializados, se centran en superar a los grandes proveedores de nube y a los actores tradicionales en cuanto a precio, rendimiento y facilidad de uso.

Criterios clave: precisión, asequibilidad y accesibilidad

Los criterios clave a la hora de elegir una plataforma ASR o de conversión de voz a texto son las 3 A: precisión, asequibilidad y accesibilidad.

1. Precisión: establezca la precisión del objetivo y la línea de base

El primer y más importante criterio para cualquier plataforma de conversión de voz a texto es la precisión del reconocimiento. Sin embargo, la precisión es una métrica difícil de evaluar y medir. No existe un enfoque de precisión que sirva para todos los casos. Hemos compartido nuestro pensamientos & puntos de referencia aquí. Si bien Voicegain iguala o supera la precisión de transcripción «lista para usar» de la mayoría de los jugadores más grandes, te sugerimos que hagas un esfuerzo adicional antes de tomar una decisión. Los conjuntos de datos de audio utilizados en estas pruebas de rendimiento pueden o no ser similares al caso práctico o al contexto para el que el desarrollador pretende utilizar la API.

Si bien la precisión generalmente se mide con la tasa de error de palabras (WER), es importante tener en cuenta que esta métrica también tiene limitaciones. Para una aplicación SaaS, decir correctamente algunas palabras importantes y críticas puede ser incluso más importante que un WER general bajo.

Dicho esto, es importante que los desarrolladores establezcan y calculen una precisión básica rápida «lista para usar» para su aplicación con sus conjuntos de datos de audio.

En Voicegain, tenemos herramientas de código abierto para comparar nuestro desempeño con el de los mejores del sector. Recomendamos encarecidamente a los desarrolladores e ingenieros de aprendizaje automático que calculen un punto de referencia para la precisión de los proveedores que elijan utilizando un volumen estadísticamente significativo de conjuntos de datos de audio para su aplicación.

Desde la perspectiva del desarrollador, una medida de precisión de referencia proporcionará información sobre el grado en que sus conjuntos de datos coinciden con los conjuntos de datos en el que los proveedores han capacitado a los modelos STT subyacentes.

Estos son un conjunto de factores importantes que pueden afectar a su precisión «lista para usar»:

  1. Duración del audio: ¿Su aplicación incluye datos de audio compuestos de palabras/frases cortas u oraciones completas? Los bots implican el uso de palabras y frases cortas, mientras que las aplicaciones de análisis implican la transcripción de frases largas
  2. Jerga industrial: ¿Sus datos de audio contienen jerga y términos específicos de la industria que no forman parte del vocabulario normal?
  3. Calidad de audio: 8 kHz o 16 kHz: ¿La fuente de sus datos de audio (telefonía) está muestreada a 8 kHz o son datos de 16 kHz capturados en una plataforma de reuniones como Zoom o Webex? ¿El proveedor tiene modelos ajustados a 8 kHz y 16 kHz?
  4. Canales separados: Si hay varios altavoces, ¿puede proporcionar canales separados para cada altavoz al motor de conversión de voz a texto? La precisión podría ser mayor si pudieras hacerlo.
  5. Ruido de fondo: ¿Su audio tiene mucho ruido de fondo, por ejemplo, cuando se reproducen noticias de fondo o hay una conversación cruzada en el contexto de un centro de llamadas? Si es así, ¿qué tan «sensible» es el motor de conversión de voz a ese ruido de fondo
  6. Acentos: ¿Su aplicación admite altavoces con diferentes acentos?

Los desarrolladores también deben establecer la precisión «objetivo» que requiere su aplicación o producto SaaS. Por lo general, los gerentes de producto determinan esto en función de sus necesidades.

Es posible cerrar la brecha entre la precisión del objetivo y la precisión básica «lista para usar». Si bien está fuera del alcance de esta publicación, aquí hay una descripción general de algunas formas en las que los desarrolladores pueden mejorar la precisión de la línea de base.

  1. Entrenamiento de modelos acústicos. Voicegain permite a los desarrolladores entrenar el modelo acústico subyacente. Esta es la mejor manera de abordar los problemas relacionados con los acentos y el ruido de fondo. He aquí un eslabón a algunos resultados que hemos demostrado con el entrenamiento modelo. De los reproductores más grandes, actualmente solo Microsoft e IBM permiten la personalización del modelo acústico, mientras que la mayoría de los reproductores solo permiten personalizar el modelo lingüístico (que se describe a continuación)
  2. Modelo lingüístico: La personalización del modelo lingüístico suele ser la forma más rápida y sencilla de aumentar la precisión del motor de conversión de voz a texto, especialmente para cosas como los nombres de los productos. Esto se logra de varias maneras diferentes. Algunas plataformas permiten a los desarrolladores enviar sugerencias junto con una solicitud de reconocimiento, mientras que otras permiten cargar un corpus completo como un modelo de lenguaje específico para un dominio. Voicegain permite ambas opciones.
  3. Gramáticas del discurso: Hemos escrito extensamente sobre gramáticas del habla aquí, aquí y aquí y cómo simplifican realmente el desarrollo de los asistentes y bots de voz. Aumentan la precisión de entidades específicas, como el código postal, las direcciones, las fechas, etc. También mejoran el reconocimiento de frases cortas como «tarjeta», «efectivo», etc., por lo general con mejores resultados finales que con las sugerencias mencionadas anteriormente. Si bien en el pasado las gramáticas de voz se utilizaban con frecuencia para crear IVR compatibles con voz basados en telefonía (que se basaban en plataformas de conversión de voz a texto basadas en HMM y GMM), la mayoría de los desarrolladores de back-end modernos no están familiarizados con el uso de las gramáticas.

Sin embargo, no todas las plataformas de conversión de voz a texto admiten una o más de estas opciones.

En Voicegain.ai, apoyamos todas las opciones anteriores. Elegir el enfoque correcto implica una conversación técnica más profunda. Le invitamos a póngase en contacto con nosotros.

En resumen, es posible que la elección no sea tan simple como elegir la que tenga la mejor precisión «lista para usar». De hecho, podría ser una plataforma que ofrezca la ruta más conveniente y económica para cerrar la brecha entre la precisión del objetivo y la de la línea de base.

2. Asequibilidad

El segundo factor más importante después de la precisión es el precio. La mayoría de los productos SaaS tienen precios muy disruptivos. No es raro que el producto SaaS se venda a «decenas de dólares» (entre 35 y 100 dólares) por usuario y mes. Es fundamental que las API de conversión de voz a texto representen la menor parte posible del precio del SaaS. El precio repercute directamente en el «margen bruto» de la aplicación SaaS, una métrica o KPI financiero fundamental que preocupa mucho a las empresas de SaaS.

Además del precio de primera línea basado en el uso de la plataforma, también es importante entender cuál es el tiempo mínimo facturable y el incremento de facturación para cada interacción. Muchos de los grandes proveedores de servicios en la nube tienen un tiempo mínimo facturable muy alto: 12 o 18 segundos. Esto hace que los Voice Bots o Voice Assistant sean muy caros.

Otro aspecto relacionado con los costos es el precio de la transcripción de audio multicanal, donde solo hay un altavoz activo a la vez. ¿La plataforma cobra por transcribir el silencio en el canal inactivo?

3. Accesibilidad: facilidad/simplicidad de integración

La última (¡pero no la menos importante!) Un criterio importante es qué tan accesible o, en otras palabras, qué tan simple y fácil es integrar la plataforma de conversión de voz a texto con la aplicación SaaS.

Esta facilidad de integración adquiere aún más importancia si la aplicación SaaS transmite audio en tiempo real a la plataforma Speech-to-Text. Otro criterio importante para la transmisión en tiempo real es la latencia, que es el momento en que se reciben los resultados de reconocimiento de la plataforma. Para un bot o un asistente de voz, es importante reducir la latencia de la API a 500 milisegundos o menos. Además, la detección rápida y fiable del final de la voz es crucial en esos escenarios para que los diálogos se alternen de forma natural.


Acerca de Voicegain


En Voicegain, admitimos múltiples opciones - desde métodos basados en TCP como gRPC y Websockets hasta protocolos de telefonía y UDP como SIP/RTP, MRCP y SIPREC.

La elección que haga el desarrollador depende de los siguientes factores:

  1. El lenguaje de programación de backend o el marco web real en el que se basa la aplicación SaaS (es decir, las bibliotecas que admiten).
  2. Familiaridad o experiencia pasada en el uso de ciertos protocolos para desarrolladores
  3. Para las aplicaciones a las que se accede a través de la telefonía tradicional (PSTN), la integración con las plataformas de telefonía modernas es muy importante (CCaaS, centros de contacto locales o plataformas de CPaaS como Twilio y SignalWire). En Voicegain, nos integramos con las plataformas de contact center locales y en la nube más destacadas. También le permitimos usar nuestro API basadas en JSON Callback con cualquier plataforma que admita SIP Invite.

En conclusión, seleccionar la plataforma de voz a texto o ASR adecuada para una aplicación SaaS es un ejercicio diligente; ¡de ninguna manera es un éxito!

Nos encanta tener una conversación contigo sobre esto. Estamos deseosos de conocer lo que está creando Conéctese con nosotros en LinkedIn, danos un gritar¡¡!! O envíanos un correo electrónico a info@voicegain.ai.
¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.


Read more → 
Soporte SIPREC en la plataforma Voicegain
Plataforma
Soporte SIPREC en la plataforma Voicegain

La plataforma Voicegain Speech-to-Text y Speech Analytics admite el protocolo SIPREC como una de las formas en que se puede enviar la transmisión de audio de una llamada telefónica al reconocedor de voz.

El Protocolo de grabación de sesiones (SIPREC) es un protocolo abierto basado en SIP para la grabación de llamadas. El estándar es definido por el Grupo de Trabajo de Ingeniería de Internet. Es compatible con muchas plataformas telefónicas y proveedores de sistemas de grabación de llamadas.

El estándar SIPREC define un protocolo que se usa para interactuar entre un cliente de grabación de sesiones (la función que generalmente desempeña el sistema PBX o el controlador de borde de sesión) y un servidor de grabación de sesiones (un grabador de llamadas de terceros, en nuestro caso un servidor SIPREC proporcionado por VoiceGain). El SIPREC abre dos transmisiones RTP (una para el audio entrante y otra para el audio saliente de la llamada) al servidor de grabación. El protocolo SIPREC también puede transferir los metadatos de las llamadas a la grabadora, lo que es importante para que las grabaciones puedan vincularse a la información sobre las llamadas.

Casos de uso

El SIPREC se usa generalmente para la grabación de llamadas, pero el estándar proporciona esencialmente una transmisión de audio en tiempo real desde la llamada telefónica, lo que lo hace adecuado para aplicaciones que tienen que funcionar en tiempo real, como, por ejemplo, la asistencia o el monitoreo de agentes. Con la interfaz SIPREC, Voicegain puede proporcionar una transcripción de la llamada en tiempo real y realizar tareas de análisis del habla en tiempo real, por ejemplo, la detección de palabras clave y frases, la limpieza de información de identificación personal, la estimación de sentimientos y estados de ánimo, el reconocimiento de entidades nombradas y una variedad de métricas (como el silencio, las conversaciones exageradas, etc.).

El audio obtenido mediante SIPREC también se puede grabar y transcribir, analizar o recuperar más adelante.

Clientes compatibles

La interfaz SIPREC de Voicegain se ha probado en las siguientes plataformas:

Voicegain puede capturar los metadatos relevantes de la llamada además de obtener el audio (la funcionalidad de captura de metadatos puede diferir en sus capacidades según la plataforma del cliente).

La plataforma Voicegain se puede configurar para iniciar automáticamente la transcripción y el análisis de voz tan pronto como se establezca la nueva sesión de SIPREC.

Los resultados de los análisis de transcripción y voz están disponibles a través de una API web. También admitimos websockets para una transmisión más cómoda de los datos de transcripción o análisis de voz. La compatibilidad con SIPREC está disponible tanto en la nube como en Edge (Prem)) despliegues de la plataforma Voicegain.

SIPREC es una función empresarial de la plataforma Voicegain y no está incluida en el paquete básico. Póngase en contacto con support@voicegain.ai o envía un Boleto de Zendesk para obtener más información sobre SIPREC y si deseas usarlo con tu cuenta de Voicegain actual.

Notas sobre Genesys Platform

La plataforma de voz de Genesys no es compatible directamente con SIPREC. Sin embargo, sí admite la transmisión de los medios RTP entrantes y salientes a dos puntos finales SIP distintos; el resultado final es prácticamente el mismo que si se utilizara SIPREC. Actualmente estamos trabajando para implementar la compatibilidad con esta función de la plataforma de voz de Genesys para la transmisión de audio en tiempo real a la plataforma Voicegain. Debería estar disponible en el primer trimestre de 2021.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control