Diferenciadores clave

El mercado empresarial actual de voz a texto se puede dividir en 3 grupos distintos de jugadores. Ten en cuenta que nos estamos centrando en las plataformas de conversión de voz a texto en lugar de en productos completos para el usuario final (por lo que no incluimos productos de consumo como Dragon NaturallySpeaking, etc.)

Los antiguos ASR - por ejemplo, Nuance (y todas las empresas de voz que Nuance adquirió a lo largo de los años) y Lumenvox. Estos motores de conversión de voz a texto se remontan a finales de la década de 1990 y principios de la de 2000. Fueron construidos con tecnología basada en modelos gaussianos y cadenas ocultas de Markov. Requieren una instalación local.
Servicios de conversión de voz a texto en la nube establecidos - como Google, AWS, Microsoft Azure, IBM. Algunos de ellos también comenzaron con reconocedores creados con modelos gaussianos y cadenas ocultas de Markov, pero en 2012 comenzaron la transición a reconocedores que utilizaban modelos de redes neuronales profundas para el reconocimiento de voz.
Nuevos jugadores - se trata de empresas nuevas que se remontan aproximadamente a 2015. Fue entonces cuando Nvidia hizo posible que prácticamente cualquier persona entrenara DNN en las nuevas GPU de Nvidia. Surgieron muchas pequeñas empresas que crearon sus propios motores de conversión de voz a texto partiendo de cero o utilizando bases de código abierto. Ahora, 5 años después, muchas de ellas están ingresando al mercado de conversión de voz a texto con productos maduros y que ofrecen una alta precisión de reconocimiento.

¿Dónde encaja Voicegain aquí?

Nos consideramos uno de los nuevos jugadores, ya que empezamos a trabajar en nuestro propio motor de conversión de voz a texto basado en DNN a finales de 2016. Sin embargo, llevamos trabajando con sistemas ASR antiguos desde 2006, por lo que conocíamos muy bien sus limitaciones. Eso fue lo que nos motivó a desarrollar nuestros propios ASR.

También estamos muy familiarizados con el uso de ASR en aplicaciones de gran volumen del mundo real, por lo que sabemos qué funciones desean los usuarios de ASR, ya sean desarrolladores que crean las aplicaciones o personal de TI que tiene que alojarlas y mantenerlas.

Todo esto nos guió en las decisiones que tomamos al desarrollar nuestra plataforma de conversión de voz a texto.

Entonces, ¿en qué se diferencia el producto Voicegain?

A continuación, enumeramos lo que creemos que son 4 diferenciadores clave de nuestra plataforma de conversión de voz a texto en comparación con la competencia. Tenga en cuenta que el campo competitivo es bastante amplio, y consideramos que una característica en particular es un factor diferenciador si no es una característica común en el mercado.

1) Despliegue perimetral

Por implementación perimetral nos referimos a una implementación en las instalaciones del cliente (centro de datos) o en una VPC. Además, la implementación está totalmente orquestada y gestionada desde la nube (para obtener más información, consulte nuestra entrada de blog sobre Ventajas de la implementación perimetral). El aspecto de la orquestación y la administración integrada hace que sea esencialmente diferente de los antiguos ASR, que también se implementaban localmente y requerían contratos de soporte para implementarlos correctamente y mantenerlos a lo largo del tiempo.

Creemos que Edge Deployment es fundamental para una plataforma de conversión de voz a texto que sustituya a muchos de los antiguos ASR en sus aplicaciones.

2) Personalización del modelo acústico

A lo largo de los años, cuando trabajamos con ASR, nos dimos cuenta de que había casos en los que el ASR mostraba tasas de error consistentemente más altas. Por lo general, esto estaba relacionado con las llamadas IVR procedentes de clientes de regiones del país con distintos acentos.

En algunos de nuestros casos de uso hasta ahora, la capacidad de personalizar los modelos nos ha permitido reducir el WER de manera muy significativa (por ejemplo, del 8% al 3%).

Actualmente estamos trabajando en un riguroso experimento en el que estamos personalizando nuestro modelo para que sea compatible con el inglés irlandés. Planeamos informar detalladamente sobre los resultados en abril.

3) Soporte específico para IVR

La plataforma de conversión de voz a texto Voicegain se desarrolló específicamente teniendo en cuenta los casos de uso de IVR. Actualmente, la plataforma admite los siguientes 3 casos de uso del IVR, y estamos trabajando para añadir la NLU conversacional a finales de este año.

a) ASR compatible con los estándares IVR antiguos

Para que nuestro motor de conversión de voz a texto fuera una solución atractiva para reemplazar los ASR antiguos, lo implementamos para que fuera compatible con estándares antiguos como MRCP y GRXML. Este soporte no es un simple complemento, es decir, simplemente etiquetar una API web en la parte posterior de un servidor MRCP, sino que es más integral: nuestro motor principal de conversión de voz a texto interpreta directamente un superconjunto de comandos del protocolo MCRP.

También admitimos las gramáticas GRXML y JSGF, mediante MRCP, en las devoluciones de llamada de IVR y a través de la API web.

Cuando se usa con gramáticas, la gran ventaja del reconocedor Voicegain es que, en esencia, es un gran reconocedor de vocabulario. Las gramáticas se utilizan para restringir las expresiones reconocidas y facilitar el mapeo semántico, pero el reconocedor también puede reconocer las expresiones que no son gramaticales, lo que abre nuevas posibilidades para afinar el IVR.

b) Soporte de IVR Web-hook (sin VXML)

Los sistemas IVR basados en flujos se han creado tradicionalmente utilizando dos enfoques: (i) interpretar las interacciones de los diálogos en una plataforma VXML (navegador VXML) o (ii) utilizar webhooks que invocan la lógica de la aplicación que se ejecuta en plataformas de back-end web estándar (ejemplos de esto último son las ofertas de, por ejemplo, Twilio, Plivo o Tropo).

Nuestra plataforma admite IVR de estilo webhook. Las llamadas entrantes se pueden interconectar a través de la telefonía SIP/RTP estándar, y el cuadro de diálogo del IVR se puede dirigir desde cualquier plataforma que implemente webhooks (por ejemplo, Node.js o Django)

c) Habilitar los IVR que utilizan el back-end de un chatbot

Muchas empresas han invertido un esfuerzo significativo en crear sus chatbots basados en texto en lugar de utilizar productos como Google Dialogflow. Lo que ofrece la plataforma Voicegain es una forma sencilla de implementar la lógica de chatbot existente en un canal de telefonía vocal. Esto aprovecha la compatibilidad con el IVR webhook-ivr de nuestra plataforma y puede enviar texto en tiempo real (incluidas múltiples alternativas) a una plataforma de chatbot. También proporcionamos salida de audio a través de TTS o clips pregrabados.

4) Soporte integral para conversión continua de voz a texto en tiempo real

Como el IVR siempre ha sido nuestro objetivo, creamos nuestros modelos acústicos para que admitan la conversión de voz a texto en tiempo real de baja latencia (tanto con vocabulario extenso y continuo como con gramáticas sin contexto). También nos centramos en encontrar formas prácticas de transmitir audio a nuestra plataforma de conversión de voz a texto y de consumir la transcripción generada.

Uno de nuestros productos es Transcripción en vivo que permite la transcripción en tiempo real (con solo unos segundos de retraso), que luego se transmite a través de websockets y se puede consumir en los clientes web proporcionados. Esto abre la posibilidad de realizar transcripciones de ponentes en directo, con casos de uso que pueden incluir conferencias, ponencias, etc., lo que facilita la participación de los espectadores con problemas de audición en estos eventos.

Casey

AI Voice Agent Platform

Transcribe