¡La selección de una API de conversión de voz a texto para su aplicación SaaS no es un éxito!

Los desarrolladores que crean aplicaciones SaaS compatibles con voz que incorporan voz a texto o transcripción como parte de su producto tienen varios proveedores entre los que elegir.

Sin embargo, la decisión de elegir la plataforma o API de conversión de voz a texto adecuada es bastante complicada. Este artículo describe tres tipos de vendedores y el tres criterios clave (resumido como 3 A: precisión, asequibilidad y accesibilidad) para tener en cuenta al hacer esa elección.

La mayoría de las aplicaciones SaaS habilitadas para voz que incorporan API de conversión de voz a texto se clasifican en general en dos categorías: 1) Análisis y 2) Automatización.

Ya sea que esté desarrollando una aplicación de análisis o una aplicación de automatización, los desarrolladores tienen las siguientes opciones de proveedores.

El panorama de los proveedores

Hay 3 tipos distintos de vendedores

Los tres principales proveedores de nube
Plataformas ASR para grandes empresas
Startups de IA de voz y voz que solo utilizan voz y voz

1. Los tres principales proveedores de nube

El primer conjunto de opciones para la mayoría de los desarrolladores son las API de conversión de voz a texto de las grandes empresas de nube - Google, Amazon y Microsoft. Estas grandes empresas ofrecen API de conversión de voz a texto como parte de su cartera de servicios de IA y aprendizaje automático en la nube. La estrategia de los proveedores de Big Cloud consiste en vender toda su oferta, desde la infraestructura en la nube hasta las API e incluso los productos.

Sin embargo, los proveedores de servicios en la nube pueden competir directamente con los desarrolladores a los que buscan atender. Por ejemplo, Amazon Connect compite directamente con las plataformas de centros de contacto alojadas en AWS. Google Dialogflow compite directamente con otras empresas emergentes de NLU que pueden estar buscando crear y ofrecer bots de voz y asistentes de voz a las empresas.

2. Plataformas ASR para grandes empresas

Además de los grandes 3, Matiz y IBM Watson son grandes empresas que tienen una rica historia en el suministro de reconocimiento de voz automatizado (ASR). De estas dos, Nuance es la más conocida y ha ocupado un lugar dominante tanto en el mercado de los centros de llamadas empresariales con su motor ASR de Nuance como en el sector de la transcripción médica con su oferta Dragon. IBM tiene una larga historia de reconocimiento de voz fundamental e IBM Watson Speech-to-Text es su oferta orientada a los desarrolladores.

3. Startups de IA de voz a texto o de voz exclusivamente

Voicegain.ai, nuestra empresa, actúa junto a otras empresas emergentes como Deepgram que se dirigen a los desarrolladores de SaaS con su mejor conversión de voz a texto basada en DNN. Dado que estas empresas emergentes son proveedores especializados, se centran en superar a los grandes proveedores de nube y a los actores tradicionales en cuanto a precio, rendimiento y facilidad de uso.

Criterios clave: precisión, asequibilidad y accesibilidad

Los criterios clave a la hora de elegir una plataforma ASR o de conversión de voz a texto son las 3 A: precisión, asequibilidad y accesibilidad.

1. Precisión: establezca la precisión del objetivo y la línea de base

El primer y más importante criterio para cualquier plataforma de conversión de voz a texto es la precisión del reconocimiento. Sin embargo, la precisión es una métrica difícil de evaluar y medir. No existe un enfoque de precisión que sirva para todos los casos. Hemos compartido nuestro pensamientos & puntos de referencia aquí. Si bien Voicegain iguala o supera la precisión de transcripción «lista para usar» de la mayoría de los jugadores más grandes, te sugerimos que hagas un esfuerzo adicional antes de tomar una decisión. Los conjuntos de datos de audio utilizados en estas pruebas de rendimiento pueden o no ser similares al caso práctico o al contexto para el que el desarrollador pretende utilizar la API.

Si bien la precisión generalmente se mide con la tasa de error de palabras (WER), es importante tener en cuenta que esta métrica también tiene limitaciones. Para una aplicación SaaS, decir correctamente algunas palabras importantes y críticas puede ser incluso más importante que un WER general bajo.

Dicho esto, es importante que los desarrolladores establezcan y calculen una precisión básica rápida «lista para usar» para su aplicación con sus conjuntos de datos de audio.

En Voicegain, tenemos herramientas de código abierto para comparar nuestro desempeño con el de los mejores del sector. Recomendamos encarecidamente a los desarrolladores e ingenieros de aprendizaje automático que calculen un punto de referencia para la precisión de los proveedores que elijan utilizando un volumen estadísticamente significativo de conjuntos de datos de audio para su aplicación.

Desde la perspectiva del desarrollador, una medida de precisión de referencia proporcionará información sobre el grado en que sus conjuntos de datos coinciden con los conjuntos de datos en el que los proveedores han capacitado a los modelos STT subyacentes.

Estos son un conjunto de factores importantes que pueden afectar a su precisión «lista para usar»:

Duración del audio: ¿Su aplicación incluye datos de audio compuestos de palabras/frases cortas u oraciones completas? Los bots implican el uso de palabras y frases cortas, mientras que las aplicaciones de análisis implican la transcripción de frases largas
Jerga industrial: ¿Sus datos de audio contienen jerga y términos específicos de la industria que no forman parte del vocabulario normal?
Calidad de audio: 8 kHz o 16 kHz: ¿La fuente de sus datos de audio (telefonía) está muestreada a 8 kHz o son datos de 16 kHz capturados en una plataforma de reuniones como Zoom o Webex? ¿El proveedor tiene modelos ajustados a 8 kHz y 16 kHz?
Canales separados: Si hay varios altavoces, ¿puede proporcionar canales separados para cada altavoz al motor de conversión de voz a texto? La precisión podría ser mayor si pudieras hacerlo.
Ruido de fondo: ¿Su audio tiene mucho ruido de fondo, por ejemplo, cuando se reproducen noticias de fondo o hay una conversación cruzada en el contexto de un centro de llamadas? Si es así, ¿qué tan «sensible» es el motor de conversión de voz a ese ruido de fondo
Acentos: ¿Su aplicación admite altavoces con diferentes acentos?

Los desarrolladores también deben establecer la precisión «objetivo» que requiere su aplicación o producto SaaS. Por lo general, los gerentes de producto determinan esto en función de sus necesidades.

Es posible cerrar la brecha entre la precisión del objetivo y la precisión básica «lista para usar». Si bien está fuera del alcance de esta publicación, aquí hay una descripción general de algunas formas en las que los desarrolladores pueden mejorar la precisión de la línea de base.

Entrenamiento de modelos acústicos. Voicegain permite a los desarrolladores entrenar el modelo acústico subyacente. Esta es la mejor manera de abordar los problemas relacionados con los acentos y el ruido de fondo. He aquí un eslabón a algunos resultados que hemos demostrado con el entrenamiento modelo. De los reproductores más grandes, actualmente solo Microsoft e IBM permiten la personalización del modelo acústico, mientras que la mayoría de los reproductores solo permiten personalizar el modelo lingüístico (que se describe a continuación)
Modelo lingüístico: La personalización del modelo lingüístico suele ser la forma más rápida y sencilla de aumentar la precisión del motor de conversión de voz a texto, especialmente para cosas como los nombres de los productos. Esto se logra de varias maneras diferentes. Algunas plataformas permiten a los desarrolladores enviar sugerencias junto con una solicitud de reconocimiento, mientras que otras permiten cargar un corpus completo como un modelo de lenguaje específico para un dominio. Voicegain permite ambas opciones.
Gramáticas del discurso: Hemos escrito extensamente sobre gramáticas del habla aquí, aquí y aquí y cómo simplifican realmente el desarrollo de los asistentes y bots de voz. Aumentan la precisión de entidades específicas, como el código postal, las direcciones, las fechas, etc. También mejoran el reconocimiento de frases cortas como «tarjeta», «efectivo», etc., por lo general con mejores resultados finales que con las sugerencias mencionadas anteriormente. Si bien en el pasado las gramáticas de voz se utilizaban con frecuencia para crear IVR compatibles con voz basados en telefonía (que se basaban en plataformas de conversión de voz a texto basadas en HMM y GMM), la mayoría de los desarrolladores de back-end modernos no están familiarizados con el uso de las gramáticas.

Sin embargo, no todas las plataformas de conversión de voz a texto admiten una o más de estas opciones.

En Voicegain.ai, apoyamos todas las opciones anteriores. Elegir el enfoque correcto implica una conversación técnica más profunda. Le invitamos a póngase en contacto con nosotros.

En resumen, es posible que la elección no sea tan simple como elegir la que tenga la mejor precisión «lista para usar». De hecho, podría ser una plataforma que ofrezca la ruta más conveniente y económica para cerrar la brecha entre la precisión del objetivo y la de la línea de base.

2. Asequibilidad

El segundo factor más importante después de la precisión es el precio. La mayoría de los productos SaaS tienen precios muy disruptivos. No es raro que el producto SaaS se venda a «decenas de dólares» (entre 35 y 100 dólares) por usuario y mes. Es fundamental que las API de conversión de voz a texto representen la menor parte posible del precio del SaaS. El precio repercute directamente en el «margen bruto» de la aplicación SaaS, una métrica o KPI financiero fundamental que preocupa mucho a las empresas de SaaS.

Además del precio de primera línea basado en el uso de la plataforma, también es importante entender cuál es el tiempo mínimo facturable y el incremento de facturación para cada interacción. Muchos de los grandes proveedores de servicios en la nube tienen un tiempo mínimo facturable muy alto: 12 o 18 segundos. Esto hace que los Voice Bots o Voice Assistant sean muy caros.

Otro aspecto relacionado con los costos es el precio de la transcripción de audio multicanal, donde solo hay un altavoz activo a la vez. ¿La plataforma cobra por transcribir el silencio en el canal inactivo?

3. Accesibilidad: facilidad/simplicidad de integración

La última (¡pero no la menos importante!) Un criterio importante es qué tan accesible o, en otras palabras, qué tan simple y fácil es integrar la plataforma de conversión de voz a texto con la aplicación SaaS.

Esta facilidad de integración adquiere aún más importancia si la aplicación SaaS transmite audio en tiempo real a la plataforma Speech-to-Text. Otro criterio importante para la transmisión en tiempo real es la latencia, que es el momento en que se reciben los resultados de reconocimiento de la plataforma. Para un bot o un asistente de voz, es importante reducir la latencia de la API a 500 milisegundos o menos. Además, la detección rápida y fiable del final de la voz es crucial en esos escenarios para que los diálogos se alternen de forma natural.

Acerca de Voicegain

En Voicegain, admitimos múltiples opciones - desde métodos basados en TCP como gRPC y Websockets hasta protocolos de telefonía y UDP como SIP/RTP, MRCP y SIPREC.

La elección que haga el desarrollador depende de los siguientes factores:

El lenguaje de programación de backend o el marco web real en el que se basa la aplicación SaaS (es decir, las bibliotecas que admiten).
Familiaridad o experiencia pasada en el uso de ciertos protocolos para desarrolladores
Para las aplicaciones a las que se accede a través de la telefonía tradicional (PSTN), la integración con las plataformas de telefonía modernas es muy importante (CCaaS, centros de contacto locales o plataformas de CPaaS como Twilio y SignalWire). En Voicegain, nos integramos con las plataformas de contact center locales y en la nube más destacadas. También le permitimos usar nuestro API basadas en JSON Callback con cualquier plataforma que admita SIP Invite.

En conclusión, seleccionar la plataforma de voz a texto o ASR adecuada para una aplicación SaaS es un ejercicio diligente; ¡de ninguna manera es un éxito!

Nos encanta tener una conversación contigo sobre esto. Estamos deseosos de conocer lo que está creando Conéctese con nosotros en LinkedIn, danos un gritar¡¡!! O envíanos un correo electrónico a info@voicegain.ai.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Casey

AI Voice Agent Platform

Transcribe