Blog | Speech-to-Text Platform

ASR, punto de referencia

Punto de referencia de precisión de voz a texto: junio de 2022

Jacek Jarmulak

•

min read

•

June 16, 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.

Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

‍

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

‍

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

Microsoft fue el mejor en 35 de los 63 archivos
Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
El último de Google fue el mejor en 4
Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

‍

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

‍

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

‍

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

‍

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

‍

Casos de uso

Reconocimiento de voz Voicegain para selección de voz en almacenes

Jacek Jarmulak

•

min read

•

March 9, 2021

Entre las diversas API de conversión de voz a texto que proporciona Voicegain se encuentra una API de reconocimiento de voz que utiliza gramáticas y admite el reconocimiento continuo. Esta API es ideal para su uso en aplicaciones de selección por voz de almacén. Los sistemas de gestión de almacenes pueden integrar las API de Voicegain para ofrecer la selección por voz como parte de su conjunto de funciones.

Aquí tienes más detalles de esa API específica:

Entrada de audio - admite la transmisión de audio a través de websockets para una integración muy sencilla con aplicaciones basadas en la web o para Android/iOS (la compatibilidad con gRPC está en versión beta)
Resultados de reconocimiento están disponibles mediante devoluciones de llamadas websocket o http en formato JSON. El envío de los resultados del reconocimiento a través de websockets es una incorporación reciente y facilita mucho la creación de aplicaciones de selección por voz basadas en la web.
Soportes reconocimiento basado en gramática - más adecuado para un conjunto de comandos bien definido en comparación con un vocabulario amplio de voz a texto. Tiene una mayor precisión, rechaza mejor el ruido, maneja mejor los distintos acentos, etc. El uso de gramáticas proporciona la ventaja de señalar rápidamente al final: el reconocedor sabe que la orden se ha pronunciado por completo y no se necesita tiempo de espera adicional para determinar el final del discurso. Admitimos una variante del formato gramatical JSGF que es muy intuitiva y fácil de usar.
Soportes reconocimiento continuo - se pueden reconocer varios comandos en una sola sesión http. El reconocimiento continuo permite que los comandos estén más cerca y permite la corrección natural de los errores de reconocimiento mediante una simple repetición.

Además de eso, la plataforma Voicegain Speech-to-Text ofrece beneficios adicionales para las aplicaciones de selección de voz:

El modelo acústico/lingüístico es personalizable, lo que permite una precisión de reconocimiento muy alta para dominios específicos
Herramientas basadas en la web disponibles para revisar los reconocimientos de expresiones. Estas herramientas permiten ajustar la gramática y recopilar enunciados para el entrenamiento de modelos.

En conjunto, esto permite que su aplicación Voice Picking aprenda y mejore continuamente.

Nuestras API están disponibles en la nube, pero también se pueden alojar en Edge (in situ), lo que puede aumentar la confiabilidad y reducir las latencias, que ya son bajas.

Si quieres probar nuestra API y ver cómo encajarían en tus aplicaciones de almacén, puedes empezar con la aplicación web de ejemplo completamente funcional que hemos puesto a disposición en github: platforma/examples/comandos-gramática-aplicación web en master · voicegain/platform (github.com)

Si tiene alguna pregunta, envíenos un correo electrónico a Correo electrónico: info@voicegain.ai. También puedes registrarte para obtener una cuenta gratuita en la plataforma Voicegain a través de nuestra consola web en: https://console.voicegain.ai/signup

Análisis de voz

La redacción de texto y audio de PII ahora está disponible en la API Speech Analytics

Jacek Jarmulak

•

min read

•

February 21, 2021

Nuestra última versión (1.24.0) amplía la API de transcripción y análisis de voz de Voicegain con la capacidad de redactar datos confidenciales tanto en la transcripción como en el audio. Esto permite a nuestros clientes cumplir con estándares como la HIPAA, GDPR, CCPA, PCI o PIPEDA.

Cualquiera de los siguientes tipos de entidades nombradas se puede redactar en el texto de la transcripción y/o en el archivo de audio.

DIRECCIÓN: dirección postal.
CARDINAL: Números que no pertenecen a otro tipo.
CC - Tarjeta de crédito
FECHA: fechas o períodos absolutos o relativos.
CORREO ELECTRÓNICO - (próximamente) Dirección de correo electrónico
EVENTO: huracanes, batallas, guerras, eventos deportivos, etc. nombrados.
FAC - Edificios, aeropuertos, autopistas, puentes, etc.
GPE: países, ciudades, estados.
NORP: Nacionalidades o grupos religiosos o políticos.
DINERO: valores monetarios, incluida la unidad.
ORDINAL: «primero», «segundo», etc.
ORG - Empresas, agencias, instituciones, etc.
PORCENTAJE: porcentaje, incluido el «%».
PERSONA: personas, incluso ficticias.
TELÉFONO: (próximamente) Número de teléfono.
CANTIDAD: medidas, como el peso o la distancia.
SSN: número de seguro social
HORA: documentos nombrados convertidos en leyes.
ZIP: (próximamente) Código postal (si no forma parte de una dirección)

En el audio se sustituyen por silencio y en la transcripción se sustituyen por una cadena especificada al realizar la solicitud a la API.

Esta función es compatible tanto en la nube como en Edge (local).

Dos casos de uso típicos son:

Habilite la redacción como parte del procesamiento normal, por ejemplo, de las llamadas al centro de llamadas
Realice un procesamiento masivo del audio almacenado que anteriormente no se había procesado correctamente para lograr el cumplimiento. En combinación con el bajo precio por minuto de las API de Voicegain, esto permite a nuestros clientes procesar datos de audio de gran calidad de forma rentable.

Idiomas

Voicegain ofrece conversión de voz a texto en español

Jacek Jarmulak

•

min read

•

February 21, 2021

La semana pasada anunciamos que la función de conversión de voz a texto en español estaría disponible en Voicegain en marzo. Hoy nos complace anunciar que hemos podido completar el entrenamiento del modelo de redes neuronales en español antes de lo esperado y que la conversión de voz a texto en español se publicó el sábado pasado (20 de febrero) como parte de nuestra versión 1.24.0.

Hemos podido completar el trabajo en el modelo español de principio a fin en exactamente 3 semanas; empezamos a trabajar en él el 3 de febrero. Este progreso tan rápido ha sido posible gracias a nuestra amplia experiencia en la personalización de modelos de redes neuronales para el reconocimiento de voz y al hecho de que hemos desarrollado herramientas avanzadas y técnicas comprobadas que agilizan el desarrollo y el entrenamiento de los modelos de voz a texto.

La precisión del reconocimiento del modelo depende del tipo de audio de voz. En la mayoría de los archivos de referencia, la precisión de nuestro modelo español es solo un porcentaje inferior a la de los reconocedores de Google o Amazon. La ventaja de nuestro reconocedor es su precio significativamente más bajo y la posibilidad de entrenar modelos acústicos personalizados. Los modelos personalizados pueden tener una precisión superior a la de Amazon o Google. Le recomendamos que utilice nuestra consola web o nuestra API para probar el rendimiento real con sus propios datos. Por cierto, estamos enfocando este modelo de conversión de voz a texto en el español latinoamericano.

Por supuesto, la plataforma Voicegain también ofrece otras ventajas, como la compatibilidad con despliegues Edge (locales) y una amplia API con muchas opciones para la integración inmediata en, por ejemplo, entornos de telefonía.

Actualmente, la API Speech-to-Text es totalmente funcional con el modelo español. Algunas de las funciones de la API de análisis de voz aún no están disponibles para el español, por ejemplo, el reconocimiento de entidades nombradas o la detección de sentimentos/estados de ánimo.

Inicialmente, el modelo español solo está disponible en la versión que admite la transcripción fuera de línea. La versión en tiempo real del modelo estará disponible en un futuro próximo,

Para decirle a la API que quieres usar el modelo acústico español, todo lo que tienes que hacer es elegirlo en la configuración de contexto. Los modelos españoles tienen «es» en el nombre, por ejemplo, Voicegain-ol-es:1

Telefonía

Característica única: soporte de transmisión RTP

Jacek Jarmulak

•

min read

•

June 27, 2021

La plataforma de conversión de voz a texto Voicegain ha admitido la transmisión RTP desde el principio. Una de nuestras primeras aplicaciones, hace varios años, fue la transcripción en directo con la utilidad ffmpeg, que se utilizaba para capturar audio de un dispositivo y transmitirlo a la plataforma Voicegain mediante RTP. Con el tiempo, añadimos protocolos más robustos y el RTP se utilizaba muy poco. Sin embargo, recientemente, en una de nuestras implementaciones, nos topamos con un caso práctico en el que la transmisión por RTP permitía a nuestro cliente realizar la integración de una manera muy sencilla dentro de una pila de telefonía de un centro de llamadas.

La plataforma Voicegain admite protocolos de transmisión más avanzados para uso en centros de llamadas, como SIPREC o SIP/RTP (SIP Invite). Sin embargo, en este uso en particular, pudimos transmitir desde Cisco CUBE directamente a Voicegain mediante un RTP simple. Al recibir una llamada entrante, se activa un script que usa HTTP para establecer una nueva sesión de transcripción de Voicegain. En la respuesta de la sesión, se devuelven los parámetros ip:port del receptor RTP específicos de la sesión y se pasan al CUBE para establecer una conexión RTP directa.

El RTP utilizado de esta manera no proporciona autenticación ni seguridad, lo que lo haría generalmente inadecuado para su uso a través de Internet. Sin embargo, en este caso de uso concreto, nuestro cliente se beneficia del hecho de que todo el conjunto de Voicegain se puede implementar localmente. Al estar en la misma red aislada que el CUBE, no hay problemas de seguridad ni de pérdida de paquetes.

Un ejemplo

Puedes visitar nuestro github para ver un ejemplo de código python que muestra cómo establecer la sesión de voz a texto, cómo dirigir el remitente del RTP al punto final del receptor y cómo recibir el resultado de la transcripción en tiempo real a través de un websocket.

El comando para establecer la sesión es tan simple como esto:

‍

La sección de audio define la parte de transmisión de RTP y la sección websocket define cómo se enviarán los resultados a través de un websocket.

La respuesta tiene este aspecto:

‍

En el ejemplo de github stream.ip y stream.port se pasan a ffmpeg, que se utiliza como cliente de streaming RTP. El ejemplo ilustra con más detalle cómo procesar los mensajes con resultados de transcripción incrementales enviados en tiempo real a través del websocket.

Análisis de voz

La API de análisis de voz de Voicegain está disponible de forma general

Jacek Jarmulak

•

min read

•

January 20, 2021

Voicegain ha lanzado su API Speech Analytics (SA) que admite una variedad de tareas de análisis realizadas en el audio o la transcripción de ese audio. Las funciones compatibles con la API de Voicegain SA se eligieron para nuestro caso de uso principal, que es el procesamiento de las llamadas al centro de llamadas.

Cosas que Speech Analytics puede hacer ahora (a partir de la versión 1.22.0)

La versión actual admite desconectado Análisis de voz. Los datos que se pueden obtener a través de la API de análisis de voz se enumeran a continuación.

Tenga en cuenta que aquí no incluimos elementos que también se puedan obtener de nuestra API de transcripción, como: la transcripción, los valores de decibelios, las zonas de audio, etc. Sin embargo, se podrá acceder a ellos desde la respuesta de la API de Speech Analytics.

Análisis por canal:

género - género probable del hablante según las características de la voz. Actualmente es «masculino» o «femenino».
emoción - Tanto los totales de toda la llamada como una lista de valores calculados en varios lugares de la transcripción. Cada elemento contendrá valores de: (1) sentimiento - de -1,0 (enfadado/enfadado) a +1,0 (feliz/satisfecho) (2) estado animico - un mapa con valores estimados (rango de 0.0 a 1.0) para los siguientes estados de ánimo: «neutral» «tranquilo» «feliz» «triste» «enojado» «temeroso» «disgusto» «sorprendido» (3) ubicación: inicio y final en milisegundos e índice de la palabra
Entidades nombradas reconocido en la llamada. Será una lista con el tipo de entidad y la ubicación de la llamada. Los valores NER admitidos son: CARDINAL: números que no pertenecen a otro tipo.Fecha: fechas o períodos absolutos o relacionados.Evento: huracanes, batallas, guerras, eventos deportivos, etc.FAC: edificios, aeropuertos, autopistas, puentes, etc.GPE: países, ciudades, estados.NORP: nacionalidades o grupos religiosos o políticos.Dinero: valores monetarios, incluida la unidad.Ordinal: «primero», «segundo», etc. .org - Empresas, agencias, instituciones, etc. Porcentaje: porcentaje, incluido el «%» .PERSONA: personas, incluidas las ficticias. Cantidad: medidas, según el peso o Distance.time: documentos nombrados convertidos en leyes.
palabras clave - lista de palabras clave o grupos de palabras clave reconocidos en la llamada. Las palabras clave que se deben reconocer se pueden configurar fácilmente a partir de ejemplos.
blasfemia - se trata esencialmente de un grupo de palabras clave predefinido
habla métricas: cosas como la racha de conversación máxima y media, la velocidad de conversación, la energía
exagerar métricas: la exageración ocurre si el hablante comienza a hablar mientras el otro ya está hablando.

Análisis global:

silenciar métricas: se definen como el tiempo en el que ninguno de los canales habla. Nota: Se supone que solo el agente tiene el control del tiempo de uso de la palabra. Esto es una simplificación, pero es difícil determinar si el silencio fue causado por la persona que llamó y fue inevitable.
nube de palabras frecuencias: datos de nube de palabras inteligentes en los que se eliminan las palabras de parada y se eliminan las variaciones de las palabras antes de calcular las frecuencias

Las funciones de Speech Analytics estarán disponibles próximamente

En tiempo real Speech Analytics estará disponible en un futuro próximo. Pronto también planeamos lanzar la compatibilidad con tarjetas de puntuación para Speech Analytics.

Próximamente se publicarán análisis por canal:

Dos entidades nombradas adicionales: CC - Tarjeta de crédito,SSN - Número de seguro social
edad - edad estimada del hablante en función de las características de la voz. Tres valores posibles: «joven-adulto», «senior», «desconocido»
frases - lista de frases o grupos de frases reconocidos en la llamada. Estos se identifican mediante algoritmos de NLU, básicamente los mismos que se utilizan para identificar la NLU intentos. Las frases que se van a reconocer se pueden configurar a partir de ejemplos.
lanzamiento las estadísticas se añadirán a habla métricas

Además, pronto apoyaremos Redacción de PII de cualquier entidad nombrada a partir de la transcripción o el audio.

Tipos de audio compatibles

La API Speech Analytics admite los siguientes tipos de entrada de audio:

2 canales audio (estéreo) como el que se encuentra normalmente en los centros de llamadas donde la voz de la persona que llama se graba en un canal y la voz del agente se graba en el otro canal. Algunas métricas, como la sobreconversación, por ejemplo, solo se pueden calcular si el audio de entrada es de este tipo.
1 canal audio con dos altavoces: para este tipo de audio diarización se realizará para separar los dos altavoces. El análisis por canal se realizará después de la diarización. Las métricas de Overtalk no están disponibles para este caso de uso.

Puedes ver la especificación de la API aquí.

‍

ASR

Combinación del reconocimiento de voz basado en gramática y vocabulario extenso

Jacek Jarmulak

•

min read

•

January 19, 2021

En esta entrada del blog, presentamos una característica única de la plataforma de conversión de voz a texto Voicegain que combina de manera eficiente el uso de gramáticas con el uso de modelos de vocabulario extensos para brindar a los desarrolladores la capacidad de lograr una alta precisión de reconocimiento de una manera muy eficiente y conveniente.

Dos tipos de reconocimiento de voz

Los sistemas de reconocimiento de voz (ASR) generalmente se pueden dividir en dos tipos:

Amplio vocabulario y reconocimiento continuo de voz

Este tipo de reconocedor se usa generalmente para la transcripción cuando el vocabulario es muy amplio y la duración del audio de la voz es ilimitada (excepto por motivos prácticos, por ejemplo, límite relacionado con los recursos). A continuación se muestran los componentes típicos y los pasos de procesamiento de un sistema de este tipo:

‍

‍

El funcionamiento de un sistema de este tipo es el siguiente: (s) La señal de audio se procesa en características. (b) Las funciones se introducen en un procesador de modelo acústico. El procesador convierte los datos del ámbito acústico a texto/lingüístico o a algún otro ámbito intermedio (por ejemplo, incrustaciones de audio). Los valores de salida pueden ser fonemas, letras, fragmentos de palabras, incrustaciones de audio, etc., presentados como vectores de probabilidades. (c) Estos vectores se pasan luego al componente de búsqueda/optimización. La búsqueda utiliza el modelo lingüístico para decidir qué hipótesis formadas a partir del resultado de la etapa anterior tienen más probabilidades de ser la interpretación textual correcta del audio del discurso de entrada.

Los modelos lingüísticos utilizados pueden adoptar diversas formas. Dos de las muchas manifestaciones posibles son: (a) los modelos lingüísticos ARPA, que se basan en n gramas, y (b) los modelos lingüísticos de redes neuronales en los que una red neuronal (por ejemplo, RNN) es entrenada para representar un modelo lingüístico. Algunos de los modelos lingüísticos también pueden incorporar una parte descodificadora si la salida del modelo acústico está codificada (por ejemplo, si se representa mediante incrustaciones acústicas).

Debido a que el vocabulario de este tipo de reconocedores es amplio, son propensos a errores de reconocimiento. Este es particularmente el caso de los enunciados cortos que no proporcionan mucho contexto al modelo lingüístico como para restringir suficientemente las hipótesis. Un ejemplo sería reconocer erróneamente «tarjeta» como «coche» si esa es la única palabra que se dice y el hablante tiene un acento específico.

Las ofertas de conversión de voz a texto en la nube de los proveedores de Big Cloud (Google, Amazon y Microsoft) son ejemplos de ASR de vocabulario amplio.

Reconocimiento de voz basado en gramática

En un sistema de este tipo, el desarrollador de Voice Bot/IVR utiliza una gramática libre de contexto para definir un conjunto de posibles expresiones que pueden reconocerse. Por lo general, las gramáticas se definen utilizando el estándar SRGS (especificación gramatical de reconocimiento de voz), ya sea en gramática ABNF o GRXML. Otros tipos de gramáticas que se utilizan son JSGF (formato gramatical de JSpeech) y GSL (que es el lenguaje de especificación gramatical de Nuance).

Los componentes y los pasos de procesamiento de un sistema de reconocimiento de voz típico que usa tales gramáticas se ilustran a continuación:

‍

‍

En este sistema, la evaluación de los resultados del procesamiento del modelo acústico se realiza mediante un optimizador de búsqueda/optimización que utiliza las reglas contenidas en la gramática para decidir qué hipótesis son aceptables. Solo se pueden generar los enunciados que se pueden generar a partir de la gramática.

Si se pronuncia una expresión fuera de la gramática y se presenta al reconocedor, es posible que aún se reconozca, pero con poca confianza. Si la confianza está por debajo de un umbral establecido, se devolverá un NOMATCH.

La desventaja obvia de usar un reconocedor de este tipo es que no reconocerá expresiones fuera del alcance de la gramática. Estas expresiones se denominan expresiones fuera de gramática. Sin embargo, una gran ventaja de este enfoque es que es menos propenso a ser reconocido erróneamente cuando una expresión que ya se ha dicho se ha anticipado y se incluye en la gramática.

Una ventaja adicional de usar un reconocedor basado en la gramática es que la mayoría de las gramáticas permiten la inserción de etiquetas semánticas, que permiten a la gramática no solo definir un enunciado, sino también la interpretación semántica de ese enunciado.

Ejemplos de este tipo de sistema de reconocimiento de voz basado en la gramática serían las ofertas de conversión de voz a texto, como Nuance ASR o Lumenvox ASR.

Combinación del reconocimiento gramatical y de vocabulario extenso

Es evidente que ambos tipos de sistemas de reconocimiento de voz tienen ventajas y desventajas. Por lo tanto, parece comprensible que una combinación de ambos pueda tener las ventajas de ambos y, al mismo tiempo, evitar algunos inconvenientes.

Enfoque utilizando una combinación de ASR existentes

Un enfoque simple sería combinar dos sistemas de reconocimiento de voz diferentes. Sería necesario crear dos sesiones de reconocimiento de voz y dividir la transmisión de audio entrante para que cada sesión reciba una copia del audio entrante. Esas dos sesiones procesarían el audio por separado y generarían resultados separados que luego tendrían que combinarse. Esto se ilustra a continuación:

‍

Desventajas de usar dos sesiones de ASR

La configuración presentada anteriormente tiene varias desventajas:

Introduce complejidad en la transmisión del audio al reconocedor. Es necesario agregar un componente similar a un proxy adicional que divida la transmisión de audio y la envíe a dos sistemas ASR independientes.
La combinación de los resultados también requiere un nuevo componente independiente. Esto no es necesariamente trivial, ya que los dos sistemas ASR desconectados tienen diferentes puntos finales, lo que significa que los resultados llegarán en momentos diferentes.
Se necesitarán recursos informáticos adicionales para permitir la ejecución de dos sistemas ASR independientes en lugar de solo uno.
Otra desventaja es tener que pague el doble de la tarifa de licencia ya que cada ASR tendrá que tener una licencia de sesión independiente.

Enfoque de ganancia de voz

La plataforma Voicegain proporciona un sistema de reconocimiento de voz que combina ambos tipos de reconocimiento de voz para aprovechar las ventajas de ambos. Nuestro sistema se ilustra en la siguiente figura:

‍

‍

En este sistema, el procesamiento hasta la salida del procesamiento del modelo acústico es esencialmente idéntico al procesamiento realizado en los sistemas representados en las dos primeras figuras de esta publicación. Sin embargo, tras este paso, Voicegain incluye un novedoso módulo de búsqueda/optimización que utiliza tanto la gramática como el modelo lingüístico de vocabulario extenso para generar los resultados finales del reconocimiento. La señalización final se realiza de manera similar a la de un reconocedor basado en gramática, ya que parece tener más sentido dado el caso de uso (pero esto se puede modificar). El resultado final del reconocimiento constará de los n mejores resultados del reconocimiento basado en la gramática, si la gramática coincidió, y una o más hipótesis del reconocimiento de vocabulario extenso.

El desarrollador de la aplicación puede tomar sus propias decisiones sobre cómo usar el resultado del reconocimiento. Por ejemplo, el valor de confianza se puede usar para determinar si el resultado basado en la gramática o el resultado del vocabulario extenso se debe usar en un punto determinado de la aplicación.

Con la versión 1.22.0 de Voicegain, esta función está disponible de forma general como parte de nuestra API de reconocimiento.

Un ejemplo de solicitud con nuestra API /asr/recognize/async tiene este aspecto:

Como puede ver, solo hay una definición para la transmisión de audio entrante. La sección de gramática de settings.asr contiene dos definiciones gramaticales:

una es una gramática JSGF estándar con semántica de formato de etiqueta literal,
el otro no es en realidad una gramática sino un comando para activar la transcripción de vocabulario grande para esta sesión {type:Built-in, name:transcribe}

‍

Caso de uso de MRCP

Además de estar disponible en nuestras API STT y Telephone Bot, la interfaz MRCP admite el reconocimiento de vocabulario extenso y basado en gramática al mismo tiempo. Por ejemplo, desde VXML puedes pasar tanto la gramática GRXML como la gramática builtin:speech/transcribe y recibirás tanto el resultado de GRXML como el de vocabulario extenso.

Si está creando un asistente de voz inteligente, un bot de voz, una aplicación de voz IVR o cualquier otra aplicación que pueda beneficiarse de esta función, contacta con nosotros vía (correo electrónico) info@voicegain.ai) para entablar un debate más profundo.

‍