Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
ASR personalizado con entrenamiento en modelos acústicos: dos casos prácticos
Entrenamiento modelo
ASR personalizado con entrenamiento en modelos acústicos: dos casos prácticos

Actualizado el 28 de febrero de 2022

En esta entrada de blog, describimos dos estudios de casos para ilustrar las mejoras en la precisión del reconocimiento de voz a texto o ASR que se pueden esperar del entrenamiento de los modelos acústicos subyacentes. Entrenamos nuestro modelo acústico para que reconociera mejor el inglés indio e irlandés.

Configuración del estudio de caso

El modelo acústico Voicegain listo para usar, que está disponible de forma predeterminada en la plataforma Voicegain, fue entrenado para reconocer principalmente el inglés estadounidense, aunque nuestro conjunto de datos de entrenamiento contenía algo de audio en inglés británico. Los datos de entrenamiento no contenían el inglés indio ni el irlandés, excepto quizás en casos fortuitos.

Ambos estudios de caso se realizaron de manera idéntica:

  • Los datos de entrenamiento contenían aproximadamente 300 horas de audio de voz transcrito.
  • La capacitación se realizó para mejorar la precisión en el nuevo tipo de datos, pero al mismo tiempo para mantener la precisión de referencia. Una alternativa habría consistido en tratar de mejorar al máximo los nuevos datos a expensas de la precisión del modelo de referencia.
  • La capacitación se interrumpió después de lograr una mejora significativa. Se podría haber seguido logrando una mejora adicional, aunque podría haber sido marginal.
  • Los puntos de referencia que se presentan aquí se realizaron con datos que no se incluyeron en el conjunto de capacitación.

Estudio de caso 1: inglés indio

Estos son los parámetros de este estudio.

  • Teníamos 250 horas de audio con oradores masculinos y femeninos, y cada orador leía unos 50 minutos de audio de voz.
  • Separamos 6 altavoces para el punto de referencia, seleccionando 3 muestras masculinas y 3 femeninas. Las muestras se seleccionaron para incluir casos de prueba fáciles, medios y difíciles.

Estos son los resultados del punto de referencia antes y después del entrenamiento. A modo de comparación, también incluimos los resultados de Google Enhanced Speech-to-Text.

Algunas observaciones:

  • Los 6 altavoces de prueba muestran una mejora significativa con respecto a la precisión original.
  • Después del entrenamiento, la precisión de 5 altavoces es mejor que la de Google Enhanced Speech-to-Text. El único orador que quedaba mejoró considerablemente (del 62% al 76%), pero la precisión siguió sin ser tan buena como la de Google. Examinamos el audio y resulta que no se grabó correctamente. El altavoz hablaba en voz muy baja y la ganancia del micrófono era muy alta, por lo que el audio contenía muchos artefactos extraños, como, por ejemplo, un chasquido con la lengua. El orador también preparaba el texto de una manera «mecánica» muy poco natural. Felicitaciones a Google por hacerlo tan bien en una grabación tan mala.
  • De media, la conversión de voz a texto Voicegain con formación personalizada obtuvo una mejora de aproximadamente un 2% en nuestra referencia de inglés indio en comparación con el reconocedor mejorado de Google.

Estudio de caso 2: inglés irlandés

Estos son los parámetros de este estudio.

  • Recopilamos alrededor de 350 horas de audio de voz transcrito de un orador de Irlanda del Norte.
  • Para el punto de referencia, conservamos parte del audio de ese altavoz que no se usó para el entrenamiento y, además, encontramos el audio de otros 5 altavoces con varios tipos de acentos en inglés irlandés.

Estos son los resultados del punto de referencia antes y después del entrenamiento. También incluimos los resultados de Google Enhanced Speech-to-Text.


Algunas observaciones:

  • El altavoz que se usó para el entrenamiento está etiquetado aquí como «Legge». Tras el entrenamiento, observamos una enorme mejora, pasando del 76,2% al 88,5%, una cifra muy superior a la de Google Enhanced, con un 83,9%
  • El otro orador con una mejora de más del 10% es «Lucas», que tiene un acento muy similar al de «Legge».
  • Analizamos en detalle el audio del altavoz con la etiqueta «Cairns» que menos había mejorado y para el que Google era mejor que nuestro reconocedor personalizado. El audio tiene una calidad significativamente inferior a la de las demás muestras, además de que contiene un eco notable. Sus características de audio son bastante diferentes de las características de audio de los datos de entrenamiento utilizados.
  • De media, la conversión de voz a texto de Voicegain con formación personalizada obtuvo una mejora de aproximadamente un 1% en nuestro punto de referencia en inglés irlandés en comparación con el reconocedor mejorado de Google.

Observaciones adicionales

  • La cantidad de datos utilizada en el entrenamiento de 250 a 350 horas no fue grande, dado que normalmente los modelos acústicos para el reconocimiento de voz se entrenan con decenas de miles de horas de audio.
  • La gran mejora con respecto al altavoz «Legge» sugiere que si el objetivo es mejorar el reconocimiento de un tipo de voz o altavoz muy específico, el tiempo de entrenamiento podría ser menor, tal vez de 50 a 100 horas, para lograr una mejora significativa.
  • Es posible que se necesite un conjunto de entrenamiento más grande (500 horas o más) en los casos en que la variabilidad del habla y otras características de audio sea grande.

ACTUALIZACIÓN: febrero de 2022

Hemos publicado 2 estudios adicionales que muestran los beneficios del entrenamiento con modelos acústicos:

¿Te interesa Voicegain? ¡Llévanos a hacer una prueba de manejo!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Amplia transcripción de vocabulario para desarrolladores de Twilio
CPaaS
Amplia transcripción de vocabulario para desarrolladores de Twilio

En nuestro post anterior describimos cómo Voicegain proporciona un reconocimiento de voz basado en la gramática a la plataforma de voz programable Twilio a través del Transmisión multimedia de Twilio Característica.

A partir de versión 1.16.0 <Gather>de la plataforma y API Voicegain, es posible usar Voicegain de voz a texto para la transcripción de voz (sin gramáticas) para lograr funciones como el uso de TWiML.

Las razones por las que creemos que será atractivo para los usuarios de Twilio son:

  • menor costo por cada captura de voz a texto
  • mayor precisión para los clientes que eligen Personalización del modelo acústico
  • acceso a todas las hipótesis de conversión de voz a texto en el modo de salida de árbol de palabras

El uso de Voicegain como alternativa a <Gather>tendrá pasos similares a los de usar Voicegain para el reconocimiento basado en la gramática; estos pasos se enumeran a continuación.

Inicio de la transcripción de voz con Voicegain

Esto se hace invocando la API de transcripción asíncrona de Voicegain: /asr/transcribir/asincrónico

A continuación se muestra un ejemplo de la carga útil necesaria para iniciar una nueva sesión de transcripción:


Algunas notas sobre el contenido de la solicitud:

  • solicitamos la devolución de llamada para devolver la transcripción en forma de texto; son posibles otras opciones, como palabras (palabras individuales con confidencias) y árbol de palabras (palabras organizadas en un árbol de hipótesis de reconocimiento)
  • startInputTimers le dice a ASR que retrase el inicio de los temporizadores; se iniciarán más tarde cuando termine de reproducirse la línea de preguntas
  • TWIML está configurado como protocolo de transmisión con el formato establecido en PCMU (u-law) y una frecuencia de muestreo de 8 kHz
  • La configuración de asr incluye los dos tiempos de espera utilizados en la transcripción: sin entrada y tiempos de espera completos.

Esta solicitud, si se realiza correctamente, devolverá la URL del websocket en el campo audio.stream.websocketURL. Este valor se utilizará para realizar una solicitud de TWiML.

Tenga en cuenta que, en el modo de transcripción, la detección de DTMF no es posible actualmente. Háganos saber si esto es algo que sería fundamental para su caso de uso.

<Connect><Stream>Solicitud TWiML

Tras iniciar una sesión de Voicegain ASR, podemos decirle a Twilio que abra la conexión de Media Streams con Voicegain. Esto se hace mediante la siguiente solicitud de TWiML:



Algunas notas sobre el contenido de la solicitud de TWiML:

  • la URL de websocket es la que devuelve Voicegain /asr/transcribe/async request
  • se admite más de un mensaje de pregunta: se reproducirán uno tras otro
  • Se admiten tres tipos de mensajes: 01) grabación recuperada de una URL, 02) mensaje TTS (hay varias voces disponibles), 03) mensaje «clip:» generado mediante el Voicegain Prompt Manager, que admite la concatenación dinámica de mensajes pregrabados
  • BargeIn está activado: la reproducción inmediata se detendrá tan pronto como la persona que llama comience a hablar

Respuesta de transcripción devuelta

A continuación se muestra un ejemplo de respuesta de la transcripción en el caso de que «content»: {"full»: ["transcript"]}.



Read more → 
Ejemplo de transcripción en vivo
Casos de uso
Ejemplo de transcripción en vivo

Queremos compartir un breve vídeo que muestra la transcripción en directo en acción en CBC. Este utiliza nuestro modelo acústico de referencia. No se realizó ninguna personalización ni se utilizaron sugerencias. Este vídeo da una idea de la latencia que se puede lograr con la transcripción en tiempo real.


La transcripción automatizada en tiempo real es una excelente solución para personas con problemas de audición si no hay un intérprete de lenguaje de señas disponible. Se puede usar, por ejemplo, en iglesias para transcribir sermones, en convenciones y reuniones para transcribir charlas, en instituciones educativas (escuelas, universidades) para transcribir lecciones y conferencias en vivo, etc.

La plataforma Voicegain ofrece un paquete completo para admitir la transcripción en vivo:

  • Utilidad para la captura de audio en la fuente
  • API y motor de transcripción basados en la nube o locales
  • Portal web para controlar múltiples transcripciones simultáneas en directo
  • Aplicación de visualización basada en la web para permitir el seguimiento de la transcripción en cualquier dispositivo con navegador web. Esta aplicación también se puede incrustar en cualquier página web.

Se puede lograr una precisión muy alta, superior a la proporcionada por Google, Amazon y Microsoft Cloud de voz a texto, mediante Personalización del modelo acústico.

Read more → 
Cómo usar Voicegain con Twilio Media Streams
CPaaS
Cómo usar Voicegain con Twilio Media Streams

Voicegain añade el reconocimiento de voz basado en la gramática a la plataforma de voz programable Twilio a través del Transmisión multimedia de Twilio Característica.

La diferencia entre el reconocimiento de voz Voicegain y Twilio Twiml <Gather> es:

  1. Voicegain admite gramáticas con etiquetas semánticas (GRXML o JSGF) while <Gather>es un gran reconocedor de vocabulario que solo devuelve texto, y
  2. Voicegain es significativamente más barato (describiremos la diferencia de precio en una próxima entrada del blog).

Cuando utilices Voicegain con Twilio, la lógica de tu aplicación tendrá que gestionar las solicitudes de devolución de llamadas tanto de Twilio como de Voicegain.

Cada reconocimiento implicará dos pasos principales que se describen a continuación:

Inicio del reconocimiento de voz con Voicegain

Esto se hace invocando la API de reconocimiento asíncrono de Voicegain: /asr/recognize/async

A continuación se muestra un ejemplo de la carga útil necesaria para iniciar una nueva sesión de reconocimiento:

Algunas notas sobre el contenido de la solicitud:

  • startInputTimers le dice a ASR que retrase el inicio de los temporizadores; se iniciarán más tarde cuando termine de reproducirse la línea de preguntas
  • TWIML está configurado como protocolo de transmisión con el formato establecido en PCMU (u-law) y una frecuencia de muestreo de 8 kHz
  • La configuración asr incluye los tres tiempos de espera estándar utilizado en el reconocimiento basado en la gramática: tiempos de espera sin entrada, completos e incompletos
  • la gramática se establece en la gramática GRXML cargada desde una URL externa

Esta solicitud, si se realiza correctamente, devolverá la URL del websocket en el campo audio.stream.websocketURL. Este valor se utilizará para realizar una solicitud de TWiML.

Tenga en cuenta que si la gramática se especifica para reconocer el DTMF, el reconocedor Voicegain reconocerá las señales DTMF incluidas en el audio enviado desde la plataforma Twilio.

<Connect><Stream>Solicitud TWiML

Tras iniciar una sesión de Voicegain ASR, podemos decirle a Twilio que abra la conexión de Media Streams con Voicegain. Esto se hace mediante la siguiente solicitud de TWiML:


Algunas notas sobre el contenido de la solicitud de TWiML:

  • la URL de websocket es la que devuelve la solicitud Voicegain /asr/recognize/async
  • se admite más de un mensaje de pregunta: se reproducirán uno tras otro
  • Se admiten tres tipos de mensajes: 01) grabación recuperada de una URL, 02) mensaje TTS (hay varias voces disponibles), 03) mensaje «clip:» generado mediante el Voicegain Prompt Manager, que admite la concatenación dinámica de mensajes pregrabados
  • BargeIn está activado: la reproducción inmediata se detendrá tan pronto como la persona que llama comience a hablar

Respuesta de reconocimiento devuelta

A continuación se muestra un ejemplo de respuesta del reconocimiento. Esta respuesta proviene de la gramática telefónica integrada.


Read more → 
Revisión del punto de referencia de precisión de voz a texto
Punto de referencia
Revisión del punto de referencia de precisión de voz a texto

Algunos de los comentarios que recibimos sobre los datos de referencia publicados anteriormente, consulte aquí y aquí, se refería al hecho de que el Conjunto de datos de Jason Kincaid contenía algo de audio que producía un WER terrible en todos los reconocedores y, en la práctica, nadie utilizaría el reconocimiento de voz automático en esos archivos. Eso es cierto. En nuestra opinión, hay muy pocos casos de uso en los que un WER inferior al 20%, es decir, en los que una media de 1 de cada 5 palabras se reconoce incorrectamente, sea aceptable.

Nueva metodología

Lo que hemos hecho para esta entrada de blog es eliminar del conjunto denunciado aquellos archivos de referencia para los que ninguno de los reconocedores probados podía ofrecer un WER del 20% o menos. Como resultado de este criterio, se eliminaron 10 archivos: 9 del conjunto de 44 de Jason Kincaid y 1 archivo del conjunto de 20 de rev.ai. Los archivos eliminados se dividen en 3 categorías:

  • grabaciones de reuniones: 4 archivos (esto equivale a la mitad de las grabaciones de reuniones del conjunto original),
  • conversaciones telefónicas: 4 archivos (4 de las 11 conversaciones telefónicas del conjunto original),
  • podcasts con varios presentadores y muy animados: 2 archivos (había muchos otros podcasts en el set que sí alcanzaron el límite).

Los resultados

Como puede ver, los reconocedores de Voicegain y Amazon coinciden de manera muy uniforme, con un WER promedio que difiere solo en un 0,02%, lo mismo ocurre con los reconocedores de Google Enhanced y Microsoft, con una diferencia de WER de solo el 0,04%. El WER de Google Standard es aproximadamente el doble que el de los demás reconocedores.

Read more → 
Punto de referencia de precisión de voz a texto: septiembre de 2020
Punto de referencia
Punto de referencia de precisión de voz a texto: septiembre de 2020

[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced. Nuestro precio es ahora de 0,95 céntimos por minuto]


[ACTUALIZAR: Para los resultados notificados utilizando una metodología ligeramente diferente vea nuestra nueva entrada de blog.]


Se trata de una continuación del entrada de blog de junio donde informamos de los resultados anteriores de precisión de voz a texto. Te animamos a que lo leas primero, ya que establece un contexto para entender mejor la importancia de la evaluación comparativa de la conversión de voz a texto.

Además de esa introducción de fondo, las diferencias clave con respecto a la publicación anterior son:

  • Hemos mejorado nuestro reconocedor y ahora estamos básicamente vinculados con Amazon.
  • Añadimos otro conjunto de archivos de referencia: 20 archivos publicado por rev.ai. Consulte los datos enlazados aquí al intentar reproducir este punto de referencia.

Estos son los resultados.


Comparación con el índice de referencia de junio en 44 archivos.


Han pasado menos de 3 meses desde la prueba anterior, por lo que no es sorprendente no ver ninguna mejora en los reconocedores de Google y Amazon.


El reconocedor Voicegain ha superado a Amazon por un pelo en cuanto a precisión media, aunque la precisión media de Amazon en este conjunto de datos es ligeramente superior a Voicegain.


El reconocedor de Microsoft ha mejorado durante este período: en los 44 archivos de referencia, ahora es, de media, mejor que Google Enhanced (en el gráfico, conservamos los pedidos de la prueba de junio). El único valor atípico negativo en los resultados de Google Enhanced no explica por sí solo el mejor promedio de WER de Microsoft en este conjunto de datos.


Google Standard sigue siendo muy malo y es probable que dejemos de informar sobre él en detalle en nuestras futuras comparaciones.


Resultados del análisis comparativo en 20 archivos nuevos.

El audio del archivo 20 rev.ai la prueba no es tan difícil como algunos de los archivos del conjunto de referencia de 44 archivos. En consecuencia, los resultados son, en promedio, mejores, pero la clasificación de los reconocedores no cambia.


Como puede ver en este gráfico, en este conjunto de datos, el reconocedor Voicegain es ligeramente mejor que el de Amazon. Tiene un WER más bajo en 13 de los 20 archivos de prueba y supera a Amazon en los valores medios y medianos. En este conjunto de datos, Google Enhanced supera a Microsoft.


Resultados combinados en 44+20 archivos

Finalmente, aquí están los resultados combinados de los 64 archivos de referencia que probamos.


En el índice de referencia combinado, Voicegain supera a Amazon tanto en promedio como en promedio de WER, aunque la ventaja media no es tan grande como en el conjunto rev.ai de 20 archivos. [Tenga en cuenta que, a partir del 2 de octubre de 2021, el WER de Voicegain es ahora 16,46|14,26]

Lo que nos gustaría señalar es que, al comparar Google Enhanced con Microsoft, uno gana si comparamos el WER promedio, mientras que el otro tiene un valor de WER mediano mejor. Esto pone de relieve que los resultados varían mucho según el archivo de audio específico que se esté comparando.


Conclusiones

Estos resultados muestran que la elección del mejor reconocedor para una aplicación determinada solo debe hacerse después de realizar pruebas exhaustivas. El rendimiento de los reconocedores varía mucho según los datos de audio y el entorno acústico. Además, los precios varían significativamente. Le animamos a que prueba Voicegain Speech-to-Text motor para su aplicación. Puede que sea más adecuado para su aplicación. Aunque la precisión esté un par de puntos por detrás de la de los dos mejores jugadores, tal vez quieras considerar Voicegain porque:

  • Nuestros modelos acústicos se pueden personalizar según el audio de su voz específico y esto puede reducir las tasas de error de palabras por debajo de las mejores opciones listas para usar. Consulte nuestra Precisión mejorada a partir de la entrada del blog Acoustic Model Training.
  • Si la diferencia de precisión es pequeña, Voicegain aún podría tener sentido dado el precio más bajo.
  • Estamos entrenando continuamente a nuestro reconocedor y solo es cuestión de tiempo que nos pongamos al día.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control