Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
SDK de Python disponible
Desarrolladores
SDK de Python disponible

A partir del 5 de agosto de 2020, la programación en Python con la API Voicegain Speech-to-Text (STT) se hizo aún más fácil con el lanzamiento de la versión oficial ganancia de voz - voz paquete a Repositorio del índice de paquetes de Python (PyPI).


El paquete SDK está disponible en: https://pypi.org/project/voicegain-speech/

El código fuente del SDK está disponible en: https://github.com/voicegain/python-sdk


Este paquete incluye la API web Voicegain Speech-to-Text. Puede encontrar una vista previa de las especificaciones de la API en: https://www.voicegain.ai/api

La documentación completa sobre las especificaciones de la API está disponible en: https://console.voicegain.ai/api-documentation


Las API principales son para conversión de voz a texto, ya sea para transcripción o reconocimiento (se describen con más detalle a continuación). Otras API disponibles incluyen:

  • Las API de devolución de llamadas de RTC que, además de la conversión de voz a texto, permiten el control de la sesión de RTC (por ejemplo, una llamada telefónica).
  • API de Websocket para administrar websockets de transmisión que se utilizan en la transcripción en tiempo real.
  • APIs de creación y manipulación de modelos de lenguaje.
  • API de carga de datos que ayudan en ciertos escenarios de uso de STT.
  • Conjunto de API de entrenamiento: para su uso en la preparación de datos para el entrenamiento de modelos acústicos.
  • API GREG: para trabajar con ASR y la herramienta de ajuste gramatical: GREG.

API de transcripción

/asr/transcribirLa API Transcribe le permite enviar audio y recibir el texto transcrito palabra por palabra desde el motor STT. Esta API utiliza nuestro modelo de lenguaje de vocabulario extenso y admite audio de formato largo en modo asíncrono.

La API se puede usar, por ejemplo, para transcribir datos de audio, ya sean podcasts, correos de voz, grabaciones de llamadas, etc. En el modo de transmisión en tiempo real, se puede usar, por ejemplo, para crear robots de voz (la aplicación tendrá que proporcionar capacidades de NLU para determinar la intención a partir del texto transcrito).

El resultado de la transcripción se puede devolver en cuatro formatos:

  • Transcripción - Contiene el texto completo de la transcripción
  • Palabras - Los resultados intermedios contendrán palabras nuevas, con tiempos y confidencias, con respecto al resultado intermedio anterior. El resultado final contendrá la transcripción completa.
  • Árbol de palabras - Contiene un árbol de todas las alternativas posibles. Utilícelo cuando realice la integración con el posprocesamiento de NL para determinar el enunciado final y su significado.
  • Subtítulos - Los resultados intermedios podrán usarse como subtítulos (esta función está en versión beta).

Reconocer la API

/asr/reconocerEsta API se debe utilizar si desea restringir los resultados del reconocimiento del STT a la gramática del habla que se envía junto con el audio (se utilizan gramáticas en lugar del modelo de lenguaje de vocabulario extenso).

Si bien tener que proporcionar gramáticas es un paso adicional (en comparación con la API de Transcribe), pueden simplificar el desarrollo de aplicaciones, ya que el significado semántico se puede extraer junto con el texto.

Otra ventaja del uso de la gramática es que pueden ignorar palabras del enunciado que están fuera de la gramática, lo que sigue ofreciendo reconocimiento, aunque con menor confianza.

Voicegain admite gramáticas en los formatos JSGF y GRXML, ambos estándares gramaticales utilizados por las empresas en los IVR desde principios de la década de 2000. La API de reconocimiento solo admite audio de formato corto, no más de 60 segundos.


Read more → 
Soporte CORS agregado en 1.9.0
Desarrolladores
Soporte CORS agregado en 1.9.0

Recientemente hemos agregado soporte para CORS (intercambio de recursos entre orígenes) en nuestras API. Esto fue en respuesta a la solicitud de nuestros clientes para poder crear aplicaciones web de conversión de voz a texto con un mínimo esfuerzo. Al realizar solicitudes de API web a la API de voz de Voicegain directamente desde sus clientes web, la aplicación puede resultar más sencilla y eficiente.

Algunos ejemplos de aplicaciones sencillas que nuestros clientes están implementando de esta manera son: la captura y transcripción de entradas de micrófono (por ejemplo, para capturar y transcribir notas de reuniones) o la transcripción de archivos de audio sin conexión.

Los usuarios tienen el control total, a través de la configuración de seguridad, sobre qué solicitudes de CORS se les debe permitir a Origins.

Read more → 
Ventaja competitiva de los modelos acústicos personalizados
Entrenamiento modelo
Ventaja competitiva de los modelos acústicos personalizados

No hay duda de que los conjuntos de datos que se utilizan para entrenar modelos de IA tienen mucho valor. Esa es una de las razones por las que Google ofrece su servicio de conversión de voz a texto a dos precios, uno con «registro de datos» y otro sin él, consulte la tabla siguiente.



Sin embargo, en Voicegain, nuestra plataforma de conversión de voz a texto no captura ni utiliza ningún dato de los clientes (sin dejar de ofrecer precios de ASR bajos).

Además, la plataforma Voicegain permite a nuestros clientes usar sus datos para entrenar sus propios modelos acústicos dedicados y personalizados. Como resultado, nuestros clientes se benefician de dos maneras:

  • La precisión de estos modelos acústicos personalizados es varios% mayor en comparación con nuestros modelos básicos.
  • Los modelos personalizados se licencian exclusivamente para los clientes y no se comparten con nadie (ni con Voicegain ni con ningún otro cliente de Voicegain), por lo que esta mayor precisión se traduce directamente en una ventaja competitiva.

Al conservar la propiedad de los datos y los modelos acústicos personalizados, nuestros clientes se benefician de una mayor precisión de ASR en general y de una mayor precisión que la de sus posibles competidores en particular.

Read more → 
¿Cómo la voz impulsada por la inteligencia artificial puede impulsar la primera línea de BPO del centro de contacto?
Perspectivas
¿Cómo la voz impulsada por la inteligencia artificial puede impulsar la primera línea de BPO del centro de contacto?

Los equipos de liderazgo sénior de la mayoría de los subcontratistas de centros de contacto globales están bajo presión constante. Necesitan centrarse como un láser en las métricas clave, los acuerdos de nivel de servicio y las personas necesarias para gestionar sus negocios. Administran cada vez más un negocio distribuido a nivel mundial que requiere mucha mano de obra y tecnología. Y tienen que hacer todo esto con márgenes cada vez más ajustados.

A pesar de que se mide según métricas como la CSAT y el NPS, gran parte del valor que un subcontratista ofrece a sus clientes suele ser difícil de cuantificar. Y, con demasiada frecuencia, el precio que obtiene el subcontratista no refleja el valor y la calidad que ofrece un subcontratista.

Dos ideas para convertirse en ofertas de SaaS de alto valor

En este artículo, me gustaría proponer dos nuevas ideas innovadoras que pueden ayudar a las BPO de los centros de contacto a convertirse en nuevos ingresos de SaaS (software como servicio).

  1. Servicio CX Speech Insights: Desarrolle un nuevo servicio de información sobre la experiencia del cliente en tiempo real de marca basado en el análisis de voz impulsado por el aprendizaje profundo.
  2. Servicio de automatización de voz CX: Cree nuevas aplicaciones de autoservicio de voz que puedan automatizar algunos de los escenarios comunes de atención al cliente.

Ambas ofertas se pueden ofrecer a los clientes mediante un modelo de negocio basado en software como servicio (SaaS) junto con la parte tradicional de agentes del negocio.


Ambas ofertas de SaaS aprovechan algunos de los puntos fuertes clave de las BPO: una profunda experiencia en el dominio, un conocimiento profundo de los problemas de los clientes y una infraestructura tecnológica que aprovecha ambos

1. Servicio CX Speech Insights

Los centros de contacto tienen un tesoro de datos de audio. Todos los días, los empleados atienden miles de llamadas sobre una amplia variedad de temas. Si bien los subcontratistas utilizan proveedores tradicionales de análisis de voz, el uso tradicional ha sido analizar una muestra de llamadas para facilitar la función de control de calidad. Net-net se considera un centro de costos tanto para los subcontratistas como para sus clientes.

Sin embargo, existe una enorme oportunidad sin explotar para extraer información de dichos datos de audio para usos que van más allá del control de calidad. Esta información puede ser relevante para las partes interesadas de los equipos de producto y marketing de los clientes. Esto puede abrir nuevos presupuestos de marketing y productos no tradicionales para las BPO.

2. Servicio de automatización de voz CX

Los subcontratistas tienen un conocimiento profundo y profundo de los temas actuales por los que llaman los clientes. Disponen de información única y actualizada sobre qué categorías de llamadas están aumentando realmente el volumen de llamadas. Con las herramientas, las metodologías y el personal adecuados, los subcontratistas pueden crear y ofrecer nuevas e innovadoras aplicaciones de autoservicio de voz que pueden automatizar partes de las llamadas. Con las tecnologías adecuadas, los subcontratistas pueden cambiar sin problemas entre las llamadas asistidas por agentes y las interacciones de autoservicio automatizadas.

La base: redes neuronales profundas y modelos acústicos personalizados

La base de estas ofertas de SaaS son las modernas plataformas Speech to Text basadas en redes neuronales profundas (DNN).

Las antiguas tecnologías de conversión de voz a texto se basaban en modelos estadísticos tradicionales (llamados HMM y GMM). Tenían una capacidad limitada para aprender jergas y acentos específicos de la industria. Sin embargo, una plataforma basada en DNN tiene las siguientes ventajas

  1. Una plataforma basada en DNN se puede entrenar fácilmente para que reconozca palabras/jerga únicas, acentos y fondos ruidosos. La capacitación de los modelos aumenta la calidad del reconocimiento y lo hace lo suficientemente preciso como para ofrecer un valor real a las partes interesadas de los clientes.
  2. Un modelo acústico específico de la industria o del cliente tiene el potencial de crear propiedad intelectual para la BPO.
  3. Una plataforma DNN se puede utilizar igual de bien tanto en la parte de automatización inicial como en el servicio de análisis y notificación. El uso de la misma plataforma para ambas ofertas tiene sus ventajas.

Para obtener más información, póngase en contacto con nosotros en info@voicegain.ai.


Read more → 
Punto de referencia de precisión de voz a texto: resultados de junio de 2020
Punto de referencia
Punto de referencia de precisión de voz a texto: resultados de junio de 2020

[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]

«¿Cuál es la precisión de su reconocedor?»

Esa es la pregunta que nos hacen con frecuencia nuestros clientes potenciales. A menudo respondemos «eso depende» y tenemos la sensación de que la otra parte piensa que «debe ser muy mala si no dan una respuesta clara». Sin embargo, «eso depende» es realmente la respuesta correcta. La precisión del reconocimiento automático de voz (ASR) depende del audio de muchas maneras y el efecto no es pequeño. Básicamente, la precisión puede ser generalizada en función de factores como:

  • ¿El discurso sigue la gramática adecuada o el orador está inventando cosas mientras las dice? Los discursos preparados tendrán mejores puntuaciones, es decir, un WER (tasa de error de palabras) más bajas en comparación con los discursos sin guión.
  • Cuál es el tema del discurso. Las palabras o combinaciones de palabras raras y poco conocidas, como por ejemplo personas u otros nombres, dificultarán la vida del NLM (modelo de lenguaje natural).
  • ¿Hay más de un altavoz? ¿Están cambiando constantemente o incluso hablan unos sobre otros?
  • ¿Hay música de fondo? Es muy común en las producciones de YouTube.
  • ¿Hay ruido de fondo? ¿Cuál es el tipo de ruido?
  • ¿Algunas partes del audio de la voz son inusualmente lentas o rápidas?
  • ¿Hay reverberación ambiental o eco en la grabación?
  • ¿El volumen de grabación es muy bajo? ¿Hay variaciones en el volumen de grabación (por ejemplo, la grabadora está colocada en un extremo de una mesa muy larga)
  • ¿La calidad de grabación es mala? Por ejemplo, debido a un códec o a unos niveles de compresión de archivo excesivos.
  • etcétera etcétera.

Probar y comparar la precisión de la conversión de voz a texto

Dado que las preguntas sobre precisión o tasa de errores de palabras carecen en cierto modo de sentido sin especificar el tipo de audio de voz, es importante realizar pruebas al elegir un reconocedor de voz. Como conjunto de prueba, se elegiría un conjunto de archivos de audio que representen con precisión el espectro de voz que encontrará el reconocedor en los casos de uso esperados. Para cada archivo de audio de voz del conjunto, se obtendría una transcripción dorada o de referencia con una precisión del 100%. Después, todo se puede automatizar: transcribir cada archivo de los reconocedores que se están evaluando, calcular el WER comparándolo con la referencia de cada una de las transcripciones generadas y cotejar los resultados. Los resultados combinados ofrecerán una imagen clara del rendimiento de los reconocedores en el audio de voz específico que nos interesa. Si vas a repetir este proceso con frecuencia, por ejemplo, para evaluar a los nuevos candidatos con el marcador de reconocimiento, es bueno estandarizar el conjunto de pruebas y, básicamente, crear un punto de referencia repetible al que puedas hacer referencia en el futuro.

Nuestro punto de referencia

Los resultados comparativos que presentamos aquí son algo diferentes a los de las pruebas o puntos de referencia basados en casos de uso. Como estamos creando un reconocedor general para un caso de uso no especificado, decidimos utilizar intencionadamente un conjunto muy amplio de archivos de audio. En lugar de recopilar los archivos de prueba nosotros mismos, decidimos utilizar el conjunto de datos descrito en»¿Qué servicio de transcripción automática es el más preciso? — 2018«de septiembre de 2018 por Jason Kincaid. El artículo presenta una comparación de los reconocedores de voz de varias empresas que utilizan un conjunto de 48 vídeos de YouTube (tomando 5 minutos de audio de cada uno de los vídeos). Cuando decidimos volver a probar el índice de Jason, ya no se podía acceder a 4 vídeos, por lo que el índice de referencia que presentamos aquí utiliza datos de solo 44 vídeos.

Comparamos los resultados presentados por Jason con los resultados de los tres principales reconocedores (Google, Amazon y Microsoft) en junio de 2020. Por supuesto, también incluimos nuestro reconocedor Voicegain, porque queríamos ver cómo nos comparábamos con ellos. Todos los reconocedores probados utilizan redes neuronales profundas. El reconocedor de voz Voicegain se ejecutaba en Google Cloud Platform con las GPU Nvidia T4. Todos los reconocedores se ejecutaron con la configuración predeterminada y no se utilizaron sugerencias ni modelos de lenguaje de usuario.

Es importante mencionar que ninguno de los archivos de referencia está incluido en el conjunto de entrenamiento que utiliza Voicegain. El resto del audio de los altavoces no proviene de los archivos de referencia, ni el mismo contenido pero es dicho por otros altavoces.

Entonces, ¿cuáles son los resultados? ¿Quién tiene el mejor reconocedor?

Una vez más, el mejor reconocedor no es la pregunta correcta, porque todo depende del audio de voz real en el que se utilice. Pero la clave resulta de pruebas en los 44 archivos son las siguientes:

  • Cada reconocedor ha mejorado. El mayor mejora en la mediana, el WER fue de Microsoft De voz a texto.
  • El mejor reconocedor en nuestro conjunto de datos estaba Google Speech to Text: mejorado (vídeo), pero el nuevo Microsoft Speech to Text está muy cerca en segundo lugar.
  • Teniendo en cuenta el precio, Microsoft podría ser declarada Best Buy
  • Ganación de voz el reconocedor es definitivamente La mejor relación calidad-precio.
  • Google Speech to Text: Standard, aunque ha mejorado un poco, sigue siendo claramente el que tiene el peor rendimiento del conjunto de datos.
  • El único punto de datos erróneo de Google Enhanced (vídeo) es real. Realizamos varias pruebas en el archivo y obtuvimos el mismo resultado. El antiguo reconocedor mejorado de Google no tenía problemas con ese archivo.

¿Cómo se compara el reconocedor Voicegain?

Estas son nuestras ideas y algunos detalles:

  • Hasta octubre de 2019, el conjunto de entrenamiento que utilizábamos para entrenar nuestro reconocedor se mantuvo relativamente inalterado. Además, nuestro conjunto de entrenamiento estaba muy sesgado hacia algunas categorías de audio de voz. Puedes verlo en el gráfico, por ejemplo, en el hecho de que nuestros mejores resultados fueron mejores que los del antiguo Amazon Transcribe, pero nuestros peores resultados fueron bastante peores que los de Amazon Transcribe.
  • Basándonos en los primeros resultados del punto de referencia, analizamos qué tipo de audio nos causaba problemas y recopilamos datos con las características particulares, pero obtenidos de forma muy amplia (para evitar que nos entrenaran para compararlos) para hacer que nuestro reconocedor fuera más robusto. Ese esfuerzo dio sus frutos y se puede ver que ahora la distribución del reconocedor Voicegain (WER) es mucho más estrecha y, en general, se acerca mucho a la del nuevo Amazon Transcribe.
  • En general, Voicegain es el reconocedor más mejorado. Hace poco más de 6 meses éramos mejores que Google Standard, pero ahora estamos cerrando el mercado de Amazon Transcribe. Esto se debe tanto a los cambios en la arquitectura de la red neuronal como a un gran aumento en las horas del conjunto de datos de entrenamiento.
  • Si nos fijamos en los detalles, el reconocedor Voicegain fue mejor que el nuevo Amazon en 11 de los 44 archivos, mejor que Google Video en 5 archivos y mejor que Microsoft también en 5 de los 44 archivos.
  • Si tenemos en cuenta el precio, creemos que Voicegain presenta una excelente relación calidad-precio. Hemos hablado con clientes que no realizaban transcripciones a gran escala debido al elevado coste de las tres grandes plataformas y, de repente, nuestros bajos precios hicieron viables nuevos usos de la transcripción.

Invitamos a cualquiera a probar nuestra plataforma y comprobar su rendimiento en los tipos de audio de voz que sean importantes para sus casos de uso.

¿Algún software que pueda ayudarme a probar los reconocedores?

Tenemos Open Sourced, el componente clave de nuestra suite de referencia, la utilidad transcribe_compare de python. Está disponible aquí: https://github.com/voicegain/transcription-compare bajo licencia MIT.

Es útil para la evaluación comparativa automática, pero también puede enviar datos a un archivo html que se puede ver en un navegador web. Lo utilizamos con frecuencia de esta manera para revisar manualmente los errores de transcripción o las diferencias de errores entre dos reconocedores o versiones del reconocedor.

¿Cómo puedo probar Voicegain?

Si estás creando una aplicación que requiere transcripción, regístrate hoy para obtener una cuenta de desarrollador y obtén 50$ en créditos gratis (unos 5000 minutos de uso de la plataforma). Puedes comprobar nuestra precisión y probar nuestras API. Se proporcionan instrucciones para registrarse para obtener una cuenta de desarrollador aquí.

3. Si quieres hacer de Voicegain tu propio asistente de transcripción con IA, haz clic aquí. Puedes llevar Voicegain a reuniones, seminarios web, charlas, conferencias y mucho más.

Esperamos ponernos al día pronto

Todavía estamos en medio de un extenso esfuerzo de recopilación de datos y la capacitación aún no ha terminado. Estamos viendo una mejora continua en nuestro reconocedor, ya que las nuevas versiones mejoradas del modelo acústico se ponen en producción aproximadamente dos veces al mes. Dentro de unos meses publicaremos los resultados actualizados de los comparativos en nuestro blog.

Modelo acústico personalizado por el usuario

Tenemos planificada otra entrada de blog que cuantificará el beneficio que se puede esperar del uso de datos de usuario adicionales para entrenar el modelo acústico utilizado en el reconocedor. Hemos seleccionado un gran conjunto de datos con un acento inglés muy específico que actualmente tiene un WER más alto. Informaremos sobre el impacto en el WER de la formación con un conjunto de datos de este tipo. Cuantificaremos la mejora en función del tamaño del conjunto de datos y la duración de la formación.

Voicegain proporciona herramientas fáciles de usar que permiten a los usuarios crear sus propios modelos acústicos personalizados. Esta próxima publicación proporcionará una visión clara sobre las mejoras que se pueden esperar y la cantidad de datos que se necesitan para marcar la diferencia en la reducción del WER.

Referencias

Póngase en contacto con nosotros

Si tiene alguna pregunta sobre este artículo o nuestra plataforma y reconocedor, puede ponerse en contacto con nosotros en info@voicegain.ai


Read more → 
Transcription for Live Streamed Event - an example
Casos de uso
Transcription for Live Streamed Event - an example

El siguiente vídeo muestra un ejemplo de Transcripción en vivo de Voicegain se utiliza para proporcionar la transcripción de un evento transmitido en vídeo.


Estos son algunos detalles sobre esta configuración en particular:

  • la parte de vídeo se transmite usando BoxCast
  • el audio para la transcripción se graba en vivo en la fuente en el sitio
  • el audio se transmite a Voicegain Cloud para su procesamiento mediante un pequeño cliente Java que se ejecuta en Raspberry Pi computadora
  • el cliente de audio se descargó preconfigurado del portal Voicegain y lee el audio directamente desde un dispositivo de audio USB conectado a raspberry pi
  • la voz se transcribe en la nube mediante el modo Voicegain en tiempo parcial, que ofrece resultados en unos 30 segundos (el modo en tiempo real ofrece los resultados con un retraso de menos de 1 segundo)
  • la salida de la transcripción pasa por un componente de retardo que nos permite marcar el retardo preciso para que coincida con el retraso de la transmisión de vídeo; en este caso, el retraso fue de 35,5 segundos
  • las palabras transcritas se envían a un cliente web a través de websocket; cada palabra se envía con el retraso establecido
  • las palabras se muestran con el tono de fuente gris correspondiente a la confianza en las palabras y el espacio proporcional al espacio entre las palabras pronunciadas
  • el modelo acústico utilizado aquí ha sido entrenado a medida con más de 200 horas adicionales con este altavoz en particular
  • los datos de capacitación personalizados consistían simplemente en discursos previamente transcritos por el orador que estaban fácilmente disponibles en el sitio web
  • también estamos usando un modelo de lenguaje personalizado (encima del NLM base) que se creó a partir del corpus proporcionado por el usuario
Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control