Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Ahora puedes comprobar la precisión de nuestra conversión de voz a texto en tiempo real y offline visitando nuestra página de demostración.
¡Lee los párrafos de tu libro favorito, pronuncia un discurso que te inspire, imita a tu actor favorito o simplemente reproduce un podcast o un video de YouTube!
Si observa retrasos en los resultados de la transcripción en tiempo real, es probable que se deban a problemas de recursos en su computadora.
Simplemente haz clic en el icono del micrófono para empezar. Puedes hablar o transmitir audio a tu micrófono desde tu navegador durante un minuto completo.
También puede reproducir el audio para asegurarse de que se nos ha transmitido con precisión.
Haz clic en el icono de subir grabación para empezar. Puedes subir un archivo grabado en mono o estéreo (wav o FLAC) de hasta 15 MB de tamaño. Si necesita transcribir un archivo más grande, regístrate para obtener una cuenta gratuita.
Envíanos un correo electrónico (support@voicegain.ai) si tienes algún comentario.
[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]
Han pasado más de 8 meses desde que publicamos nuestro último punto de referencia de precisión de reconocimiento de voz (descrito aquí). En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Google Enhanced (cerca del segundo lugar), luego Voicegain y Amazon (también cerca del cuarto lugar) y, muy por detrás, Google Standard.
Hemos repetido la prueba con la misma metodología que antes: tomamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y elimine todos los archivos en los que el mejor reconocedor no haya podido alcanzar una tasa de errores de palabras (WER) inferior al 20%. La última vez eliminamos 10 archivos, pero esta vez, a medida que los reconocedores mejoraron, solo 8 archivos tenían un WER superior al 20%.
Los archivos eliminados se dividen en 3 categorías:
Algunos de nuestros clientes nos dijeron que anteriormente utilizaban IBM Watson, por lo que decidimos añadirlo también a la prueba.
En la nueva prueba, como puedes ver en el gráfico de resultados anterior, el orden ha cambiado: Amazon ha superado a todos al aumentar su precisión media en más de un 3% hasta solo el 10,02%, y ahora se encuentra en la primera posición. Microsoft, Google Enhanced y Google Standard obtuvieron aproximadamente el mismo nivel. El reconocedor Voicegain mejoró aproximadamente un 2%. El recientemente probado IBM Watson es mejor que Google Standard, pero está por detrás del resto de reconocedores.
Los nuevos resultados sitúan al reconocedor Voicegain muy parecido al mejorado de Google:
Sin embargo, los resultados de un caso práctico dependen del audio específico: en algunos casos, Voicegain funcionará un poco mejor y, en otros, Google puede funcionar un poco mejor. Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Hemos analizado tanto Mozilla DeepSpeech y Kaldi proyectos. Realizamos nuestra evaluación completa con Mozilla DeepSpeech y descubrimos que está muy por detrás del reconocedor estándar de Google. De 64 archivos de audio, Mozilla superó a Google Standard en solo 5 archivos y empató en 1. Fue peor en los 58 archivos restantes. El WER medio fue un 15,63% peor para Mozilla en comparación con el estándar de Google. El WER más bajo de Mozilla DeepSpeech (9,66%) corresponde al audio de Librivox «El arte de la guerra de Sun Tzu». A modo de comparación, Voicegain logra un WER del 3,45% en ese archivo.
Con respecto a Kaldi, aún no lo hemos comparado, pero según la investigación publicada en línea, parece que Kaldi también está por detrás de Google Standard, al menos cuando se usa con sus modelos estándar Aspire y LibriSpeech.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Wir freuen uns, die Verfügbarkeit von deutscher Spracherkennung auf der Voicegain-Plattform bekannt zu geben. Es ist die dritte Sprache, die Voicegain nach Englisch und Spanisch unterstützt.
Die Spracherkennungsgenauigkeit des deutschen Modells hängt von der Art des Sprachaudios ab. Im Allgemeinen liegen wir nur wenige Prozent hinter der Genauigkeit zurück, die die Speech-to-Text-Engines von Amazon oder Google bieten. Der Vorteil unseres Spracherkennung ist der deutlich niedrigere Preis sowie die Möglichkeit, kundenspezifische Akustikmodelle zu trainieren. Benutzerdefinierte Modelle können eine höhere Genauigkeit aufweisen als Amazon oder Google. Wir empfehlen Ihnen, unsere Webkonsole und / oder API zu verwenden, um die tatsächliche Leistung Ihrer eigenen Daten zu testen.
Natürlich bietet die Voicegain-Plattform auch andere Vorteile wie die Unterstützung von Edge-Bereitstellung (on-prem) und eine umfangreiche API mit vielen Optionen für die sofort einsatzbereite Integration in z. Telefonieumgebungen.
Derzeit ist unsere Speech-to-Text-API mit dem deutschen Modell voll funktionsfähig. Einige der Speech Analytics-API-Funktionen sind für Deutsch noch nicht verfügbar, z. B. Named Entity Recognition oder Sentiment / Mood Detection.
Das deutsche Modell ist zunächst nur in der Version verfügbar, die die Offline-Transkription unterstützt. Die Echtzeitversion des Modells wird in naher Zukunft verfügbar sein.
Um der API mitzuteilen, dass Sie das deutsche Akustikmodell verwenden möchten, müssen Sie es nur in den Kontexteinstellungen auswählen. Deutsche Modelle haben 'de' im Namen, z. VoiceGain-ol-de: 1
Wenn Sie die deutsche Sprachausgabe verwenden möchten, senden Sie uns bitte eine E-Mail an support@voicegain.ai. Wir werden sie für Ihr Konto aktivieren. Wenn Ihre Anwendung ein Echtzeitmodell erfordert, teilen Sie uns dies bitte ebenfalls mit.
Nos complace anunciar la disponibilidad de voz a texto en alemán en la plataforma Voicegain. Es el tercer idioma que admite Voicegain después del inglés y el español.
La precisión del reconocimiento del modelo alemán depende del tipo de audio de voz. En general, solo estamos un porcentaje por debajo de la precisión que ofrecen los motores de conversión de voz a texto de los principales actores (Amazon, Google, etc.). La ventaja de nuestro reconocedor es su asequibilidad, su capacidad para entrenar modelos acústicos personalizados e implementarlos en el centro de datos o en la VPC. Los modelos personalizados pueden tener una precisión superior a la de Amazon o Google. También ofrecemos un amplio soporte para la integración con la telefonía.
Le animamos a regístrate para obtener una cuenta de desarrollador y utilice nuestra consola web o nuestras API para probar el rendimiento real en sus propios datos.
Actualmente, nuestra API de conversión de voz a texto es compatible con el modelo alemán. Actualmente, el modelo alemán admite la transcripción fuera de línea. La versión del modelo en tiempo real y en streaming estará disponible en un futuro próximo.
Para usar el modelo acústico alemán en la consola web Voicegain, selecciona «de» en Idiomas en la configuración de reconocimiento de voz.
Voicegain STT platform has supported MRCP (Media Resource Control Protocol) for a long time now. Our ASR can be accessed using MRCP and we support both grammar-based recognition (e.g. GRXML) and large-vocabulary transcription. MRCP is a communication protocol designed to connect telephony based IVRs and Voice Bots with speech recognizers (ASR) and speech synthesizers (TTS).
Previously we tested connecting to Voicegain using MRCP from VXML platforms like Dialogic PowerMedia XMS or Aspect Prophecy. We had not tested connecting from FreeSWITCH, a popular open source telephony platform, using its MRCP plugin mod_unimrcp.
We are pleased to announce that Voicegain platform works out-of-the box with mod_unimrcp, the MRCP plugin for FreeSWITCH. However, getting the mod_unimrcp plugin to work on FreeSWITCH is not particularly trivial. Here are some pointers to help those who would like to use mod_unimrcp with our platform.
There are currently 2 options to do this. We plan to add a third option very soon
Also, the current TTS option accessible over MRCP are not great. Our focus has been on the use of prerecorded prompts for IVRs and Voice Bots. We plan to shortly allow developers to access the Google or Amazon TTS.
mod_unimrcp does not get built by default when you build FreeSWITCH from source. To get it built you need to enable it in build/modules.conf.in by uncommenting this line: #asr_tts/mod_unimrcp
After the build, before starting FreeSWITCH you will need to:
Here is an example MRCP v2 profile for connecting to Voicegain MRCP:
Here are some additional notes about the configuration file:
Here is an example of how to play a question prompt and to invoke the ASR via mod_unimrcp to recognize a spoken phone number:
What this example does is:
The result of the recognition is a string in XML format (NLSML). You will need to parse it to get the utterance and any semantic interpretations. NLSML result also contains confidence.
The normal command "play_and_detect_speech" holds onto ASR session until the end of the call - this makes subsequent recognitions more responsive, but you are paying for the MRCP session. You can also use this command "play_and_detect_speech_close_asr" to release ASR session immediately after recognition.
If you have any questions about the use of Voicegain ASR via MRCP please contact us at: support@voicegain.ai
On our roadmap we have a mod_voicegain plugin for FreeSWITCH which will bypass the need for mod_unimrcp and unimrcp server and will be talking from FreeSWITCH directly to the Voicegain ASR using gRPC.
A medida que la pandemia obliga a los centros de contacto a operar con agentes que trabajan desde casa, los gerentes recurren cada vez más al análisis de voz en tiempo real para impulsar mejoras en la eficiencia de los agentes (mediante la reducción de la AHT) y la eficacia (mejoras en la FCR y el NPS) y lograr un cumplimiento del 100%.
Antes de la pandemia, los administradores de los centros de contacto dependían de una combinación de supervisión presencial y análisis del habla de las llamadas grabadas para impulsar las mejoras en la eficiencia y la eficacia de los agentes.
Sin embargo, la pandemia lo ha cambiado todo. Ha obligado a los centros de contacto a apoyar a los agentes que trabajan desde casa desde múltiples ubicaciones. Los jefes de equipo que «pasaban por el suelo» y supervisaban y ayudaban a los agentes en tiempo real ya no están disponibles. El proceso de análisis de voz sin conexión, que todavía está disponible de forma remota, es limitado y manual. Un asesor de llamadas o un analista de control de calidad asesoran a un agente de forma manual utilizando una muestra del 1 al 2% de las llamadas que se han transcrito y analizado.
Ahora existe una necesidad urgente de monitorear y brindar soporte a los agentes en tiempo real y proporcionarles todas las herramientas y el soporte que tenían mientras trabajaban en sus oficinas.
La asistencia de agentes en tiempo real consiste en el uso de inteligencia artificial, más específicamente el reconocimiento de voz y el procesamiento del lenguaje natural, para ayudar a los agentes en tiempo real durante la llamada de las siguientes maneras.
La asistencia de agente en tiempo real puede reducir el AHT de 30 segundos a 1 minuto, mejorar el FCR entre un 3 y un 5% y mejorar el NPS/CSAT.
¿Qué se necesita para implementar Real-time Agent Assist?
La asistencia de los agentes en tiempo real implica la transcripción en tiempo real de la interacción entre el agente y la persona que llama y extraer palabras clave, ideas e intenciones del texto transcrito y ponerlo a disposición de manera fácil de usar tanto para los agentes como para los jefes de equipo y los supervisores.
Hay 4 pasos clave involucrados:
En Voicegain, hacemos que sea muy fácil desarrollar aplicaciones de asistencia a los agentes en tiempo real. Inscríbase para probar la precisión de nuestro modelo en tiempo real.
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?