Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.
Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.
En lo que respecta a los demás reconocedores:
Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.
Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.
Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).
Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)
Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).
Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.
Veamos la cantidad de archivos en los que cada reconocedor era el mejor.
Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).
Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).
Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.
Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.
Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]
Han pasado más de 8 meses desde que publicamos nuestro último punto de referencia de precisión de reconocimiento de voz (descrito aquí). En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Google Enhanced (cerca del segundo lugar), luego Voicegain y Amazon (también cerca del cuarto lugar) y, muy por detrás, Google Standard.
Hemos repetido la prueba con la misma metodología que antes: tomamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y elimine todos los archivos en los que el mejor reconocedor no haya podido alcanzar una tasa de errores de palabras (WER) inferior al 20%. La última vez eliminamos 10 archivos, pero esta vez, a medida que los reconocedores mejoraron, solo 8 archivos tenían un WER superior al 20%.
Los archivos eliminados se dividen en 3 categorías:
Algunos de nuestros clientes nos dijeron que anteriormente utilizaban IBM Watson, por lo que decidimos añadirlo también a la prueba.
En la nueva prueba, como puedes ver en el gráfico de resultados anterior, el orden ha cambiado: Amazon ha superado a todos al aumentar su precisión media en más de un 3% hasta solo el 10,02%, y ahora se encuentra en la primera posición. Microsoft, Google Enhanced y Google Standard obtuvieron aproximadamente el mismo nivel. El reconocedor Voicegain mejoró aproximadamente un 2%. El recientemente probado IBM Watson es mejor que Google Standard, pero está por detrás del resto de reconocedores.
Los nuevos resultados sitúan al reconocedor Voicegain muy parecido al mejorado de Google:
Sin embargo, los resultados de un caso práctico dependen del audio específico: en algunos casos, Voicegain funcionará un poco mejor y, en otros, Google puede funcionar un poco mejor. Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.
Hemos analizado tanto Mozilla DeepSpeech y Kaldi proyectos. Realizamos nuestra evaluación completa con Mozilla DeepSpeech y descubrimos que está muy por detrás del reconocedor estándar de Google. De 64 archivos de audio, Mozilla superó a Google Standard en solo 5 archivos y empató en 1. Fue peor en los 58 archivos restantes. El WER medio fue un 15,63% peor para Mozilla en comparación con el estándar de Google. El WER más bajo de Mozilla DeepSpeech (9,66%) corresponde al audio de Librivox «El arte de la guerra de Sun Tzu». A modo de comparación, Voicegain logra un WER del 3,45% en ese archivo.
Con respecto a Kaldi, aún no lo hemos comparado, pero según la investigación publicada en línea, parece que Kaldi también está por detrás de Google Standard, al menos cuando se usa con sus modelos estándar Aspire y LibriSpeech.
Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
Wir freuen uns, die Verfügbarkeit von deutscher Spracherkennung auf der Voicegain-Plattform bekannt zu geben. Es ist die dritte Sprache, die Voicegain nach Englisch und Spanisch unterstützt.
Die Spracherkennungsgenauigkeit des deutschen Modells hängt von der Art des Sprachaudios ab. Im Allgemeinen liegen wir nur wenige Prozent hinter der Genauigkeit zurück, die die Speech-to-Text-Engines von Amazon oder Google bieten. Der Vorteil unseres Spracherkennung ist der deutlich niedrigere Preis sowie die Möglichkeit, kundenspezifische Akustikmodelle zu trainieren. Benutzerdefinierte Modelle können eine höhere Genauigkeit aufweisen als Amazon oder Google. Wir empfehlen Ihnen, unsere Webkonsole und / oder API zu verwenden, um die tatsächliche Leistung Ihrer eigenen Daten zu testen.
Natürlich bietet die Voicegain-Plattform auch andere Vorteile wie die Unterstützung von Edge-Bereitstellung (on-prem) und eine umfangreiche API mit vielen Optionen für die sofort einsatzbereite Integration in z. Telefonieumgebungen.
Derzeit ist unsere Speech-to-Text-API mit dem deutschen Modell voll funktionsfähig. Einige der Speech Analytics-API-Funktionen sind für Deutsch noch nicht verfügbar, z. B. Named Entity Recognition oder Sentiment / Mood Detection.
Das deutsche Modell ist zunächst nur in der Version verfügbar, die die Offline-Transkription unterstützt. Die Echtzeitversion des Modells wird in naher Zukunft verfügbar sein.
Um der API mitzuteilen, dass Sie das deutsche Akustikmodell verwenden möchten, müssen Sie es nur in den Kontexteinstellungen auswählen. Deutsche Modelle haben 'de' im Namen, z. VoiceGain-ol-de: 1
Wenn Sie die deutsche Sprachausgabe verwenden möchten, senden Sie uns bitte eine E-Mail an support@voicegain.ai. Wir werden sie für Ihr Konto aktivieren. Wenn Ihre Anwendung ein Echtzeitmodell erfordert, teilen Sie uns dies bitte ebenfalls mit.
Nos complace anunciar la disponibilidad de voz a texto en alemán en la plataforma Voicegain. Es el tercer idioma que admite Voicegain después del inglés y el español.
La precisión del reconocimiento del modelo alemán depende del tipo de audio de voz. En general, solo estamos un porcentaje por debajo de la precisión que ofrecen los motores de conversión de voz a texto de los principales actores (Amazon, Google, etc.). La ventaja de nuestro reconocedor es su asequibilidad, su capacidad para entrenar modelos acústicos personalizados e implementarlos en el centro de datos o en la VPC. Los modelos personalizados pueden tener una precisión superior a la de Amazon o Google. También ofrecemos un amplio soporte para la integración con la telefonía.
Le animamos a regístrate para obtener una cuenta de desarrollador y utilice nuestra consola web o nuestras API para probar el rendimiento real en sus propios datos.
Actualmente, nuestra API de conversión de voz a texto es compatible con el modelo alemán. Actualmente, el modelo alemán admite la transcripción fuera de línea. La versión del modelo en tiempo real y en streaming estará disponible en un futuro próximo.
Para usar el modelo acústico alemán en la consola web Voicegain, selecciona «de» en Idiomas en la configuración de reconocimiento de voz.
Voicegain STT platform has supported MRCP (Media Resource Control Protocol) for a long time now. Our ASR can be accessed using MRCP and we support both grammar-based recognition (e.g. GRXML) and large-vocabulary transcription. MRCP is a communication protocol designed to connect telephony based IVRs and Voice Bots with speech recognizers (ASR) and speech synthesizers (TTS).
Previously we tested connecting to Voicegain using MRCP from VXML platforms like Dialogic PowerMedia XMS or Aspect Prophecy. We had not tested connecting from FreeSWITCH, a popular open source telephony platform, using its MRCP plugin mod_unimrcp.
We are pleased to announce that Voicegain platform works out-of-the box with mod_unimrcp, the MRCP plugin for FreeSWITCH. However, getting the mod_unimrcp plugin to work on FreeSWITCH is not particularly trivial. Here are some pointers to help those who would like to use mod_unimrcp with our platform.
There are currently 2 options to do this. We plan to add a third option very soon
Also, the current TTS option accessible over MRCP are not great. Our focus has been on the use of prerecorded prompts for IVRs and Voice Bots. We plan to shortly allow developers to access the Google or Amazon TTS.
mod_unimrcp does not get built by default when you build FreeSWITCH from source. To get it built you need to enable it in build/modules.conf.in by uncommenting this line: #asr_tts/mod_unimrcp
After the build, before starting FreeSWITCH you will need to:
Here is an example MRCP v2 profile for connecting to Voicegain MRCP:
Here are some additional notes about the configuration file:
Here is an example of how to play a question prompt and to invoke the ASR via mod_unimrcp to recognize a spoken phone number:
What this example does is:
The result of the recognition is a string in XML format (NLSML). You will need to parse it to get the utterance and any semantic interpretations. NLSML result also contains confidence.
The normal command "play_and_detect_speech" holds onto ASR session until the end of the call - this makes subsequent recognitions more responsive, but you are paying for the MRCP session. You can also use this command "play_and_detect_speech_close_asr" to release ASR session immediately after recognition.
If you have any questions about the use of Voicegain ASR via MRCP please contact us at: support@voicegain.ai
On our roadmap we have a mod_voicegain plugin for FreeSWITCH which will bypass the need for mod_unimrcp and unimrcp server and will be talking from FreeSWITCH directly to the Voicegain ASR using gRPC.
A medida que la pandemia obliga a los centros de contacto a operar con agentes que trabajan desde casa, los gerentes recurren cada vez más al análisis de voz en tiempo real para impulsar mejoras en la eficiencia de los agentes (mediante la reducción de la AHT) y la eficacia (mejoras en la FCR y el NPS) y lograr un cumplimiento del 100%.
Antes de la pandemia, los administradores de los centros de contacto dependían de una combinación de supervisión presencial y análisis del habla de las llamadas grabadas para impulsar las mejoras en la eficiencia y la eficacia de los agentes.
Sin embargo, la pandemia lo ha cambiado todo. Ha obligado a los centros de contacto a apoyar a los agentes que trabajan desde casa desde múltiples ubicaciones. Los jefes de equipo que «pasaban por el suelo» y supervisaban y ayudaban a los agentes en tiempo real ya no están disponibles. El proceso de análisis de voz sin conexión, que todavía está disponible de forma remota, es limitado y manual. Un asesor de llamadas o un analista de control de calidad asesoran a un agente de forma manual utilizando una muestra del 1 al 2% de las llamadas que se han transcrito y analizado.
Ahora existe una necesidad urgente de monitorear y brindar soporte a los agentes en tiempo real y proporcionarles todas las herramientas y el soporte que tenían mientras trabajaban en sus oficinas.
La asistencia de agentes en tiempo real consiste en el uso de inteligencia artificial, más específicamente el reconocimiento de voz y el procesamiento del lenguaje natural, para ayudar a los agentes en tiempo real durante la llamada de las siguientes maneras.
La asistencia de agente en tiempo real puede reducir el AHT de 30 segundos a 1 minuto, mejorar el FCR entre un 3 y un 5% y mejorar el NPS/CSAT.
¿Qué se necesita para implementar Real-time Agent Assist?
La asistencia de los agentes en tiempo real implica la transcripción en tiempo real de la interacción entre el agente y la persona que llama y extraer palabras clave, ideas e intenciones del texto transcrito y ponerlo a disposición de manera fácil de usar tanto para los agentes como para los jefes de equipo y los supervisores.
Hay 4 pasos clave involucrados:
En Voicegain, hacemos que sea muy fácil desarrollar aplicaciones de asistencia a los agentes en tiempo real. Inscríbase para probar la precisión de nuestro modelo en tiempo real.
La plataforma Voicegain facilita la creación de IVR para aplicaciones sencillas de llamadas salientes, como: encuestas (de voz del cliente, políticas, etc.), recordatorios (por ejemplo, citas, pagos pendientes), notificaciones (por ejemplo, cierre de escuelas, avisos de ebullición de agua), etc.
Voicegain permite a los desarrolladores utilizar las funciones de llamadas salientes de las plataformas CPaaS como Twilio o SignalWire con las funciones de reconocimiento de voz e IVR de la plataforma Voicegain. Todo lo que necesitas es así de simple fragmento de código para hacer una llamada saliente con Twilio y conectarla a Voicegain para IVR.
Voicegain proporciona una API de Telephone Bot con todas las funciones. Es una API de estilo webhook/callback que se puede usar de manera similar a como usaría el TWiML de Twilio. Puedes leer más sobre esto aquí
Sin embargo, en esta publicación, describimos un método aún más simple para crear IVR. Permitimos a los desarrolladores especificar las definiciones del flujo de llamadas IVR salientes en un formato YAML simple. También proporcionamos un script de Python que se puede implementar fácilmente en AWS Lambda o en su servidor web para interpretar este archivo YAML. Encontrará el código completo con ejemplos en nuestra github. Está bajo licencia MIT, por lo que puedes modificar el guion del intérprete principal a tu gusto. Es posible que desee hacerlo, por ejemplo, para realizar llamadas a los servicios web externos que su IVR necesite.
En este formato YAML, una pregunta de IVR se definiría de la siguiente manera:
Como puede ver, esta es una forma bastante sencilla de definir una pregunta de IVR. Ten en cuenta también que proporcionamos un control integrado para las nuevas solicitudes de NOINPUT y NOMATCH, así como la lógica de las confirmaciones. Esto reduce en gran medida el desorden de la especificación, ya que esos escenarios de flujo no tienen que gestionarse de forma explícita.
Las preguntas admiten el uso de gramáticas para mapear las respuestas al significado semántico o, alternativamente, pueden simplemente capturar la respuesta mediante una transcripción de vocabulario extenso.
Las instrucciones se reproducen mediante TTS o se pueden concatenar a partir de clips pregrabados.
Como se basa en la API Voicegain Telephone Bot, viene con acceso completo a la sesión de llamadas de IVR. Puedes obtener detalles, incluidos todos los eventos y respuestas, de la sesión completa mediante la API. Esto incluye la grabación en 2 canales, la transcripción completa de ambos canales y las funciones de análisis de voz.
También puedes examinar los detalles de la sesión desde la consola Voicegain y escuchar el audio. Esto ayuda a probar la aplicación antes de implementarla.
Si tiene preguntas sobre la creación de este tipo de IVR que se ejecuten en la plataforma Voicegain, póngase en contacto con nosotros en support@voicegain.ai
Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.
Read more →¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?