Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Prueba Voicegain de voz a texto en tiempo real desde tu navegador
Desarrolladores
Prueba Voicegain de voz a texto en tiempo real desde tu navegador

Ahora puedes comprobar la precisión de nuestra conversión de voz a texto en tiempo real y offline visitando nuestra página de demostración.

¡Lee los párrafos de tu libro favorito, pronuncia un discurso que te inspire, imita a tu actor favorito o simplemente reproduce un podcast o un video de YouTube!

Verificación de estado para la demostración

  1. Actualmente solo admitimos los navegadores Chrome y Edge.
  2. Asegúrese de que el uso de la CPU no sea demasiado alto (< 50%) y de que el ancho de banda de Internet sea razonable (10 Mbps en ambas direcciones).
  3. Asegúrese de que su micrófono no esté siendo utilizado por otro programa como Zoom, Teams, Skype o Webex.

Si observa retrasos en los resultados de la transcripción en tiempo real, es probable que se deban a problemas de recursos en su computadora.

Transcripción en tiempo real

Simplemente haz clic en el icono del micrófono para empezar. Puedes hablar o transmitir audio a tu micrófono desde tu navegador durante un minuto completo.

También puede reproducir el audio para asegurarse de que se nos ha transmitido con precisión.

Transcripción offline

Haz clic en el icono de subir grabación para empezar. Puedes subir un archivo grabado en mono o estéreo (wav o FLAC) de hasta 15 MB de tamaño. Si necesita transcribir un archivo más grande, regístrate para obtener una cuenta gratuita.

Envíanos un correo electrónico (support@voicegain.ai) si tienes algún comentario.

Read more → 
Punto de referencia de precisión de voz a texto: junio de 2021
Punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2021

[ACTUALIZACIÓN - 31 de octubre de 2021: Los resultados de referencia actuales de finales de octubre de 2021 están disponibles aquí. En el punto de referencia más reciente, Voicegain funciona mejor que Google Enhanced.]

Han pasado más de 8 meses desde que publicamos nuestro último punto de referencia de precisión de reconocimiento de voz (descrito aquí). En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Google Enhanced (cerca del segundo lugar), luego Voicegain y Amazon (también cerca del cuarto lugar) y, muy por detrás, Google Standard.

Metodología

Hemos repetido la prueba con la misma metodología que antes: tomamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y elimine todos los archivos en los que el mejor reconocedor no haya podido alcanzar una tasa de errores de palabras (WER) inferior al 20%. La última vez eliminamos 10 archivos, pero esta vez, a medida que los reconocedores mejoraron, solo 8 archivos tenían un WER superior al 20%.

Los archivos eliminados se dividen en 3 categorías:

  • grabaciones de reuniones: 3 archivos (3 de las 7 grabaciones de reuniones del conjunto original),
  • conversaciones telefónicas: 3 archivos (3 de las 11 conversaciones telefónicas del conjunto original),
  • podcasts con varios presentadores y muy animados: 2 archivos (había muchos otros podcasts en el set que sí alcanzaron el límite).

Algunos de nuestros clientes nos dijeron que anteriormente utilizaban IBM Watson, por lo que decidimos añadirlo también a la prueba.

Resultados

En la nueva prueba, como puedes ver en el gráfico de resultados anterior, el orden ha cambiado: Amazon ha superado a todos al aumentar su precisión media en más de un 3% hasta solo el 10,02%, y ahora se encuentra en la primera posición. Microsoft, Google Enhanced y Google Standard obtuvieron aproximadamente el mismo nivel. El reconocedor Voicegain mejoró aproximadamente un 2%. El recientemente probado IBM Watson es mejor que Google Standard, pero está por detrás del resto de reconocedores.

Voicegain está vinculado con Google Enhanced

Los nuevos resultados sitúan al reconocedor Voicegain muy parecido al mejorado de Google:

  1. El WER promedio de Voicegain está solo un 0,66% por detrás de Google, mientras que el WER medio está solo un 0,63% por detrás. Para ponerlo en contexto: Voicegain comete un error adicional cada 155 palabras en comparación con Google Enhanced.
  2. Voicegain fue en realidad marginalmente mejor que Google Enhanced en cuanto al error mínimo, primer cuartil, tercer cuartil y máximo.
  3. En general, Voicegain fue mejor en 20 archivos, mientras que Google fue mejor en 36 archivos.

Sin embargo, los resultados de un caso práctico dependen del audio específico: en algunos casos, Voicegain funcionará un poco mejor y, en otros, Google puede funcionar un poco mejor. Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

¿Qué pasa con los reconocedores de código abierto?

Hemos analizado tanto Mozilla DeepSpeech y Kaldi proyectos. Realizamos nuestra evaluación completa con Mozilla DeepSpeech y descubrimos que está muy por detrás del reconocedor estándar de Google. De 64 archivos de audio, Mozilla superó a Google Standard en solo 5 archivos y empató en 1. Fue peor en los 58 archivos restantes. El WER medio fue un 15,63% peor para Mozilla en comparación con el estándar de Google. El WER más bajo de Mozilla DeepSpeech (9,66%) corresponde al audio de Librivox «El arte de la guerra de Sun Tzu». A modo de comparación, Voicegain logra un WER del 3,45% en ese archivo.

Con respecto a Kaldi, aún no lo hemos comparado, pero según la investigación publicada en línea, parece que Kaldi también está por detrás de Google Standard, al menos cuando se usa con sus modelos estándar Aspire y LibriSpeech.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - El modelo Voicegain puede entrenarse con sus datos de audio; tenemos demostrada mejora en la precisión del 7 al 10%. De hecho, para uno de nuestros clientes con datos de entrenamiento adecuados y un audio de buena calidad, logramos un WER del 0,5% (precisión del 99,5%)
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.


2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis


3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Voicegain bietet automatische Spracherkennung in Deutsch
Languages
Voicegain bietet automatische Spracherkennung in Deutsch

Wir freuen uns, die Verfügbarkeit von deutscher Spracherkennung auf der Voicegain-Plattform bekannt zu geben. Es ist die dritte Sprache, die Voicegain nach Englisch und Spanisch unterstützt.

Die Spracherkennungsgenauigkeit des deutschen Modells hängt von der Art des Sprachaudios ab. Im Allgemeinen liegen wir nur wenige Prozent hinter der Genauigkeit zurück, die die Speech-to-Text-Engines von Amazon oder Google bieten. Der Vorteil unseres Spracherkennung ist der deutlich niedrigere Preis sowie die Möglichkeit, kundenspezifische Akustikmodelle zu trainieren. Benutzerdefinierte Modelle können eine höhere Genauigkeit aufweisen als Amazon oder Google. Wir empfehlen Ihnen, unsere Webkonsole und / oder API zu verwenden, um die tatsächliche Leistung Ihrer eigenen Daten zu testen.  

Natürlich bietet die Voicegain-Plattform auch andere Vorteile wie die Unterstützung von Edge-Bereitstellung (on-prem) und eine umfangreiche API mit vielen Optionen für die sofort einsatzbereite Integration in z. Telefonieumgebungen.

Derzeit ist unsere Speech-to-Text-API mit dem deutschen Modell voll funktionsfähig. Einige der Speech Analytics-API-Funktionen sind für Deutsch noch nicht verfügbar, z. B. Named Entity Recognition oder Sentiment / Mood Detection.

Das deutsche Modell ist zunächst nur in der Version verfügbar, die die Offline-Transkription unterstützt. Die Echtzeitversion des Modells wird in naher Zukunft verfügbar sein.

Um der API mitzuteilen, dass Sie das deutsche Akustikmodell verwenden möchten, müssen Sie es nur in den Kontexteinstellungen auswählen. Deutsche Modelle haben 'de' im Namen, z. VoiceGain-ol-de: 1

Wenn Sie die deutsche Sprachausgabe verwenden möchten, senden Sie uns bitte eine E-Mail an support@voicegain.ai. Wir werden sie für Ihr Konto aktivieren. Wenn Ihre Anwendung ein Echtzeitmodell erfordert, teilen Sie uns dies bitte ebenfalls mit.

Read more → 
Voicegain ofrece conversión de voz a texto en alemán
Idiomas
Voicegain ofrece conversión de voz a texto en alemán

Nos complace anunciar la disponibilidad de voz a texto en alemán en la plataforma Voicegain. Es el tercer idioma que admite Voicegain después del inglés y el español.

La precisión del reconocimiento del modelo alemán depende del tipo de audio de voz. En general, solo estamos un porcentaje por debajo de la precisión que ofrecen los motores de conversión de voz a texto de los principales actores (Amazon, Google, etc.). La ventaja de nuestro reconocedor es su asequibilidad, su capacidad para entrenar modelos acústicos personalizados e implementarlos en el centro de datos o en la VPC. Los modelos personalizados pueden tener una precisión superior a la de Amazon o Google. También ofrecemos un amplio soporte para la integración con la telefonía.

Le animamos a regístrate para obtener una cuenta de desarrollador y utilice nuestra consola web o nuestras API para probar el rendimiento real en sus propios datos.

Actualmente, nuestra API de conversión de voz a texto es compatible con el modelo alemán. Actualmente, el modelo alemán admite la transcripción fuera de línea. La versión del modelo en tiempo real y en streaming estará disponible en un futuro próximo.

Para usar el modelo acústico alemán en la consola web Voicegain, selecciona «de» en Idiomas en la configuración de reconocimiento de voz.

Read more → 
Acceda a Voicegain ASR desde FreeSwitch usando mod_unimrcp
Desarrolladores
Acceda a Voicegain ASR desde FreeSwitch usando mod_unimrcp

Voicegain STT platform has supported MRCP (Media Resource Control Protocol) for a long time now. Our ASR can be accessed using MRCP and we support both grammar-based recognition (e.g. GRXML) and large-vocabulary transcription. MRCP is a communication protocol designed to connect telephony based IVRs and Voice Bots with speech recognizers (ASR) and speech synthesizers (TTS).

Previously we tested connecting to Voicegain using MRCP from VXML platforms like Dialogic PowerMedia XMS or Aspect Prophecy. We had not tested connecting from FreeSWITCH, a popular open source telephony platform, using its MRCP plugin mod_unimrcp.

We are pleased to announce that Voicegain platform works out-of-the box with mod_unimrcp, the MRCP plugin for FreeSWITCH. However, getting the mod_unimrcp plugin to work on FreeSWITCH is not particularly trivial. Here are some pointers to help those who would like to use mod_unimrcp with our platform.


Deploying Voicegain unimrcp server

There are currently 2 options to do this. We plan to add a third option very soon  

  1. For production deployments of Speech IVRs and Voice Bots on FreeSWITCH, we recommend an Edge Deployment of the Voicegain platform. This will deploy our unimrcp server that can communicate with a locally deployed FreeSWITCH using MRCP.
  2. To use our Cloud ASR, you will need to download a MRCP IVR Proxy. This proxy can be downloaded from the Voicegain Web Console. You will download a tar file that has the definition of a docker compose that you can then run on your docker server. This will deploy our preconfigured unimrcp server with a proxy for connecting to Voicegain Cloud Speech-to-Text engine .
  3. (Coming soon) We plan to implement a voicegain_asr plugin that can be deployed on a standard unimrcp server. The plugin will talk to our ASR in the cloud using gRPC.

Also, the current TTS option accessible over MRCP are not great. Our focus has been on the use of prerecorded prompts for IVRs and Voice Bots. We plan to shortly allow developers to access the Google or Amazon TTS.


Configuring FreeSWITCH for mod_unimrcp

mod_unimrcp does not get built by default when you build FreeSWITCH from source. To get it built you need to enable it in build/modules.conf.in by uncommenting this line: #asr_tts/mod_unimrcp


After the build, before starting FreeSWITCH you will need to:

  • Add <load module="mod_unimrcp"/> to autoload_configs/modules.conf.xml(you can put it in <!-- ASR /TTS --> section because that is where it logically belongs)
  • Create mrcp_profile for voicegain (see below)
  • Modify content of autoload_config/unimrcp.conf.xmlIf you want to use both ASR and TTS via Voicegain MRCP, you will need to point both default-asr-profile and default-tts-profile to the voicegain1-mrcp2 profile you will create in mrcp_profiles folder.

Here is an example MRCP v2 profile for connecting to Voicegain MRCP:

Here are some additional notes about the configuration file:

  • It is important that the port range used by the Unimrcp Client:<param name="rtp-port-min" value="4000"/><param name="rtp-port-max" value="5000"/>is accessible from outside, otherwise, the TTS via MRCP will not work. Also, these ports may not overlap with the UDP ports used by FreeSWITCH.
  • In some setups the "auto" values of :<param name="client-ip" value="auto"/> and<param name="rtp-ip" value="auto"/>may not work and you will have to manually specify the external IP.

How to use mod_unimrcp

Here is an example of how to play a question prompt and to invoke the ASR via mod_unimrcp to recognize a spoken phone number:


session:execute("set", "tts_engine=unimrcp:voicegain1-mrcp2");
session:execute("set", "tts_voice=Catherine");
session:execute("play_and_detect_speech", 
"say:What is your phone number detect:unimrcp {start-input-timers=false,define-grammar=true,no-input-timeout=5000}builtin:grammar/phone")

asrResult = session:getVariable("detect_speech_result");

test

What this example does is:

  • tells FS which tts_egine to use
  • sets the TTS voice - currently ignored
  • plays a question prompt using the specified TTS and launches the recognition
  • retrieves the result of the speech recognition

The result of the recognition is a string in XML format (NLSML). You will need to parse it to get the utterance and any semantic interpretations. NLSML result also contains confidence.  


The normal command "play_and_detect_speech" holds onto ASR session until the end of the call - this makes subsequent recognitions more responsive, but you are paying for the MRCP session. You can also use this command "play_and_detect_speech_close_asr" to release ASR session immediately after recognition.


If you have any questions about the use of Voicegain ASR via MRCP please contact us at: support@voicegain.ai


Coming Soon

On our roadmap we have a mod_voicegain plugin for FreeSWITCH which will bypass the need for mod_unimrcp and unimrcp server and will be talking from FreeSWITCH directly to the Voicegain ASR using gRPC.

Read more → 
Implementación de Agent Assist en tiempo real con Voicegain
Casos de uso
Implementación de Agent Assist en tiempo real con Voicegain

A medida que la pandemia obliga a los centros de contacto a operar con agentes que trabajan desde casa, los gerentes recurren cada vez más al análisis de voz en tiempo real para impulsar mejoras en la eficiencia de los agentes (mediante la reducción de la AHT) y la eficacia (mejoras en la FCR y el NPS) y lograr un cumplimiento del 100%.

Antes de la pandemia, los administradores de los centros de contacto dependían de una combinación de supervisión presencial y análisis del habla de las llamadas grabadas para impulsar las mejoras en la eficiencia y la eficacia de los agentes.

Sin embargo, la pandemia lo ha cambiado todo. Ha obligado a los centros de contacto a apoyar a los agentes que trabajan desde casa desde múltiples ubicaciones. Los jefes de equipo que «pasaban por el suelo» y supervisaban y ayudaban a los agentes en tiempo real ya no están disponibles. El proceso de análisis de voz sin conexión, que todavía está disponible de forma remota, es limitado y manual. Un asesor de llamadas o un analista de control de calidad asesoran a un agente de forma manual utilizando una muestra del 1 al 2% de las llamadas que se han transcrito y analizado.

Ahora existe una necesidad urgente de monitorear y brindar soporte a los agentes en tiempo real y proporcionarles todas las herramientas y el soporte que tenían mientras trabajaban en sus oficinas.

La asistencia de agentes en tiempo real consiste en el uso de inteligencia artificial, más específicamente el reconocimiento de voz y el procesamiento del lenguaje natural, para ayudar a los agentes en tiempo real durante la llamada de las siguientes maneras.

  1. Se pueden presentar a los agentes artículos de la base de conocimientos y las siguientes mejores acciones a partir de las intenciones extraídas del texto transcrito
  2. Al extraer los algoritmos y las intenciones de NLU, ahora puede resumir la llamada automáticamente y ahorrar tiempo de disposición y cierre
  3. Los supervisores pueden monitorear el sentimiento en tiempo real

La asistencia de agente en tiempo real puede reducir el AHT de 30 segundos a 1 minuto, mejorar el FCR entre un 3 y un 5% y mejorar el NPS/CSAT.

¿Qué se necesita para implementar Real-time Agent Assist?

La asistencia de los agentes en tiempo real implica la transcripción en tiempo real de la interacción entre el agente y la persona que llama y extraer palabras clave, ideas e intenciones del texto transcrito y ponerlo a disposición de manera fácil de usar tanto para los agentes como para los jefes de equipo y los supervisores.

Hay 4 pasos clave involucrados:

  1. Captura de audio: El primer paso es transmitir los dos canales de audio (es decir, transmisiones de agentes y personas que llaman) desde la plataforma de centro de contacto que utiliza el cliente (ya sea en las instalaciones o en la nube). Voicegain admite una variedad de protocolos para transmitir audio. Los hemos descrito aquí y aquí. Nos hemos integrado con las principales plataformas de centros de contacto locales, como Avaya, Cisco y Genesys. También nos hemos integrado con las API de Media Stream de plataformas CCaaS programables como Twilio y SignalWire.
  2. Transcripción: El siguiente paso del proceso es transcribir las transmisiones de audio en texto. Ofertas de Voicegain API de transcripción para convertir el audio en texto en tiempo real. Podemos transmitir el texto en tiempo real (mediante websockets o gRPC) para que pueda integrarse fácilmente en cualquier motor de NLU.
  3. Análisis de texto y NLUs: En este paso, el motor de NLU extrae las intenciones del texto transcrito. Estas intenciones se entrenan en una fase anterior utilizando frases y oraciones. Voicegain se integra con los principales motores de NLU, como RASA, Google Dialogflow, Amazon Lex y Salesforce Einstein.
  4. Integración con Agent Desktop: El último y último paso es integrar los resultados de la NLU con el Agent Desktop.

En Voicegain, hacemos que sea muy fácil desarrollar aplicaciones de asistencia a los agentes en tiempo real. Inscríbase para probar la precisión de nuestro modelo en tiempo real.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control