Our Blog

News, Insights, sample code & more!

ASR, punto de referencia
Punto de referencia de precisión de voz a texto: junio de 2022

Han pasado más de 7 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Microsoft y Amazon (casi en segundo lugar), luego Voicegain y Google Enhanced, y luego, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos obtenido más datos de formación y hemos añadido funciones adicionales a nuestro proceso de formación. Esto se tradujo en un aumento adicional en la precisión de nuestro modelo.

En lo que respecta a los demás reconocedores:

  • Tanto Microsoft como Amazon mejoraron, y Microsoft mejoró mucho en los archivos más difíciles del conjunto de puntos de referencia.
  • Google ha lanzado un nuevo modelo «de última generación» que es bastante mejor que el mejor modelo mejorado de vídeo de Google anterior. La precisión de Video Enhanced se mantuvo prácticamente sin cambios.

Hemos decidido dejar de informar sobre la precisión de Google Standard e IBM Watson, que siempre estuvieron muy por detrás en cuanto a precisión.


Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que ninguno de los reconocedores podía alcanzar una tasa de errores de palabras (WER) inferior al 25%.

Esta vez solo un archivo fue tan difícil. Fue una entrevista telefónica de mala calidad (Entrevista a Byron Smith (111416 - YouTube).

Los resultados

Puedes ver diagramas de caja con los resultados de arriba. El gráfico también muestra el promedio y la mediana de la tasa de errores de palabras (WER)

Todos los reconocedores han mejorado (el modelo de Google Video Enhanced se mantuvo prácticamente igual, pero Google ahora tiene un nuevo reconocedor que es mejor).

Google, de última generación, Voicegain y Amazon están ahora muy cerca, mientras que Microsoft es mejor en aproximadamente un 1%.

Mejor reconocedor

Veamos la cantidad de archivos en los que cada reconocedor era el mejor.

  • Microsoft fue el mejor en 35 de los 63 archivos
  • Amazon obtuvo el mejor resultado con 15 archivos (tenga en cuenta que, en el punto de referencia de octubre de 2021, Amazon obtuvo el mejor resultado con 29 archivos).
  • Voicegain estuvo muy cerca de Amazon al ser el mejor en 12 archivos de audio
  • El último de Google fue el mejor en 4
  • Google Video Enhanced gana un trofeo de participación al quedar mejor en 1 archivo, que fue un audiolibro de Librivox muy sencillo «El arte de la guerra de Sun Tzu Full», con un WER del 1,79%

Tenga en cuenta que los números no suman 63 porque había algunos archivos en los que dos reconocedores arrojaban resultados idénticos (con 2 dígitos detrás de una coma).

Mejoras a lo largo del tiempo

Ahora hemos realizado el mismo punto de referencia 4 veces para poder dibujar gráficos que muestren cómo cada uno de los reconocedores ha mejorado en los últimos 1 año y 9 meses. (Ten en cuenta que para Google el último resultado proviene del modelo más reciente y otros resultados de Google provienen de vídeos mejorados).

Puedes ver claramente que Voicegain y Amazon empezaron bastante por detrás de Google y Microsoft, pero desde entonces se han puesto al día.

Google parece tener los ciclos de desarrollo más largos, con muy pocas mejoras desde septiembre de 2021 hasta hace muy poco. Microsoft, por otro lado, lanza un reconocedor mejorado cada 6 meses. Nuestras versiones mejoradas son incluso más frecuentes que eso.

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - Es posible que el modelo Voicegain se base en tus datos de audio. Tenemos varias entradas de blog que describen tanto la investigación como la personalización de modelos de casos de uso reales. Las mejoras pueden variar desde varios porcentajes en los casos más genéricos hasta más del 50% en algunos casos específicos, en particular en el caso de los robots de voz.
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Read more → 
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
IVR Easy Speech para llamadas salientes con Voicegain y Twilio
Centro de contacto
IVR Easy Speech para llamadas salientes con Voicegain y Twilio

IVR salientes en Voicegain

La plataforma Voicegain facilita la creación de IVR para aplicaciones sencillas de llamadas salientes, como: encuestas (de voz del cliente, políticas, etc.), recordatorios (por ejemplo, citas, pagos pendientes), notificaciones (por ejemplo, cierre de escuelas, avisos de ebullición de agua), etc.

Voicegain permite a los desarrolladores utilizar las funciones de llamadas salientes de las plataformas CPaaS como Twilio o SignalWire con las funciones de reconocimiento de voz e IVR de la plataforma Voicegain. Todo lo que necesitas es así de simple fragmento de código para hacer una llamada saliente con Twilio y conectarla a Voicegain para IVR.


Definir los IVR de forma declarativa

Voicegain proporciona una API de Telephone Bot con todas las funciones. Es una API de estilo webhook/callback que se puede usar de manera similar a como usaría el TWiML de Twilio. Puedes leer más sobre esto aquí

Sin embargo, en esta publicación, describimos un método aún más simple para crear IVR. Permitimos a los desarrolladores especificar las definiciones del flujo de llamadas IVR salientes en un formato YAML simple. También proporcionamos un script de Python que se puede implementar fácilmente en AWS Lambda o en su servidor web para interpretar este archivo YAML. Encontrará el código completo con ejemplos en nuestra github. Está bajo licencia MIT, por lo que puedes modificar el guion del intérprete principal a tu gusto. Es posible que desee hacerlo, por ejemplo, para realizar llamadas a los servicios web externos que su IVR necesite.

En este formato YAML, una pregunta de IVR se definiría de la siguiente manera:


Como puede ver, esta es una forma bastante sencilla de definir una pregunta de IVR. Ten en cuenta también que proporcionamos un control integrado para las nuevas solicitudes de NOINPUT y NOMATCH, así como la lógica de las confirmaciones. Esto reduce en gran medida el desorden de la especificación, ya que esos escenarios de flujo no tienen que gestionarse de forma explícita.

Las preguntas admiten el uso de gramáticas para mapear las respuestas al significado semántico o, alternativamente, pueden simplemente capturar la respuesta mediante una transcripción de vocabulario extenso.

Las instrucciones se reproducen mediante TTS o se pueden concatenar a partir de clips pregrabados.

Espera, hay más.

Como se basa en la API Voicegain Telephone Bot, viene con acceso completo a la sesión de llamadas de IVR. Puedes obtener detalles, incluidos todos los eventos y respuestas, de la sesión completa mediante la API. Esto incluye la grabación en 2 canales, la transcripción completa de ambos canales y las funciones de análisis de voz.

También puedes examinar los detalles de la sesión desde la consola Voicegain y escuchar el audio. Esto ayuda a probar la aplicación antes de implementarla.




Si tiene preguntas sobre la creación de este tipo de IVR que se ejecuten en la plataforma Voicegain, póngase en contacto con nosotros en support@voicegain.ai

Read more → 
Reconocimiento de voz Voicegain para selección de voz en almacenes
Casos de uso
Reconocimiento de voz Voicegain para selección de voz en almacenes

Entre las diversas API de conversión de voz a texto que proporciona Voicegain se encuentra una API de reconocimiento de voz que utiliza gramáticas y admite el reconocimiento continuo. Esta API es ideal para su uso en aplicaciones de selección por voz de almacén. Los sistemas de gestión de almacenes pueden integrar las API de Voicegain para ofrecer la selección por voz como parte de su conjunto de funciones.

Aquí tienes más detalles de esa API específica:

  • Entrada de audio - admite la transmisión de audio a través de websockets para una integración muy sencilla con aplicaciones basadas en la web o para Android/iOS (la compatibilidad con gRPC está en versión beta)
  • Resultados de reconocimiento están disponibles mediante devoluciones de llamadas websocket o http en formato JSON. El envío de los resultados del reconocimiento a través de websockets es una incorporación reciente y facilita mucho la creación de aplicaciones de selección por voz basadas en la web.
  • Soportes reconocimiento basado en gramática - más adecuado para un conjunto de comandos bien definido en comparación con un vocabulario amplio de voz a texto. Tiene una mayor precisión, rechaza mejor el ruido, maneja mejor los distintos acentos, etc. El uso de gramáticas proporciona la ventaja de señalar rápidamente al final: el reconocedor sabe que la orden se ha pronunciado por completo y no se necesita tiempo de espera adicional para determinar el final del discurso. Admitimos una variante del formato gramatical JSGF que es muy intuitiva y fácil de usar.
  • Soportes reconocimiento continuo - se pueden reconocer varios comandos en una sola sesión http. El reconocimiento continuo permite que los comandos estén más cerca y permite la corrección natural de los errores de reconocimiento mediante una simple repetición.

Además de eso, la plataforma Voicegain Speech-to-Text ofrece beneficios adicionales para las aplicaciones de selección de voz:

  • El modelo acústico/lingüístico es personalizable, lo que permite una precisión de reconocimiento muy alta para dominios específicos
  • Herramientas basadas en la web disponibles para revisar los reconocimientos de expresiones. Estas herramientas permiten ajustar la gramática y recopilar enunciados para el entrenamiento de modelos.

En conjunto, esto permite que su aplicación Voice Picking aprenda y mejore continuamente.

Nuestras API están disponibles en la nube, pero también se pueden alojar en Edge (in situ), lo que puede aumentar la confiabilidad y reducir las latencias, que ya son bajas.

Si quieres probar nuestra API y ver cómo encajarían en tus aplicaciones de almacén, puedes empezar con la aplicación web de ejemplo completamente funcional que hemos puesto a disposición en github: platforma/examples/comandos-gramática-aplicación web en master · voicegain/platform (github.com)

Si tiene alguna pregunta, envíenos un correo electrónico a Correo electrónico: info@voicegain.ai. También puedes registrarte para obtener una cuenta gratuita en la plataforma Voicegain a través de nuestra consola web en: https://console.voicegain.ai/signup

Read more → 
Bifurcación de los flujos multimedia de las plataformas de centros de contacto para la transcripción en tiempo real
Desarrolladores
Bifurcación de los flujos multimedia de las plataformas de centros de contacto para la transcripción en tiempo real

Visión general

Las API de transcripción en tiempo real y análisis de voz de Voicegain pueden acceder a los datos de audio de transmisión en tiempo real desde los sistemas de telefonía IP o comunicaciones unificadas (por ejemplo, de Avaya, Cisco, Genesys) mediante 3 enfoques:

  • SIPREC
  • SORBO, INVITACIÓN
  • Integración programable (mediante API)

Los detalles de cada uno de esos enfoques se describen a continuación.

Casos de uso

Los casos de uso de las API de análisis de voz y transcripción en tiempo real son los siguientes:

  1. Asistencia de agentes en tiempo real en los centros de contacto para el servicio al cliente
  2. Asistencia en tiempo real para el personal de ventas (SDR, ingenieros de ventas, EA) para conversaciones y reuniones telefónicas
  3. Información en tiempo real de las reuniones internas

Las API de transcripción convierten el audio en texto en tiempo real. Las API de análisis de voz ofrecen análisis tanto de texto (intenciones, sentimientos, entidades y palabras clave de NLU) como de audio (tono, silencio, OverTalk, etc.).


SIPREC

El SIPREC se usa generalmente para la grabación de llamadas, pero el estándar esencialmente proporciona una transmisión de audio en tiempo real desde la llamada telefónica, lo que lo hace adecuado para aplicaciones que tienen que funcionar en tiempo real.


La interfaz SIPREC de Voicegain se ha probado en las siguientes plataformas:

  • Avaya Enterprise SBC: también admite la integración AES/TSAPI de Avaya para obtener más metadatos de llamadas
  • Broadsoft SIPREC Sipá
  • Puente integrado de Cisco (BIB): la funcionalidad de puente integrado está disponible en algunos de los teléfonos VoIP de tercera generación de Cisco y es compatible con la versión 6.0 y superior del UCM de Cisco.
  • Elemento fronterizo unificado de Cisco (CUBE) de Cisco
  • Metaswitch SIPREC sipua - La versión mínima de Metaswitch compatible con SIPREC es la 9.0.10
  • Oracle SBC SIPREC - Grabación selectiva de llamadas SIPREC (oracle.com)
  • Twilio Twiml <Siprec>

Voicegain puede capturar los metadatos relevantes de la llamada además de obtener el audio (la funcionalidad de captura de metadatos puede diferir en sus capacidades según la plataforma del cliente).

La plataforma Voicegain se puede configurar para iniciar automáticamente la transcripción y el análisis de voz tan pronto como se establezca la nueva sesión de SIPREC.

La compatibilidad con SIPREC está disponible en las implementaciones en la nube y Edge (OnPrem) de la plataforma Voicegain.

SIPREC es una función empresarial de la plataforma Voicegain y no está incluida en el paquete básico. Ponte en contacto con support@voicegain.ai o envía un ticket de Zendesk para obtener más información sobre SIPREC y si quieres usarlo con tu cuenta de Voicegain actual.

SORBO, INVITACIÓN

Algunas plataformas, como Genesys, por ejemplo, no son compatibles con SIPREC. En su lugar, pueden ofrecer la posibilidad de enviar una transmisión de audio de canales separados o combinados a un destino negociado mediante un SIP INVITE. La plataforma Genesys, por ejemplo, admite la transmisión de los medios RTP entrantes y salientes a dos puntos finales SIP independientes.

La plataforma Voicegain le permite definir direcciones SIP que aceptarán dicho SIP INVITE. Como parte del SIP INVITE, se pueden enviar cabeceras SIP personalizadas para proporcionar información que permita cerrar la sesión y transmitir cualquier metadato adicional. Al establecer la conexión SIP, Voicegain realizará una llamada HTTP a un punto final específico para confirmar la conexión y transferir todos los datos de la conexión.

Integración programable

Algunas plataformas UC, en particular las versiones más recientes, proporcionan capacidades adicionales para acceder a la transmisión de audio en tiempo real. En muchas de ellas, esta capacidad se añadió específicamente para simplificar la integración con los servicios de conversión de voz a texto en la nube.

Algunos ejemplos de este tipo de integración son:

  • Utilice Avaya DMCC (que forma parte de los servicios de habilitación de aplicaciones (AE) de Avaya Aura®) para abrir transmisiones de RTP con el contenido de la llamada
  • Utilice la bifurcación de medios extendida (XMF) proporcionada por Cisco Servicios de pasarela de comunicaciones unificadas
  • Cinco 9 Flujo de voz

La plataforma Voicegain proporciona varios protocolos que permiten una integración programable flexible:

  • websockets - se admite el envío de datos de audio binarios a través de websocket. Además de los datos binarios, también se admiten los protocolos de mensajes utilizados en Twilio y SignalWire para la transmisión de audio a través de websocket. (Si es necesario, podemos añadir fácilmente la compatibilidad con protocolos de mensajes adicionales).
  • gRPC - los datos de audio binarios también se pueden enviar mediante el protocolo gRPC. Tenga en cuenta que esta capacidad se encuentra actualmente en fase beta.
  • RTP simple. Voicegain también es compatible con RTP simple. Sin embargo, la negociación de IP, puerto y codificación debe realizarse mediante nuestra API HTTP. No admitimos RTCP ni RTSP. La API HTTP es muy sencilla y algunos de nuestros clientes ya han integrado este tipo de transmisión RTP simple mediante XMF en el entorno UC de Cisco.

Todos esos protocolos admiten la codificación ULaw, aLaw y Linear de 16 bits con una frecuencia de muestreo de 8 o 16 kHz.

¿Te interesa Voicegain? ¡Llévanos a hacer una prueba de manejo!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquípara crear una cuenta de desarrollador y recibir 50$ en créditos gratis.

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.



Read more → 
La redacción de texto y audio de PII ahora está disponible en la API Speech Analytics
Análisis de voz
La redacción de texto y audio de PII ahora está disponible en la API Speech Analytics

Nuestra última versión (1.24.0) amplía la API de transcripción y análisis de voz de Voicegain con la capacidad de redactar datos confidenciales tanto en la transcripción como en el audio. Esto permite a nuestros clientes cumplir con estándares como la HIPAA, GDPR, CCPA, PCI o PIPEDA.

Cualquiera de los siguientes tipos de entidades nombradas se puede redactar en el texto de la transcripción y/o en el archivo de audio.

  • DIRECCIÓN: dirección postal.
  • CARDINAL: Números que no pertenecen a otro tipo.
  • CC - Tarjeta de crédito
  • FECHA: fechas o períodos absolutos o relativos.
  • CORREO ELECTRÓNICO - (próximamente) Dirección de correo electrónico
  • EVENTO: huracanes, batallas, guerras, eventos deportivos, etc. nombrados.
  • FAC - Edificios, aeropuertos, autopistas, puentes, etc.
  • GPE: países, ciudades, estados.
  • NORP: Nacionalidades o grupos religiosos o políticos.
  • DINERO: valores monetarios, incluida la unidad.
  • ORDINAL: «primero», «segundo», etc.
  • ORG - Empresas, agencias, instituciones, etc.
  • PORCENTAJE: porcentaje, incluido el «%».
  • PERSONA: personas, incluso ficticias.
  • TELÉFONO: (próximamente) Número de teléfono.
  • CANTIDAD: medidas, como el peso o la distancia.
  • SSN: número de seguro social
  • HORA: documentos nombrados convertidos en leyes.
  • ZIP: (próximamente) Código postal (si no forma parte de una dirección)

En el audio se sustituyen por silencio y en la transcripción se sustituyen por una cadena especificada al realizar la solicitud a la API.

Esta función es compatible tanto en la nube como en Edge (local).

Dos casos de uso típicos son:

  • Habilite la redacción como parte del procesamiento normal, por ejemplo, de las llamadas al centro de llamadas
  • Realice un procesamiento masivo del audio almacenado que anteriormente no se había procesado correctamente para lograr el cumplimiento. En combinación con el bajo precio por minuto de las API de Voicegain, esto permite a nuestros clientes procesar datos de audio de gran calidad de forma rentable.


Read more → 
Voicegain ofrece conversión de voz a texto en español
Idiomas
Voicegain ofrece conversión de voz a texto en español

La semana pasada anunciamos que la función de conversión de voz a texto en español estaría disponible en Voicegain en marzo. Hoy nos complace anunciar que hemos podido completar el entrenamiento del modelo de redes neuronales en español antes de lo esperado y que la conversión de voz a texto en español se publicó el sábado pasado (20 de febrero) como parte de nuestra versión 1.24.0.

Hemos podido completar el trabajo en el modelo español de principio a fin en exactamente 3 semanas; empezamos a trabajar en él el 3 de febrero. Este progreso tan rápido ha sido posible gracias a nuestra amplia experiencia en la personalización de modelos de redes neuronales para el reconocimiento de voz y al hecho de que hemos desarrollado herramientas avanzadas y técnicas comprobadas que agilizan el desarrollo y el entrenamiento de los modelos de voz a texto.

La precisión del reconocimiento del modelo depende del tipo de audio de voz. En la mayoría de los archivos de referencia, la precisión de nuestro modelo español es solo un porcentaje inferior a la de los reconocedores de Google o Amazon. La ventaja de nuestro reconocedor es su precio significativamente más bajo y la posibilidad de entrenar modelos acústicos personalizados. Los modelos personalizados pueden tener una precisión superior a la de Amazon o Google. Le recomendamos que utilice nuestra consola web o nuestra API para probar el rendimiento real con sus propios datos. Por cierto, estamos enfocando este modelo de conversión de voz a texto en el español latinoamericano.

Por supuesto, la plataforma Voicegain también ofrece otras ventajas, como la compatibilidad con despliegues Edge (locales) y una amplia API con muchas opciones para la integración inmediata en, por ejemplo, entornos de telefonía.

Actualmente, la API Speech-to-Text es totalmente funcional con el modelo español. Algunas de las funciones de la API de análisis de voz aún no están disponibles para el español, por ejemplo, el reconocimiento de entidades nombradas o la detección de sentimentos/estados de ánimo.

Inicialmente, el modelo español solo está disponible en la versión que admite la transcripción fuera de línea. La versión en tiempo real del modelo estará disponible en un futuro próximo,

Para decirle a la API que quieres usar el modelo acústico español, todo lo que tienes que hacer es elegirlo en la configuración de contexto. Los modelos españoles tienen «es» en el nombre, por ejemplo, Voicegain-ol-es:1

Read more → 
Característica única: soporte de transmisión RTP
Telefonía
Característica única: soporte de transmisión RTP

La plataforma de conversión de voz a texto Voicegain ha admitido la transmisión RTP desde el principio. Una de nuestras primeras aplicaciones, hace varios años, fue la transcripción en directo con la utilidad ffmpeg, que se utilizaba para capturar audio de un dispositivo y transmitirlo a la plataforma Voicegain mediante RTP. Con el tiempo, añadimos protocolos más robustos y el RTP se utilizaba muy poco. Sin embargo, recientemente, en una de nuestras implementaciones, nos topamos con un caso práctico en el que la transmisión por RTP permitía a nuestro cliente realizar la integración de una manera muy sencilla dentro de una pila de telefonía de un centro de llamadas.

La plataforma Voicegain admite protocolos de transmisión más avanzados para uso en centros de llamadas, como SIPREC o SIP/RTP (SIP Invite). Sin embargo, en este uso en particular, pudimos transmitir desde Cisco CUBE directamente a Voicegain mediante un RTP simple. Al recibir una llamada entrante, se activa un script que usa HTTP para establecer una nueva sesión de transcripción de Voicegain. En la respuesta de la sesión, se devuelven los parámetros ip:port del receptor RTP específicos de la sesión y se pasan al CUBE para establecer una conexión RTP directa.

El RTP utilizado de esta manera no proporciona autenticación ni seguridad, lo que lo haría generalmente inadecuado para su uso a través de Internet. Sin embargo, en este caso de uso concreto, nuestro cliente se beneficia del hecho de que todo el conjunto de Voicegain se puede implementar localmente. Al estar en la misma red aislada que el CUBE, no hay problemas de seguridad ni de pérdida de paquetes.

Un ejemplo

Puedes visitar nuestro github para ver un ejemplo de código python que muestra cómo establecer la sesión de voz a texto, cómo dirigir el remitente del RTP al punto final del receptor y cómo recibir el resultado de la transcripción en tiempo real a través de un websocket.

El comando para establecer la sesión es tan simple como esto:


La sección de audio define la parte de transmisión de RTP y la sección websocket define cómo se enviarán los resultados a través de un websocket.

La respuesta tiene este aspecto:

En el ejemplo de github stream.ip y stream.port se pasan a ffmpeg, que se utiliza como cliente de streaming RTP. El ejemplo ilustra con más detalle cómo procesar los mensajes con resultados de transcripción incrementales enviados en tiempo real a través del websocket.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Category 1
This is some text inside of a div block.
by Jacek Jarmulak • 10 min read

Donec sagittis sagittis ex, nec consequat sapien fermentum ut. Sed eget varius mauris. Etiam sed mi erat. Duis at porta metus, ac luctus neque.

Read more → 
Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control