A partir del 5 de agosto de 2020, la programación en Python con la API Voicegain Speech-to-Text (STT) se hizo aún más fácil con el lanzamiento de la versión oficial ganancia de voz - voz paquete a Repositorio del índice de paquetes de Python (PyPI).
El paquete SDK está disponible en: https://pypi.org/project/voicegain-speech/
El código fuente del SDK está disponible en: https://github.com/voicegain/python-sdk
Este paquete incluye la API web Voicegain Speech-to-Text. Puede encontrar una vista previa de las especificaciones de la API en: https://www.voicegain.ai/api
La documentación completa sobre las especificaciones de la API está disponible en: https://console.voicegain.ai/api-documentation
Las API principales son para conversión de voz a texto, ya sea para transcripción o reconocimiento (se describen con más detalle a continuación). Otras API disponibles incluyen:
- Las API de devolución de llamadas de RTC que, además de la conversión de voz a texto, permiten el control de la sesión de RTC (por ejemplo, una llamada telefónica).
- API de Websocket para administrar websockets de transmisión que se utilizan en la transcripción en tiempo real.
- APIs de creación y manipulación de modelos de lenguaje.
- API de carga de datos que ayudan en ciertos escenarios de uso de STT.
- Conjunto de API de entrenamiento: para su uso en la preparación de datos para el entrenamiento de modelos acústicos.
- API GREG: para trabajar con ASR y la herramienta de ajuste gramatical: GREG.
API de transcripción
/asr/transcribirLa API Transcribe le permite enviar audio y recibir el texto transcrito palabra por palabra desde el motor STT. Esta API utiliza nuestro modelo de lenguaje de vocabulario extenso y admite audio de formato largo en modo asíncrono.
La API se puede usar, por ejemplo, para transcribir datos de audio, ya sean podcasts, correos de voz, grabaciones de llamadas, etc. En el modo de transmisión en tiempo real, se puede usar, por ejemplo, para crear robots de voz (la aplicación tendrá que proporcionar capacidades de NLU para determinar la intención a partir del texto transcrito).
El resultado de la transcripción se puede devolver en cuatro formatos:
- Transcripción - Contiene el texto completo de la transcripción
- Palabras - Los resultados intermedios contendrán palabras nuevas, con tiempos y confidencias, con respecto al resultado intermedio anterior. El resultado final contendrá la transcripción completa.
- Árbol de palabras - Contiene un árbol de todas las alternativas posibles. Utilícelo cuando realice la integración con el posprocesamiento de NL para determinar el enunciado final y su significado.
- Subtítulos - Los resultados intermedios podrán usarse como subtítulos (esta función está en versión beta).
Reconocer la API
/asr/reconocerEsta API se debe utilizar si desea restringir los resultados del reconocimiento del STT a la gramática del habla que se envía junto con el audio (se utilizan gramáticas en lugar del modelo de lenguaje de vocabulario extenso).
Si bien tener que proporcionar gramáticas es un paso adicional (en comparación con la API de Transcribe), pueden simplificar el desarrollo de aplicaciones, ya que el significado semántico se puede extraer junto con el texto.
Otra ventaja del uso de la gramática es que pueden ignorar palabras del enunciado que están fuera de la gramática, lo que sigue ofreciendo reconocimiento, aunque con menor confianza.
Voicegain admite gramáticas en los formatos JSGF y GRXML, ambos estándares gramaticales utilizados por las empresas en los IVR desde principios de la década de 2000. La API de reconocimiento solo admite audio de formato corto, no más de 60 segundos.