La API de análisis de voz de Voicegain está disponible de forma general

Voicegain ha lanzado su API Speech Analytics (SA) que admite una variedad de tareas de análisis realizadas en el audio o la transcripción de ese audio. Las funciones compatibles con la API de Voicegain SA se eligieron para nuestro caso de uso principal, que es el procesamiento de las llamadas al centro de llamadas.

Cosas que Speech Analytics puede hacer ahora (a partir de la versión 1.22.0)

La versión actual admite desconectado Análisis de voz. Los datos que se pueden obtener a través de la API de análisis de voz se enumeran a continuación.

Tenga en cuenta que aquí no incluimos elementos que también se puedan obtener de nuestra API de transcripción, como: la transcripción, los valores de decibelios, las zonas de audio, etc. Sin embargo, se podrá acceder a ellos desde la respuesta de la API de Speech Analytics.

Análisis por canal:

género - género probable del hablante según las características de la voz. Actualmente es «masculino» o «femenino».
emoción - Tanto los totales de toda la llamada como una lista de valores calculados en varios lugares de la transcripción. Cada elemento contendrá valores de: (1) sentimiento - de -1,0 (enfadado/enfadado) a +1,0 (feliz/satisfecho) (2) estado animico - un mapa con valores estimados (rango de 0.0 a 1.0) para los siguientes estados de ánimo: «neutral» «tranquilo» «feliz» «triste» «enojado» «temeroso» «disgusto» «sorprendido» (3) ubicación: inicio y final en milisegundos e índice de la palabra
Entidades nombradas reconocido en la llamada. Será una lista con el tipo de entidad y la ubicación de la llamada. Los valores NER admitidos son: CARDINAL: números que no pertenecen a otro tipo.Fecha: fechas o períodos absolutos o relacionados.Evento: huracanes, batallas, guerras, eventos deportivos, etc.FAC: edificios, aeropuertos, autopistas, puentes, etc.GPE: países, ciudades, estados.NORP: nacionalidades o grupos religiosos o políticos.Dinero: valores monetarios, incluida la unidad.Ordinal: «primero», «segundo», etc. .org - Empresas, agencias, instituciones, etc. Porcentaje: porcentaje, incluido el «%» .PERSONA: personas, incluidas las ficticias. Cantidad: medidas, según el peso o Distance.time: documentos nombrados convertidos en leyes.
palabras clave - lista de palabras clave o grupos de palabras clave reconocidos en la llamada. Las palabras clave que se deben reconocer se pueden configurar fácilmente a partir de ejemplos.
blasfemia - se trata esencialmente de un grupo de palabras clave predefinido
habla métricas: cosas como la racha de conversación máxima y media, la velocidad de conversación, la energía
exagerar métricas: la exageración ocurre si el hablante comienza a hablar mientras el otro ya está hablando.

Análisis global:

silenciar métricas: se definen como el tiempo en el que ninguno de los canales habla. Nota: Se supone que solo el agente tiene el control del tiempo de uso de la palabra. Esto es una simplificación, pero es difícil determinar si el silencio fue causado por la persona que llamó y fue inevitable.
nube de palabras frecuencias: datos de nube de palabras inteligentes en los que se eliminan las palabras de parada y se eliminan las variaciones de las palabras antes de calcular las frecuencias

Las funciones de Speech Analytics estarán disponibles próximamente

En tiempo real Speech Analytics estará disponible en un futuro próximo. Pronto también planeamos lanzar la compatibilidad con tarjetas de puntuación para Speech Analytics.

Próximamente se publicarán análisis por canal:

Dos entidades nombradas adicionales: CC - Tarjeta de crédito,SSN - Número de seguro social
edad - edad estimada del hablante en función de las características de la voz. Tres valores posibles: «joven-adulto», «senior», «desconocido»
frases - lista de frases o grupos de frases reconocidos en la llamada. Estos se identifican mediante algoritmos de NLU, básicamente los mismos que se utilizan para identificar la NLU intentos. Las frases que se van a reconocer se pueden configurar a partir de ejemplos.
lanzamiento las estadísticas se añadirán a habla métricas

Además, pronto apoyaremos Redacción de PII de cualquier entidad nombrada a partir de la transcripción o el audio.

Tipos de audio compatibles

La API Speech Analytics admite los siguientes tipos de entrada de audio:

2 canales audio (estéreo) como el que se encuentra normalmente en los centros de llamadas donde la voz de la persona que llama se graba en un canal y la voz del agente se graba en el otro canal. Algunas métricas, como la sobreconversación, por ejemplo, solo se pueden calcular si el audio de entrada es de este tipo.
1 canal audio con dos altavoces: para este tipo de audio diarización se realizará para separar los dos altavoces. El análisis por canal se realizará después de la diarización. Las métricas de Overtalk no están disponibles para este caso de uso.

Puedes ver la especificación de la API aquí.

‍

Casey

AI Voice Agent Platform

Transcribe