Como ya hemos visto en otros artículos, la tecnología de reconocimiento de voz automática (ASR) emplea dispositivos y software para identificar y procesar el lenguaje oral, al igual que se puede usar para verificar la identidad de una persona a través de su voz. El reconocimiento automático de voz (ASR) está en todas partes, desde los subtítulos automáticos en YouTube hasta en los asistentes virtuales como Siri, Google Assistant y Alexa.
Sin embargo, aunque ha habido avances significativos en esta tecnología en los últimos años, no siempre ofrece resultados precisos. Durante el proceso de reconocimiento de voz y su posterior traducción a texto, algunas palabras pueden ser omitidas o traducidas incorrectamente. Esto, en pocas palabras, es el “word error rate” (WER), que se podría traducir en español como la «tasa de error de palabra».
En este artículo definiremos en detalle qué es el WER y por qué debes de tenerlo en cuenta a la hora de evaluar con precisión el sistema de ASR que consideres implementar en tu Call Center.
¿Qué es el WER?
La tasa de error de palabras (WER) es una métrica común para medir la precisión en la conversión de voz a texto. El WER evalúa la precisión del reconocimiento de voz, siendo un indicador de la cantidad de errores que se producen en la transcripción en relación con el número total de palabras habladas.
Para calcular el WER, se divide el número de errores totales (la suma de las sustituciones, inserciones y eliminaciones) por el número total de palabras habladas. Esta medida se basa en la distancia de Levenshtein, que mide la diferencia entre dos cadenas de palabras en una transcripción. Por ejemplo, si una transcripción tiene 9 errores en una llamada telefónica de 36 palabras, el WER sería del 25%. Un WER bajo suele ser una señal de mayor precisión del software ASR, mientras que un WER alto indica menor precisión.
Sin embargo, el WER tiene varias limitaciones, ya que no considera la fuente de los errores, como la calidad de grabación, el ruido de fondo, la calidad del micrófono, los términos técnicos o específicos de la industria y la pronunciación del hablante. Además, el WER no toma en cuenta la importancia de las palabras para el propósito específico de la transcripción. Aunque una transcripción puede tener un WER bajo, puede ser menos útil si omite palabras clave relevantes para el análisis, al igual que algunos sistemas con un WER relativamente alto pueden producir datos útiles en contextos específicos. Por lo tanto, es importante considerar cómo una herramienta de reconocimiento de voz manejará los datos y qué palabras son importantes para el propósito de la transcripción.
¿Cómo puede el WER reducir los errores en las llamadas?
Para reducir los errores en las llamadas en un call center, se puede utilizar el WER para monitorear la precisión del sistema de reconocimiento de voz. Si el WER es alto, significa que el sistema está cometiendo muchos errores en la transcripción de la conversación.
Cuando se trata de evaluar soluciones de inteligencia artificial conversacional, es importante considerar que la tasa de error de palabra (WER) es solo una métrica para evaluar el reconocimiento automático del habla (ASR), y que no es perfecta ya que solo cuenta los errores y no considera las variables que los causan. Para reducir estos errores, se pueden tomar las siguientes medidas:
- Mejorar la calidad del audio: El sistema de reconocimiento de voz puede tener dificultades para transcribir con precisión el audio si hay mucho ruido de fondo o la calidad del audio es mala. Por lo tanto, se debe garantizar que los clientes y los agentes tengan una buena calidad de audio en sus dispositivos.
- Entrenamiento del modelo: El sistema de reconocimiento de voz utiliza algoritmos de aprendizaje automático para identificar patrones en la conversación. Si el sistema está cometiendo muchos errores, se puede entrenar el modelo con más datos para mejorar la precisión del sistema.
- Limitar el vocabulario: Si el sistema está reconociendo palabras incorrectas, se puede limitar el vocabulario utilizado en la conversación para reducir la cantidad de palabras que el sistema debe reconocer.
- Uso de gramática y contexto: Se puede utilizar gramática y contexto para ayudar al sistema a comprender mejor la conversación y reducir los errores de reconocimiento.
Sin embargo, el error que cometen muchas empresas es que utilizan el mismo conjunto de datos para entrenar y evaluar sus modelos, lo que puede generar una precisión artificialmente alta. Por lo tanto, es importante seleccionar una herramienta que se ajuste a las necesidades específicas de tu empresa y los datos de audio que se van a analizar.
El ASR de Upbe está desarrollado para transcribir conversaciones telefónicas en español de todos los países de habla hispana. Está entrenado específicamente para el contexto de un Call Center donde hay ruidos de fondo, solapamiento de voces y grabaciones de calidad limitada. Está considerado el ASR con mejor WER (Word Error Ratio) para conversación telefónica en español.
Resolver un problema en un Call Center implica identificar y analizar el problema, buscar soluciones adecuadas, implementar la solución seleccionada y revisar su eficacia para realizar ajustes necesarios. Los problemas pueden variar desde cuestiones técnicas hasta desafíos de rendimiento del personal, y las soluciones pueden incluir la adopción de nuevas tecnologías, la capacitación del personal o la mejora de los procesos y procedimientos actuales.
Para mejorar el Tiempo Promedio de Manejo (TMO en español y AHT en inglés) en un call center, se deben considerar múltiples estrategias, incluyendo el entendimiento de la duración de las respuestas de los agentes en el contexto de la llamada, la reducción de esperas o silencios innecesarios, la mejora del flujo de patrones de conversación mediante el análisis de las emociones y lenguaje del cliente, y la mejora de la formación continua de los agentes. Además, se puede optimizar la logística de las llamadas y supervisar el rendimiento de los equipos y flujos de comunicación para hacer los procesos más eficientes.
Para reducir las llamadas en espera en un Call Center, es fundamental optimizar la eficiencia del proceso y la formación de los agentes. La implementación de tecnologías como el reconocimiento automático del habla (ASR) y el análisis de discurso pueden ayudar a analizar la duración y el contenido de las llamadas, identificar áreas de mejora y formar mejor a los agentes. Además, la optimización de la logística, como la mejora de las redirecciones de llamadas, y la supervisión constante del rendimiento de los equipos, puede ayudar a agilizar los procesos interdepartamentales. Finalmente, las soluciones avanzadas de inteligencia artificial pueden ofrecer un análisis más profundo y contextualizado de las llamadas, lo que puede conducir a un manejo más rápido y eficiente de las mismas, reduciendo así las llamadas en espera.
El mayor desafío en un Call Center es mantener un equilibrio óptimo entre la eficiencia operativa y la calidad del servicio al cliente. Esto implica manejar el tiempo promedio de atención (AHT) de manera efectiva, reduciendo los tiempos de espera y silencios innecesarios, y al mismo tiempo asegurando una interacción de alta calidad que satisfaga las necesidades del cliente. El uso de tecnologías avanzadas como el reconocimiento automático de voz (ASR) y el aprendizaje profundo (Deep Learning) puede ayudar a superar estos desafíos al analizar y entender el contenido y el contexto de las llamadas, lo que permite una mejora continua en la eficiencia y la calidad del servicio.
3 Comments
Comments are closed.