La mayoría de equipos no tiene un problema de modelos. Tiene un problema de métricas.
Porque cuando preguntas “¿qué tal funciona vuestro agente?”, la respuesta suele ser: “Bastante bien”. Pero… ¿qué significa exactamente “bien”?
En sistemas tradicionales era más fácil:
→ o funciona, o no funciona
En agentes de IA, no. Un agente puede:
1️⃣ Responder correctamente… pero no resolver el problema
2️⃣ Tomar una decisión razonable… pero no óptima para negocio
3️⃣ Completar una tarea… pero con fricciones invisibles
Y si no tienes métricas diseñadas para capturar eso, estás operando a ciegas.
Aquí es donde vemos el mayor gap en empresas que están desplegando agentes:
No han definido qué significa “bueno” en su contexto real. Y sin esa definición:
→ no puedes validar
→ no puedes comparar
→ no puedes mejorar
En Serquo trabajamos este punto antes incluso de hablar de tecnología.
Porque definir métricas no es un ejercicio técnico. Es un ejercicio de negocio.
Algunos ejemplos reales que implementamos con clientes:
• En atención al cliente: no medimos respuestas correctas, medimos resolución sin escalado
• En ventas: no medimos interacción, medimos impacto en conversión
• En operaciones: no medimos ejecución, medimos errores evitados y tiempo ahorrado
Después, sí: usamos Galtea para ejecutar estas evaluaciones a escala, con escenarios realistas y resultados trazables.
Pero la diferencia no está en ejecutar tests. Está en saber qué estás midiendo… y por qué.
Porque cuando defines bien las métricas, ocurre algo interesante. Dejas de preguntarte si el agente “funciona” y empiezas a entender si realmente aporta valor.