Durante años, los procesos de QA han sido esenciales para garantizar la calidad del software. Las pruebas funcionales, la automatización, la regresión o la validación de integraciones han permitido reducir errores y controlar despliegues con un alto grado de confianza.
Sin embargo, la incorporación de capas de Inteligencia Artificial cambia el escenario.
Cuando una aplicación integra modelos generativos, agentes conversacionales, sistemas RAG o asistentes virtuales, el comportamiento del sistema deja de ser completamente determinista. Ya no basta con comprobar que ante una entrada concreta se obtiene siempre una salida exacta y previsible. En muchos casos, lo importante no es solo si el sistema responde, sino la calidad de la respuesta: apropiada, segura, coherente y alineada con el contexto de negocio.
La IA rompe la lógica clásica del testing
El QA tradicional se apoya en una idea sencilla: se define una entrada, se espera una salida y se comprueba si el resultado coincide con lo previsto. Este enfoque funciona bien en software convencional, donde los criterios de éxito suelen ser objetivos y medibles.
Pero en sistemas con IA, una misma pregunta puede tener varias respuestas válidas. Además, puede estar bien redactada, pero ser incompleta. Puede parecer convincente, pero contener información inventada. O puede resolver el caso general y fallar precisamente en una excepción crítica.
La IA Introduce errores semánticos, contextuales y de comportamiento. Y esos errores no siempre pueden detectarse con mecanismos clásicos de validación.
El QA manual no escala
La revisión manual aporta valor, sobre todo en fases tempranas. Permite entender cómo se comporta el sistema, detectar patrones de fallo y valorar la experiencia desde una perspectiva humana. Sigue siendo idónea para tests de guerrilla.
El problema aparece cuando el QA manual se convierte en el principal mecanismo de control, pues evaluar manualmente una solución de IA implica revisar respuestas, conversaciones, documentos recuperados, decisiones tomadas por el sistema y posibles desviaciones respecto al comportamiento esperado. Además, validar que funcione una vez no es definitivo, pues el carácter no determinista de la IA no nos permite asegurarlo. Requiere criterio, contexto y tiempo.
Y para ponérselo aún más difícil, la solución puede enfrentarse en producción a miles de variaciones: usuarios con perfiles distintos, preguntas ambiguas, instrucciones maliciosas, documentos incompletos, cambios en el modelo, modificaciones en los prompts o nuevas combinaciones de contexto.
Además, la evaluación manual puede ser inconsistente. Dos QAs pueden valorar de forma distinta una misma respuesta. En sistemas donde la frontera entre lo que es aceptable y no puede ser sutil, esa variabilidad supone un problema que puede hacer que los creadores del sistema no vayan en una dirección estable y progresiva.
Por eso, el QA manual debe formar parte del proceso, pero no puede ser el proceso completo.
La automatización básica tampoco basta
La alternativa natural al QA manual es automatizar. En software tradicional, esta estrategia funciona muy bien. Frameworks como Selenium, Cypress, Playwright, JUnit o Postman permiten ejecutar pruebas repetibles, integrarlas en pipelines CI/CD y detectar regresiones rápidamente.
Pero en sistemas con IA aparece una limitación clave: la automatización básica puede ejecutar la prueba, pero no siempre puede interpretar correctamente el resultado. ¡La semántica y el indeterminismo nos ataca!
Un framework tradicional puede comprobar si una API responde, si el formato JSON es válido o si una respuesta contiene una palabra determinada. Pero eso no basta para validar una respuesta generada por IA.
Una respuesta puede incluir las palabras esperadas y seguir siendo incorrecta. Puede estar bien redactada, pero inventarse una condición comercial. Puede sonar convincente, pero responder con seguridad a algo que debería escalar a un humano.
El hecho de que no sea una persona la que valida el test acelera el número de tests pero no mejora y en ocasiones empeora la calidad de la decisión pues las soluciones con IA requieren validar significado, intención, seguridad, robustez y alineamiento con reglas de negocio.
Evaluar IA significa evaluar comportamiento
¿El sistema entiende correctamente la intención del usuario? ¿Utiliza información fiable para responder? ¿Evita inventar datos cuando no tiene contexto suficiente? ¿Respeta políticas internas, privacidad y restricciones regulatorias? ¿Detecta instrucciones maliciosas o intentos de prompt injection? ¿Sabe cuándo no debe responder? ¿Se comporta igual tras un cambio de modelo, prompt o base documental?
Estas preguntas exigen métricas específicas, datasets de evaluación, escenarios sintéticos, casos adversariales y comparación entre versiones.
La calidad en IA no es una foto fija. Es un proceso continuo.
No basta con una demo convincente
Uno de los errores más frecuentes en proyectos de IA es asumir que una demo convincente equivale a un sistema preparado para producción.
Un agente puede responder correctamente a los casos probados durante una presentación y, aun así, fallar ante preguntas reformuladas, documentos ambiguos, instrucciones contradictorias o intentos deliberados de manipulación.
Además, pequeños cambios pueden tener impactos inesperados. Modificar un prompt, actualizar una base documental, cambiar el modelo o ajustar un sistema de recuperación puede mejorar algunos casos y empeorar otros.
En IA, una regresión puede no romper ningún endpoint ni generar ningún error técnico. Puede simplemente degradar la calidad, la precisión o la seguridad de las respuestas.
Y eso hace que muchas incidencias pasen desapercibidas hasta que llegan al usuario final.
Hacia un QA específico para IA
Validar soluciones con Inteligencia Artificial exige ampliar el enfoque clásico de QA con nuevas capacidades.
Es necesario generar casos de prueba variados y representativos, no solo una lista limitada de preguntas frecuentes. También es imprescindible definir métricas específicas: precisión, seguridad, consistencia, completitud, capacidad de rechazo, cumplimiento normativo, uso correcto del contexto y alineamiento con reglas de negocio.
Además, cada cambio debe poder compararse contra una línea base. Solo así es posible saber si una nueva versión mejora realmente el comportamiento global o si introduce desviaciones en casos que antes funcionaban correctamente.
En este contexto, plataformas especializadas como Galtea permiten abordar la evaluación de soluciones de IA de forma más sistemática. Galtea ayuda a generar escenarios de prueba, simular comportamientos realistas y medir los sistemas con criterios estructurados, facilitando la comparación entre versiones y la detección de riesgos antes del despliegue. Y todo esto apoyado en una base científica y alineada con los papersmás importantes al respecto.
Conclusión: la confianza en IA se mide
El QA tradicional sigue siendo necesario. Las pruebas funcionales, la automatización, la integración continua, la validación de APIs y las pruebas de seguridad convencional continúan siendo fundamentales.
Pero cuando una solución incorpora Inteligencia Artificial, ya no son suficientes por sí solas.
La IA obliga a evolucionar desde un modelo centrado en verificar funcionalidades hacia un modelo orientado a evaluar comportamientos. No se trata solo de comprobar si el software funciona, sino de determinar si podemos confiar en cómo responde, cómo decide y cómo actúa ante situaciones reales, ambiguas o inesperadas.
El QA manual seguirá aportando criterio. La automatización tradicional seguirá aportando eficiencia. Pero ambos deben complementarse con metodologías y herramientas diseñadas específicamente para evaluar IA.
Porque en este nuevo escenario donde el uso de la IA se erige como un multiplicador en fases de desarrollo, no podemos dejar atrás a nuestros equipos QA enfrentándoles en desventaja a este aumento de capacidades.

