En pocas palabras
La evaluación (o «evals») es medir si un agente de IA responde bien. Le pasamos un montón de pruebas con respuestas correctas conocidas y contamos cuántas acierta. Así sabemos, con números, si funciona bien o si hay que arreglarlo.
Explicado fácil
Imagina que tu profesor quiere saber si has aprendido mates. No te pregunta «¿crees que sabes?», porque cualquiera diría que sí. En vez de eso, te pone un examen con problemas cuya respuesta él ya conoce. Si aciertas 9 de 10, sabe que vas muy bien. Si aciertas 3, sabe que hay que repasar.
La evaluación de un agente es exactamente ese examen. Le preparamos una lista de preguntas con su respuesta correcta y dejamos que el agente las conteste. Después contamos los aciertos y los fallos. Así no nos fiamos de una corazonada: tenemos una nota clara de cómo lo hace.
¿Por qué importa para crear agentes de IA?
Sin evaluación, no sabes si tu agente es bueno; solo lo imaginas. Las evals te dicen si sigue las instrucciones, si se inventa cosas (alucinaciones) y si empeora cuando cambias algo. Eso es importantísimo antes de ponerlo a atender a personas de verdad. Y cuando cambias el modelo o el system prompt, repites el examen para asegurarte de que no has roto nada que antes funcionaba.
Un ejemplo
Haces un agente que resume noticias. Preparas 50 noticias con su resumen ideal escrito a mano. Le pides al agente que resuma las 50 y comparas. Aciertos: 46 buenos, 4 flojos. Cambias el system prompt para mejorarlo y vuelves a pasar el examen: ahora salen 49 buenos. Gracias a la evaluación, sabes con seguridad que el cambio fue una mejora, no un capricho.