Evaluación (evals)

Ponerle exámenes a un agente de IA para comprobar, con pruebas y notas, si de verdad hace bien su trabajo.

En pocas palabras

La evaluación (o «evals») es medir si un agente de IA responde bien. Le pasamos un montón de pruebas con respuestas correctas conocidas y contamos cuántas acierta. Así sabemos, con números, si funciona bien o si hay que arreglarlo.

Explicado fácil

Imagina que tu profesor quiere saber si has aprendido mates. No te pregunta «¿crees que sabes?», porque cualquiera diría que sí. En vez de eso, te pone un examen con problemas cuya respuesta él ya conoce. Si aciertas 9 de 10, sabe que vas muy bien. Si aciertas 3, sabe que hay que repasar.

La evaluación de un agente es exactamente ese examen. Le preparamos una lista de preguntas con su respuesta correcta y dejamos que el agente las conteste. Después contamos los aciertos y los fallos. Así no nos fiamos de una corazonada: tenemos una nota clara de cómo lo hace.

¿Por qué importa para crear agentes de IA?

Sin evaluación, no sabes si tu agente es bueno; solo lo imaginas. Las evals te dicen si sigue las instrucciones, si se inventa cosas (alucinaciones) y si empeora cuando cambias algo. Eso es importantísimo antes de ponerlo a atender a personas de verdad. Y cuando cambias el modelo o el system prompt, repites el examen para asegurarte de que no has roto nada que antes funcionaba.

Un ejemplo

Haces un agente que resume noticias. Preparas 50 noticias con su resumen ideal escrito a mano. Le pides al agente que resuma las 50 y comparas. Aciertos: 46 buenos, 4 flojos. Cambias el system prompt para mejorarlo y vuelves a pasar el examen: ahora salen 49 buenos. Gracias a la evaluación, sabes con seguridad que el cambio fue una mejora, no un capricho.

Volver al glosario Aprende a crear tu agente
Guía gratuita

Crea tu primer agente de IA, paso a paso

Descarga la guía en PDF: 12 secciones, ejemplos reales y datos de 2026. Gratis.