En pocas palabras
La cuantización es una técnica para encoger un modelo de inteligencia artificial. En vez de guardar sus números con muchísimos decimales, los guarda con muchos menos. Así el modelo ocupa menos memoria y puede correr en un ordenador o una tarjeta gráfica normales, sin necesitar un superordenador.
Explicado fácil
Imagina que quieres apuntar el precio de muchas cosas. Podrías escribir «3,4892719 euros», con un montón de decimales que casi no cambian nada. O podrías escribir «3,5 euros». La segunda forma ocupa menos espacio en tu libreta y, para casi todo, sirve igual de bien.
La cuantización hace eso mismo con los millones de números que tiene dentro un modelo de IA. Les recorta los decimales que casi no importan. El modelo pesa mucho menos, cabe en aparatos pequeños y va más rápido. Pierde un poquito de finura, pero tan poco que casi no se nota, igual que redondear el precio a «3,5».
¿Por qué importa para crear agentes de IA?
Los modelos buenos son enormes y normalmente viven en servidores caros y lejanos. Con la cuantización puedes hacer que un modelo corra en tu propio ordenador, sin depender de internet ni pagar por cada uso. Herramientas como Ollama o LM Studio usan modelos cuantizados (por ejemplo en formato GGUF) para que cualquiera pueda tener un agente funcionando en casa. Eso significa más privacidad, menos coste y la posibilidad de experimentar sin límites.
Un ejemplo
Quieres montar un asistente que lea tus documentos sin enviarlos a ningún sitio. El modelo original pesa tanto que no cabe en tu tarjeta gráfica. Descargas su versión cuantizada a 4 bits: ahora ocupa la cuarta parte y arranca sin problemas en tu equipo. Responde casi igual de bien, pero ya cabe en casa y no comparte tus datos con nadie.