¿Qué modelos de embeddings soporta Ollama?

Ollama incluye modelos de embeddings especializados: nomic-embed-text (768 dimensiones, menos de 300 MB), mxbai-embed-large (1024 dimensiones, mayor precisión) y all-minilm (384 dimensiones, muy rápido). Estos modelos generan vectores a través del endpoint /api/embeddings y son ideales para pipelines RAG.

¿Qué es la cuantización en modelos de Ollama y cuál debo elegir?

La cuantización reduce la precisión numérica de los pesos del modelo para ahorrar memoria. Q4_K_M es el valor por defecto de Ollama y el recomendado para la mayoría de casos: ofrece 95-98% de la calidad del modelo original con el 25-30% del tamaño. Q8_0 mantiene mejor calidad pero ocupa el doble. Q2_K es la más comprimida pero la calidad baja notablemente.

Más de 4 500 modelos disponibles — mayo 2026

Modelos de Ollama: catálogo, comandos y cómo elegir el adecuado

Q: ¿Qué diferencia hay entre ollama pull y ollama run?

ollama pull descarga el modelo sin ejecutarlo, útil para preparar modelos antes de necesitarlos. ollama run descarga el modelo si no existe localmente y abre inmediatamente una sesión de chat interactiva. Para scripts o pipelines automatizados es preferible usar ollama pull primero para asegurar que el modelo esté disponible.

Q: ¿Cuánta VRAM necesito para Llama 3.1 8B en Ollama?

La versión cuantizada Q4_K_M de Llama 3.1:8b ocupa aproximadamente 4.7 GB de VRAM. Con una GPU de 6 GB (como una RTX 3060) puedes ejecutarla cómodamente. La versión completa en FP16 requiere 16 GB de VRAM. Ollama descarga por defecto la cuantización Q4_K_M, que ofrece el mejor equilibrio entre calidad y tamaño.

Q: ¿Cómo creo un modelo custom con Modelfile en Ollama?

Crea un archivo llamado Modelfile con las instrucciones FROM (modelo base), SYSTEM (prompt del sistema) y PARAMETER (temperatura, contexto, etc.). Luego ejecuta "ollama create nombre-modelo -f Modelfile" para registrar el modelo. Una vez creado, aparece en "ollama list" y puedes ejecutarlo con "ollama run nombre-modelo".

Ollama pone a tu disposición más de 4 500 modelos de lenguaje descargables en un solo comando. Esta guía recorre las familias principales —Llama, Qwen, Mistral, DeepSeek, Gemma y Phi—, explica cómo descargarlos con ollama pull, qué cuantización elegir según tu hardware y cómo crear modelos personalizados con Modelfile para adaptarlos a tu caso de uso.

Lo esencial sobre los modelos de Ollama

Más de 4 500 modelos disponibles en ollama.com/library, incluyendo Llama 4, Qwen3, Mistral, DeepSeek-R1 y Gemma 2.
Un solo comando descarga y ejecuta cualquier modelo: ollama run nombre:tag.
Ollama selecciona automáticamente la cuantización Q4_K_M por defecto, el mejor equilibrio calidad/tamaño.
Los modelos de embeddings como nomic-embed-text generan vectores a través del endpoint /api/embeddings.
Con Modelfile puedes crear asistentes personalizados sobre cualquier modelo base en menos de 10 líneas.

Diagrama de categorías de modelos en Ollama: chat, código, embeddings, visión y especializados — Las cinco categorías principales de modelos disponibles en la librería de Ollama con ejemplos y casos de uso.

Comandos básicos

Cómo descargar modelos con ollama pull

Todos los modelos del catálogo de Ollama se descargan con el mismo patrón de comandos. El formato es nombre:tag donde el tag específica el tamaño y la cuantización.

# Descargar un modelo (sin ejecutarlo aún)
ollama pull llama3.2

# Descargar un tamaño específico
ollama pull llama3.1:8b
ollama pull llama3.1:70b

# Descargar una cuantización específica
ollama pull llama3.1:8b-instruct-q8_0     # mayor calidad
ollama pull llama3.1:8b-instruct-q4_K_M  # por defecto (recomendado)
ollama pull llama3.1:8b-instruct-q2_K    # más comprimido, menos calidad

# Descargar y ejecutar directamente (descarga si no existe)
ollama run mistral

# Ver el progreso de descarga
# Ollama muestra una barra de progreso por capa del modelo

Tags y convención de nombres

El tag de un modelo en Ollama sigue el patrón nombre:tamaño-variante-cuantización. Los tags más frecuentes:

Tag	Significado	Ejemplo
`latest`	Versión por defecto del modelo	`ollama pull mistral`
`:7b`, `:8b`, `:13b`	Número de parámetros del modelo	`ollama pull qwen2.5:7b`
`-instruct`	Modelo ajustado para instrucciones y chat	`llama3.1:8b-instruct`
`-text`	Modelo base preentrenado (no ajustado)	`llama3.1:8b-text`
`q4_K_M`	Cuantización 4-bit (por defecto)	`qwen3:8b-q4_K_M`
`q8_0`	Cuantización 8-bit (mayor calidad)	`mistral:7b-instruct-q8_0`

Descubre modelos

La librería oficial: ollama.com/library

ollama.com/library — más de 4 500 modelos

Captura de pantalla de la librería de modelos de Ollama

La librería oficial de Ollama permite buscar por nombre, filtrar por categoría (visión, herramientas, embeddings, código) y ver todos los tags disponibles para cada modelo con su tamaño en disco y número de descargas.

Puedes explorar el catálogo también desde la línea de comandos con ollama search nombre para buscar modelos que coincidan con un término, o visitando directamente ollama.com/library para ver las fichas completas con todos los tags y cuantizaciones disponibles.

Meta AI

Familia Llama: el modelo de referencia de Meta

Los modelos Llama de Meta son los más descargados en Ollama y el punto de partida para la mayoría de desarrolladores. La serie Llama 3 y Llama 4 cubren un amplio rango de tamaños y casos de uso.

Llama 3.2: 1B y 3B

Modelos ultraligeros de Meta, perfectos para dispositivos con poca VRAM o para inferencia rápida. El modelo 3B es el punto de entrada recomendado para experimentar con Ollama en hardware modesto.

ollama pull llama3.2:1b   # ~800 MB
ollama pull llama3.2:3b   # ~2.0 GB

1–2 GB VRAM

Llama 3.1: 8B, 70B y 405B

La generación anterior con excelente soporte de herramientas y contexto largo (128K tokens). El modelo 8B es el más equilibrado para uso general. El 70B compite con GPT-5 en muchas tareas. El 405B requiere GPU cluster o CPU.

ollama pull llama3.1:8b    # ~4.7 GB
ollama pull llama3.1:70b   # ~40 GB

5–40 GB VRAM

Llama 4 Scout (MoE)

Llama 4 Scout es un modelo Mixture-of-Experts con 17B parámetros activos (109B totales) lanzado en abril 2026. Ofrece rendimiento excepcional para su tamaño activo y contexto de 128K tokens. Disponible en Ollama desde su lanzamiento.

ollama pull llama4:scout

10–16 GB VRAM activa

Code Llama: modelos de código

Variantes de Llama ajustadas específicamente para generación y análisis de código. Disponibles en 7B, 13B y 34B parámetros con variantes Python e Instruct para completado y chat de código.

ollama pull codellama:7b
ollama pull codellama:13b

Código

Alibaba Cloud

Familia Qwen: multilingüe y muy competente

Los modelos Qwen de Alibaba Cloud destacan por su excelente soporte multilingüe (incluyendo español y chino), contexto largo y rendimiento que compite con modelos mucho más grandes.

Qwen3: la última generación

Qwen3 ofrece modelos densos (0.6B hasta 32B) y MoE (30B, 235B). Soporta modo "thinking" para razonamiento paso a paso. Preentrenado con más de 36 billones de tokens. El mejor modelo Qwen para nuevos proyectos.

ollama pull qwen3:8b
ollama pull qwen3:14b
ollama pull qwen3:32b

Recomendado 2026

Qwen2.5: estable y maduro

Qwen2.5 (7B, 14B, 32B, 72B) preentrenado con 18 billones de tokens y contexto de hasta 128K. Excelente rendimiento en español. El 7B es una de las mejores opciones para hardware con 6–8 GB de VRAM.

ollama pull qwen2.5:7b
ollama pull qwen2.5:14b

Multilingüe

Qwen2.5-Coder: especialización en código

Variante de Qwen2.5 ajustada para generación de código en más de 40 lenguajes de programación. Disponible desde 1.5B hasta 32B parámetros. Sobrepasa a Code Llama en benchmarks de código.

ollama pull qwen2.5-coder:7b
ollama pull qwen2.5-coder:14b

Código

Mistral AI

Mistral y Mixtral: eficiencia europea

Los modelos de Mistral AI destacan por su eficiencia: el modelo 7B original superó a Llama 2 70B en muchas tareas. Mixtral usa arquitectura Mixture-of-Experts para ofrecer calidad de 45B con coste de 12B activos.

Mistral 7B v0.3

El modelo de referencia de Mistral AI. Con 7B parámetros, 32K tokens de contexto y soporte de herramientas (tool use) en la versión 0.3. Excelente para uso general, rápido y con bajo consumo de VRAM. Uno de los modelos más populares del catálogo de Ollama.

ollama pull mistral
# equivale a: mistral:7b-instruct-v0.3

4 GB VRAM

Mixtral 8x7B y 8x22B

Mixtral usa 8 expertos de 7B cada uno, activando solo 2 por token (12B activos de 47B totales). Ofrece calidad de modelo grande con coste computacional reducido. El 8x22B compite directamente con GPT-4 en muchas tareas.

ollama pull mixtral:8x7b    # ~26 GB
ollama pull mixtral:8x22b   # ~80 GB

MoE

DeepSeek AI

DeepSeek: razonamiento avanzado en local

DeepSeek-R1 sorprendió al mundo en enero 2026 al igualar el rendimiento de modelos propietarios de primer nivel en benchmarks de razonamiento matemático y científico. Disponible en Ollama en varios tamaños.

DeepSeek-R1: razonamiento

Serie de modelos de razonamiento con cadena de pensamiento (chain-of-thought). Disponible en 1.5B, 7B, 8B, 14B, 32B, 70B y 671B. El R1:7b es accesible con 6 GB de VRAM y sobresale en matemáticas y lógica.

ollama pull deepseek-r1:7b
ollama pull deepseek-r1:14b
ollama pull deepseek-r1:32b

Razonamiento

DeepSeek Coder V2

Modelo especializado en código con arquitectura MoE (16B activos de 236B totales). Soporta más de 338 lenguajes de programación y ventana de contexto de 128K tokens. Rendimiento superior en benchmarks de código.

ollama pull deepseek-coder-v2
ollama pull deepseek-coder-v2:16b

Código

DeepSeek V3

El modelo general de DeepSeek con 685B parámetros en arquitectura MoE. Su versión cuantizada a 4-bit pesa aproximadamente 400 GB, requiriendo varios GPUs o ejecución en CPU con RAM abundante (512 GB+).

ollama pull deepseek-v3

Alta VRAM

Google y Microsoft

Gemma y Phi: ligeros y muy eficientes

Google Gemma 2 y Microsoft Phi-3 representan la mejor opción cuando el hardware es limitado. Modelos pequeños con rendimiento desproporcionado para su tamaño.

Google Gemma 2

Gemma 2 está disponible en tres tamaños: 2B (ideal para dispositivos con poca memoria), 9B (muy equilibrado, compite con modelos mucho más grandes) y 27B (calidad alta en hardware con 16+ GB de VRAM). Excelente para tareas de texto y razonamiento general.

ollama pull gemma2:2b    # ~1.6 GB
ollama pull gemma2:9b    # ~5.4 GB
ollama pull gemma2:27b   # ~16 GB

Google

Microsoft Phi-3

Phi-3 Mini (3.8B) y Phi-3 Medium (14B) de Microsoft son modelos de lenguaje pequeños con rendimiento excepcional en razonamiento y comprensión. Phi-3 Mini cabe en dispositivos con 2 GB de VRAM y aun así supera a modelos 7B en muchos benchmarks académicos.

ollama pull phi3:mini    # ~2.2 GB
ollama pull phi3:medium  # ~8.5 GB

Microsoft

Búsqueda semántica

Modelos de embeddings para RAG

Ollama incluye modelos especializados en generar embeddings (vectores de texto) para pipelines RAG, búsqueda semántica y clasificación. Son mucho más eficientes que los modelos de generación para esta tarea.

Modelos de embeddings disponibles en Ollama — mayo 2026
Modelo	Dimensiones	Tamaño	Recomendado para	Comando
nomic-embed-text	768	~274 MB	Uso general, RAG, inicio rápido	`ollama pull nomic-embed-text`
mxbai-embed-large	1024	~670 MB	Alta precisión, colecciones grandes	`ollama pull mxbai-embed-large`
all-minilm	384	~46 MB	Prototipado rápido, datasets pequeños	`ollama pull all-minilm`
snowflake-arctic-embed	1024	~670 MB	Recuperación de documentos empresarial	`ollama pull snowflake-arctic-embed`

Los embeddings se generan a través del endpoint POST /api/embeddings de Ollama. Este endpoint es independiente del de generación de texto y permite procesar textos en lote de forma muy eficiente:

# Generar embeddings con curl
curl http://localhost:11434/api/embeddings \
  -d '{
    "model": "nomic-embed-text",
    "prompt": "Este es el texto del que quiero obtener el embedding"
  }'

# Respuesta: {"embedding": [0.123, -0.456, ...]} (768 valores)

Calidad vs tamaño

Cuantización: cómo elegir el nivel correcto

La cuantización reduce la precisión numérica de los pesos del modelo para ahorrar memoria. Ollama usa el formato GGUF con varios niveles de cuantización. Elegir el nivel correcto según tu VRAM es crucial para el rendimiento.

Niveles de cuantización GGUF en Ollama
Cuantización	Bits por peso	Calidad relativa	Tamaño vs FP16	Cuándo usar
FP16	16 bits	100% (referencia)	100%	Cuando tienes VRAM suficiente y quieres máximo rendimiento
Q8_0	8 bits	~99%	~50%	Cuando el tamaño importa pero la calidad es crítica
Q4_K_M	4 bits (mixto)	~95–97%	~25%	Por defecto de Ollama. El mejor equilibrio general
Q4_0	4 bits (uniforme)	~93%	~25%	Similar a Q4_K_M pero ligeramente menor calidad
Q2_K	2 bits	~80%	~13%	Solo cuando la VRAM es muy limitada y la calidad es secundaria

Recomendación general: usa Q4_K_M (el valor por defecto de Ollama) a menos que tengas una razón específica para cambiar. Si tu GPU tiene VRAM suficiente para el modelo completo, considera Q8_0 para recuperar el 2-4% de calidad que se pierde con Q4. Evita Q2_K salvo en situaciones donde la memoria es crítica y la precisión no importa.

Personalización

Crear modelos custom con Modelfile

Un Modelfile es un archivo de configuración que te permite crear un asistente personalizado sobre cualquier modelo base: sistema de instrucciones, temperatura, tamaño de contexto y parámetros de generación, en menos de 10 líneas.

Estructura de un Modelfile

# Modelfile -- asistente de soporte en español
FROM qwen2.5:7b                                # modelo base

SYSTEM """
Eres un asistente de soporte técnico en español.
Responde siempre en español, de forma clara y concisa.
Si no sabes la respuesta, dilo explícitamente en vez de inventar.
Evita respuestas de más de 200 palabras salvo que el usuario lo pida.
"""

PARAMETER temperature 0.3        # respuestas más deterministas (0.0 a 1.0)
PARAMETER num_ctx 8192            # ventana de contexto en tokens
PARAMETER num_predict 512         # máximo de tokens a generar por respuesta
PARAMETER top_p 0.9               # nucleus sampling

# Para crear el modelo:
# ollama create soporte-es -f Modelfile
# Para ejecutarlo:
# ollama run soporte-es

Crear y gestionar el modelo custom

# Crear el modelo a partir del Modelfile
ollama create mi-asistente -f Modelfile

# Verificar que se creó correctamente
ollama list
# Debería aparecer: mi-asistente   latest   ...

# Ejecutar el modelo personalizado
ollama run mi-asistente

# Ver los detalles del Modelfile de cualquier modelo
ollama show mi-asistente --modelfile

# Actualizar el modelo (re-ejecutar create con el mismo nombre)
ollama create mi-asistente -f Modelfile

# Eliminar el modelo custom
ollama rm mi-asistente

Parámetros disponibles en Modelfile

Parámetro	Descripción	Valor típico
`temperature`	Controla la aleatoriedad. 0 = determinista, 1 = muy creativo	0.7 (general), 0.3 (técnico)
`num_ctx`	Ventana de contexto en tokens (cuánto "recuerda" el modelo)	4096, 8192, 32768
`num_predict`	Máximo de tokens a generar por respuesta (-1 = sin límite)	512, 2048, -1
`top_p`	Nucleus sampling: probabilidad acumulada de tokens a considerar	0.9
`top_k`	Limita el sampleo a los K tokens más probables	40
`repeat_penalty`	Penaliza la repetición de tokens recientes	1.1
`num_gpu`	Número de capas a cargar en GPU (-1 = todas)	-1

Ejemplo: asistente de código Python

# Modelfile para un asistente especializado en Python
FROM qwen2.5-coder:7b

SYSTEM """
Eres un experto en Python con más de 10 años de experiencia.
Cuando escribas código:
- Usa siempre type hints.
- Incluye docstrings en funciones y clases.
- Prefiere código idiomático y pythonic.
- Si el usuario no especifica, asume Python 3.11+.
Responde en español, pero el código siempre en inglés.
"""

PARAMETER temperature 0.2
PARAMETER num_ctx 16384
PARAMETER num_predict 2048

Administración

Gestión de modelos instalados

# Ver todos los modelos descargados con su tamaño
ollama list

# Salida ejemplo:
# NAME                        ID              SIZE    MODIFIED
# llama3.2:3b                 a80c4f17acd5    2.0 GB  2 days ago
# qwen2.5:7b                  845dbda0ea48    4.7 GB  5 days ago
# nomic-embed-text:latest     0a109f422b47    274 MB  1 week ago

# Ver los modelos que están corriendo actualmente
ollama ps

# Detener un modelo que está en memoria
ollama stop llama3.2:3b

# Eliminar un modelo del disco
ollama rm qwen2.5:7b

# Copiar un modelo (para crear una variante sin Modelfile)
ollama cp llama3.2:3b mi-llama-copia

# Actualizar un modelo a la última versión disponible
ollama pull llama3.2  # si hay versión nueva, la descarga

Ubicación de los modelos en disco

Windows: C:\Users\<usuario>\.ollama\models\
macOS/Linux: ~/.ollama/models/

Puedes cambiar la ubicación con la variable de entorno OLLAMA_MODELS=/ruta/personalizada antes de iniciar el servidor.

Mantener modelos en memoria

Por defecto, Ollama descarga un modelo de VRAM si no recibe peticiones en 5 minutos. Para cambiarlo, configura la variable de entorno OLLAMA_KEEP_ALIVE=30m (o -1 para mantenerlo siempre cargado). Útil cuando usas el mismo modelo intensivamente.

Preguntas frecuentes

Preguntas frecuentes sobre los modelos de Ollama

A mayo de 2026, la librería oficial de Ollama en ollama.com/library contiene más de 4 500 modelos entre variantes de tamaño, cuantizaciones y versiones especializadas. Las familias principales son Llama, Qwen, Mistral, Gemma, DeepSeek, Phi y decenas de modelos de embeddings y visión.

ollama pull descarga el modelo sin ejecutarlo, útil para preparar modelos antes de necesitarlos o en scripts de configuración. ollama run descarga el modelo si no existe localmente y abre inmediatamente una sesión de chat interactiva. Para pipelines automatizados es preferible usar ollama pull primero para garantizar que el modelo esté disponible antes de lanzar peticiones a la API.

La versión cuantizada Q4_K_M de Llama 3.1:8b (la que descarga Ollama por defecto) ocupa aproximadamente 4.7 GB de VRAM. Con una GPU de 6 GB como una RTX 3060 o GTX 1660 Super puedes ejecutarla cómodamente. La versión completa en FP16 requiere 16 GB de VRAM. Para el modelo 70B cuantizado a Q4_K_M necesitas aproximadamente 40 GB de VRAM.

Crea un archivo llamado Modelfile con las instrucciones FROM (modelo base), SYSTEM (prompt del sistema) y PARAMETER (temperatura, contexto, etc.). Luego ejecuta ollama create nombre-modelo -f Modelfile para registrar el modelo. Una vez creado, aparece en ollama list y puedes ejecutarlo con ollama run nombre-modelo.

Ollama incluye modelos de embeddings especializados: nomic-embed-text (768 dimensiones, menos de 300 MB, el más popular), mxbai-embed-large (1024 dimensiones, mayor precisión para colecciones grandes) y all-minilm (384 dimensiones, muy rápido para prototipado). Estos modelos generan vectores a través del endpoint POST /api/embeddings y son ideales para pipelines RAG sin necesidad de APIs externas.

Q4_K_M es una cuantización de 4 bits con precisión mixta: algunas capas críticas del modelo se mantienen en mayor precisión para minimizar la pérdida de calidad. Ollama la usa como valor por defecto porque ofrece el mejor equilibrio: conserva el 95–97% de la calidad del modelo original en FP16, pero ocupa solo el 25% del espacio en VRAM. Para un modelo 7B, esto significa pasar de ~14 GB (FP16) a ~4 GB (Q4_K_M).

Modelos de Ollama: catálogo, comandos y cómo elegir el adecuado

Cómo descargar modelos con ollama pull

Tags y convención de nombres

La librería oficial: ollama.com/library

Familia Llama: el modelo de referencia de Meta

Familia Qwen: multilingüe y muy competente

Mistral y Mixtral: eficiencia europea

DeepSeek: razonamiento avanzado en local

Gemma y Phi: ligeros y muy eficientes

Modelos de embeddings para RAG

Cuantización: cómo elegir el nivel correcto

Crear modelos custom con Modelfile

Estructura de un Modelfile

Crear y gestionar el modelo custom

Parámetros disponibles en Modelfile

Ejemplo: asistente de código Python

Gestión de modelos instalados

Preguntas frecuentes sobre los modelos de Ollama

Instala Ollama y descarga tu primer modelo hoy

Crea tu primer agente de IA, paso a paso