- DeepSeek-R1 es el modelo de razonamiento open-source con mejor rendimiento en matemáticas y lógica: el nuevo modelo por defecto en mayo 2026 es
deepseek-r1:8b(DeepSeek-R1-0528-Qwen3-8B, 5,2 GB). - Todas las variantes destiladas de R1 usan licencia MIT, incluyendo uso comercial sin restricciones.
- La variante 1.5b (1,1 GB) puede ejecutarse en CPU o GPU integrada; la 7b necesita ~5 GB de VRAM.
- DeepSeek-V3 es un modelo MoE de 671B parámetros totales con solo 37B activos por token: alto rendimiento con consumo eficiente.
- DeepSeek-Coder V2 alcanza rendimiento comparable a GPT-5 en benchmarks de código específicos.
Modelos DeepSeek disponibles en la librería de Ollama
La librería de Ollama incluye tres familias principales de DeepSeek, cada una optimizada
para un caso de uso distinto. Todas se instalan con ollama pull.
Descarga cualquier modelo DeepSeek con un solo comando. Ollama gestiona automáticamente la descarga, cuantización y configuración:
# Modelo recomendado para empezar (5,2 GB)
ollama pull deepseek-r1:8b
# Variante ligera para hardware limitado (1,1 GB)
ollama pull deepseek-r1:1.5b
# Para codigo (9 GB, muy bueno en programacion)
ollama pull deepseek-coder-v2
# Ejecutar en modo interactivo
ollama run deepseek-r1:8b
| Modelo | Tamaño en disco | VRAM recomendada | Contexto | Licencia |
|---|---|---|---|---|
deepseek-r1:1.5b |
1,1 GB | 2 GB (o CPU) | 128K | MIT |
deepseek-r1:7b |
4,7 GB | 6 GB | 128K | MIT |
deepseek-r1:8b (por defecto) |
5,2 GB | 8 GB | 128K | MIT |
deepseek-r1:14b |
9,0 GB | 12 GB | 128K | MIT |
deepseek-r1:32b |
20 GB | 24 GB | 128K | MIT |
deepseek-r1:70b |
43 GB | 48 GB+ | 128K | MIT |
deepseek-r1:671b |
404 GB | Servidor dedicado | 160K | MIT |
deepseek-v3 |
404 GB | Servidor dedicado | 160K | MIT |
deepseek-coder-v2 (16b) |
8,9 GB | 10 GB | 160K | DeepSeek |
deepseek-coder-v2:236b |
133 GB | Servidor dedicado | 4K | DeepSeek |
DeepSeek-R1: el modelo de razonamiento open-source
DeepSeek-R1 es el modelo que puso a DeepSeek AI en el mapa global a principios de 2025. Su arquitectura de razonamiento con chain-of-thought extendido lo hace especialmente capaz en matemáticas, lógica formal y programación compleja.
La familia DeepSeek-R1 incluye el modelo completo de 671 parámetros entrenado
con aprendizaje por refuerzo puro, y una serie de modelos destilados que transfieren
las capacidades de razonamiento del modelo grande a arquitecturas más pequeñas basadas
en Qwen3 y Llama. El modelo por defecto en Ollama a mayo de 2026 es
deepseek-r1:8b, una versión actualizada basada en Qwen3-8B que mejora
significativamente al anterior deepseek-r1:7b.
Lo que distingue a DeepSeek-R1 de otros modelos open-source es su proceso de
razonamiento visible: antes de dar la respuesta final, el modelo genera un bloque
de "pensamiento" interno donde trabaja el problema paso a paso. En Ollama este bloque
aparece entre etiquetas <think>...</think> y puede omitirse
o procesarse según el caso de uso.
Usar DeepSeek-R1 via la API de Ollama
# Consulta via API REST
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:8b",
"prompt": "Resuelve paso a paso: un tren parte a 80 km/h y otro en sentido contrario a 100 km/h. Si están a 360 km de distancia, ¿en cuánto tiempo se encuentran?",
"stream": false
}'
Para integraciones en Python, el endpoint de Ollama es compatible con el SDK de OpenAI, lo que simplifica la migración desde modelos cloud:
from openai import OpenAI
cliente = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # cualquier valor no vacio
)
respuesta = cliente.chat.completions.create(
model="deepseek-r1:8b",
messages=[
{
"role": "user",
"content": "Escribe una función Python que calcule el número de Fibonacci de forma eficiente usando memoización. Explica la complejidad temporal."
}
],
temperature=0.1, # temperatura baja para razonamiento preciso
)
# El texto de razonamiento esta en el contenido si el modelo lo incluye
print(respuesta.choices[0].message.content)
Modelos destilados: qué variante elegir
1.5b y 7b — hardware mínimo
Para pruebas, dispositivos con RAM limitada o entornos sin GPU dedicada. El 1.5b puede correr en CPU a velocidad aceptable. El 7b requiere una GPU de consumo básica (GTX 1060 6 GB o equivalente).
8b (por defecto) — equilibrio optimo
El nuevo modelo por defecto en mayo 2026. Basado en Qwen3-8B destilado desde R1-0528. Ofrece el mejor balance entre velocidad, calidad de razonamiento y consumo de VRAM para hardware de consumo moderno (8 GB VRAM).
14b y 32b — calidad superior
Para tareas de razonamiento exigentes donde la precisión importa. El 32b en una RTX 3090 (24 GB) o similar ofrece resultados muy cercanos al modelo completo para la mayoría de casos de uso de matemáticas y código.
70b y 671b — hardware de servidor
Para organizaciones con infraestructura dedicada. El 70b requiere dos GPU de 24 GB o una A100/H100. El 671b es el modelo completo sin destilar: requiere clústeres multi-GPU de nivel empresarial.
DeepSeek-V3: el modelo MoE de 671B parámetros
DeepSeek-V3 es el modelo general de la familia, construido con arquitectura Mixture-of-Experts. Con 671B parámetros totales pero solo 37B activos por token, logra un rendimiento excepcional con un costo de inferencia relativamente bajo para su escala.
La arquitectura MoE de DeepSeek-V3 divide los parámetros del modelo en "expertos" especializados. Cada token activa solo un subconjunto de esos expertos (37B de los 671B totales), lo que reduce el cómputo por token comparado con modelos densos del mismo tamaño. Esto es lo que hace posible que un modelo de 671B parámetros sea práctico en hardware razonablemente accesible para organizaciones con infraestructura de servidor.
En la práctica, DeepSeek-V3 es el modelo a usar cuando necesitas la máxima calidad en tareas generales: redacción, análisis de documentos largos, traducción, resumen y conversación. No tiene el razonamiento chain-of-thought de R1, pero es significativamente más rápido en generación de texto y produce respuestas más fluidas para tareas que no requieren pasos intermedios de razonamiento.
Requisitos y consideraciones practicas
DeepSeek-V3 ocupa 404 GB en disco y requiere hardware de servidor para ejecutarse en Ollama. Las opciones prácticas son:
- Multi-GPU consumer: 4-6 GPU RTX 4090 (24 GB cada una) en una workstation de alto rendimiento. Velocidad de generación baja pero funcional.
- GPU de datacenter: una o dos NVIDIA A100 80 GB o H100 80 GB. Opción óptima para velocidad de inferencia aceptable.
- CPU offloading: Ollama soporta offloading parcial a RAM cuando la VRAM no es suficiente. Con 128-256 GB de RAM del sistema y 24-48 GB de VRAM el modelo puede correr a baja velocidad pero de forma funcional.
Para la mayoría de proyectos con hardware de consumo, las variantes destiladas de DeepSeek-R1 o modelos como Llama o Qwen de tamaño similar ofrecen mejor relación calidad/hardware que DeepSeek-V3 completo.
DeepSeek-Coder V2: programación sin coste de API
DeepSeek-Coder V2 es un modelo open-source de código MoE entrenado con 6 billones de tokens de alta calidad. Alcanza rendimiento comparable a GPT-5 en benchmarks de código específicos con la variante de 16b disponible en Ollama.
La variante práctica para hardware de consumo es deepseek-coder-v2
(que descarga el modelo de 16b, 8,9 GB). Soporta más de 338 lenguajes de
programación y tiene un contexto de 160K tokens, lo que lo hace adecuado para
analizar ficheros de código completos o refactorizar proyectos enteros.
Integración con Continue en VS Code
La forma más práctica de usar DeepSeek-Coder V2 como asistente de programación local es a través de la extensión Continue, que se integra en VS Code y JetBrains y se conecta al endpoint de Ollama:
# 1. Descargar el modelo
ollama pull deepseek-coder-v2
# 2. Instalar Continue en VS Code desde el Marketplace
# 3. Configurar ~/.continue/config.json
{
"models": [
{
"title": "DeepSeek Coder V2",
"provider": "ollama",
"model": "deepseek-coder-v2",
"apiBase": "http://localhost:11434"
}
],
"tabAutocompleteModel": {
"title": "DeepSeek Coder V2",
"provider": "ollama",
"model": "deepseek-coder-v2"
}
}
Con esta configuración, Continue usa DeepSeek-Coder V2 tanto para el chat integrado en el editor como para el autocompletado de código en tiempo real. Todo el procesamiento ocurre en local via Ollama: no se envían fragmentos de tu código a servidores externos.
Capacidades de DeepSeek-Coder V2
Requisitos de hardware por variante
La elección del tamaño de modelo depende principalmente de la VRAM disponible. Ollama puede hacer offloading a RAM del sistema cuando la VRAM no es suficiente, con una reducción significativa de velocidad.
GPU: GTX 1060 6 GB / RTX 3060 8 GB
Modelos recomendados:
deepseek-r1:1.5b(1,1 GB)deepseek-r1:7b(4,7 GB)
Velocidad: 15-40 tokens/seg. Suficiente para uso interactivo.
GPU: RTX 3080 10 GB / RTX 4070 12 GB / RTX 4080 16 GB
Modelos recomendados:
deepseek-r1:8b(5,2 GB)deepseek-r1:14b(9 GB)deepseek-coder-v2(8,9 GB)
Velocidad: 20-60 tokens/seg. Optimo para desarrollo diario.
GPU: RTX 3090/4090 24 GB / RTX 6000 Ada 48 GB
Modelos recomendados:
deepseek-r1:32b(20 GB)deepseek-r1:70bcon multi-GPU
Velocidad: 25-50 tokens/seg (32b). Alta calidad de razonamiento.
Offloading a CPU: cuando la VRAM no es suficiente
Ollama descarga automáticamente capas del modelo a la RAM del sistema cuando la VRAM no puede alojar el modelo completo. La regla practica: por cada GB de modelo que no cabe en VRAM, necesitas 2-3 GB de RAM del sistema y la velocidad de generación cae a 1-5 tokens/seg. Para modelos de razonamiento como DeepSeek-R1, donde una respuesta puede generar miles de tokens de "pensamiento", esta velocidad puede hacer el modelo impractico para uso interactivo en tiempo real.
Benchmarks: rendimiento de DeepSeek-R1 por tamaño
DeepSeek AI publica resultados detallados en benchmarks estándar. Aquí presentamos los valores más relevantes para seleccionar la variante adecuada para cada caso de uso.
| Benchmark | R1-7b | R1-14b | R1-32b | R1-671b | GPT-5 (referencia) |
|---|---|---|---|---|---|
| AIME 2024 (matemáticas olimpiada) | 55,5% | 69,7% | 72,6% | 79,8% | 9,3% |
| MATH-500 (problemas matemáticos) | 92,8% | 93,9% | 94,3% | 97,3% | 74,6% |
| HumanEval (programación Python) | 86,6% | 90,2% | 92,7% | 92,7% | 90,2% |
| LiveCodeBench (código real) | 37,1% | 53,0% | 57,2% | 65,9% | 33,9% |
| GPQA Diamond (ciencia avanzada) | 49,1% | 59,1% | 62,1% | 71,5% | 50,6% |
Interpretación practica: en matemáticas olympiadas (AIME 2024), incluso la variante de 7b supera con creces a GPT-5. En programación (HumanEval), la variante de 32b iguala al modelo cloud de referencia. Para la mayoría de casos de uso empresariales, la variante de 14b o 32b ejecutada en local via Ollama ofrece una alternativa solida y privada a las APIs cloud de pago.
DeepSeek en Ollama vs alternativas cloud
Ejecutar DeepSeek localmente tiene ventajas claras frente al uso de APIs cloud, pero también limitaciones que hay que considerar antes de elegir.
| Criterio | Ollama local | DeepSeek API (cloud) | OpenAI / Anthropic |
|---|---|---|---|
| Coste por token | Cero | ~$0,55/M input tokens (R1) | $1-15/M input tokens |
| Privacidad de datos | Total (datos no salen) | Servidores DeepSeek (China) | Servidores OpenAI/Anthropic |
| Latencia | Depende del hardware local | Baja (servidores optimizados) | Baja |
| Velocidad de generación | 20-60 tok/seg (GPU consumo) | 50-200 tok/seg | 50-150 tok/seg |
| Disponibilidad 24/7 | Mientras el servidor este encendido | SLA 99,9% | SLA 99,9% |
| Cumplimiento normativo | Total control | Jurisdicción china | Acuerdos DPA disponibles |
| Inversión inicial | Hardware GPU (300-2000 EUR) | Cero (pago por uso) | Cero (pago por uso) |
| Mantenimiento | Actualizar Ollama + modelos | Ninguno (gestionado) | Ninguno (gestionado) |
Cuándo elegir Ollama en local
La ejecución local con Ollama es la opción correcta cuando: el volumen de tokens es alto (el ahorro en API supera rápidamente el costo del hardware), los datos son sensibles o confidenciales, se necesita cumplimiento GDPR estricto, o cuando la aplicación requiere baja latencia en redes sin acceso a internet (edge computing, entornos industriales, aplicaciones offline).
La API cloud de DeepSeek es atractiva por su bajo precio, pero implica enviar datos a servidores en China, lo que puede ser un bloqueante para proyectos con datos personales de ciudadanos europeos bajo GDPR o proyectos con requisitos de soberania de datos.
Casos de uso para razonamiento avanzado con DeepSeek
DeepSeek-R1 y DeepSeek-Coder tienen casos de uso complementarios. La familia R1 brilla en tareas que requieren razonamiento multi-paso; Coder en asistencia de desarrollo de software.
Preguntas frecuentes sobre DeepSeek en Ollama
Depende de la variante. DeepSeek-R1:1.5b ocupa 1,1 GB y puede ejecutarse incluso en GPU integradas o CPU. La variante 7b necesita ~5 GB de VRAM, la 8b unos 6-8 GB, la 14b unos 10-12 GB y la 32b requiere al menos 24 GB. Para la variante 70b hacen falta 48 GB o varias GPU. El modelo completo de 671 parámetros requiere servidores con cientos de GB de VRAM. Ollama hace offloading automático a RAM del sistema cuando la VRAM no es suficiente, aunque con una reducción notable de velocidad.
DeepSeek-R1 es un modelo de razonamiento que emplea chain-of-thought extendido antes de responder: ideal para matemáticas, lógica y problemas que requieren pasos intermedios. DeepSeek-V3 es un modelo general de tipo Mixture-of-Experts (MoE) con 671B parámetros totales pero solo 37B activos por token, optimizado para tareas generales de texto con alta eficiencia en inferencia. En términos prácticos, R1 piensa más despacio y con mayor profundidad en razonamiento; V3 es más rápido en texto general y conversación.
No es práctico en hardware de consumo. La variante 671b ocupa 404 GB y requiere múltiples GPU de alto nivel o servidores especializados. Para uso doméstico, las variantes destiladas como 7b (4,7 GB), 14b (9 GB) o 32b (20 GB) ofrecen muy buen rendimiento de razonamiento con hardware accesible. La variante 32b en una RTX 3090 o 4090 de 24 GB ofrece un excelente equilibrio entre capacidad y costo.
DeepSeek-R1 en sus variantes destiladas (14b-32b) alcanza o supera a modelos cloud de gama media en tareas de matemáticas y programación según benchmarks publicados. La variante completa 671b compite con GPT-5 y Claude Sonnet en evaluaciones estándar como MATH-500 (97,3% vs 74,6% de GPT-5) y AIME 2024. La ventaja clave de ejecutarlo via Ollama es el coste cero por token, la privacidad total y la ausencia de latencia de red.
DeepSeek-Coder V2 alcanza rendimiento comparable a GPT-5 en benchmarks de código específicos. Su ventaja es que se ejecuta en local sin coste de suscripción y sin enviar código propietario a terceros. La desventaja frente a Copilot es la integración: Copilot tiene soporte nativo en VS Code, mientras que con DeepSeek-Coder necesitas configurar una extensión como Continue que apunte al endpoint de Ollama. La calidad del código es comparable; la diferencia está en la experiencia de usuario y la configuración inicial.
Los modelos DeepSeek-R1 y sus variantes destiladas se distribuyen bajo licencia MIT, lo que permite uso comercial sin restricciones. DeepSeek-V3 también usa licencia MIT. DeepSeek-Coder V2 usa licencia DeepSeek propia que permite uso comercial con ciertas condiciones. Revisa el repositorio oficial de cada modelo en Hugging Face para verificar los términos exactos antes de usarlos en producción comercial.
Explora todos los modelos disponibles en Ollama
Además de DeepSeek, Ollama cuenta con modelos de Llama, Qwen, Mistral, Gemma, Phi y cientos más. Descubre qué modelo se adapta mejor a tu hardware y caso de uso.
Ver catalogo completo de modelos