DeepSeek-R1:8b nuevo modelo por defecto —

Ollama DeepSeek: ejecutar DeepSeek-R1, V3 y Coder en local

DeepSeek es la familia de modelos de inteligencia artificial de DeepSeek AI que ha redefinido el rendimiento de los modelos open-source en razonamiento, código y tareas generales. Con Ollama puedes descargar y ejecutar cualquier variante de DeepSeek en tu propio hardware con un solo comando: sin coste por token, sin enviar datos a servidores externos y con contextos de hasta 160 000 tokens. Esta guía cubre los tres modelos principales disponibles en la libreria de Ollama: DeepSeek-R1 para razonamiento avanzado, DeepSeek-V3 para tareas generales de gran escala y DeepSeek-Coder V2 para programación.

Lo más importante de DeepSeek con Ollama
  • DeepSeek-R1 es el modelo de razonamiento open-source con mejor rendimiento en matemáticas y lógica: el nuevo modelo por defecto en mayo 2026 es deepseek-r1:8b (DeepSeek-R1-0528-Qwen3-8B, 5,2 GB).
  • Todas las variantes destiladas de R1 usan licencia MIT, incluyendo uso comercial sin restricciones.
  • La variante 1.5b (1,1 GB) puede ejecutarse en CPU o GPU integrada; la 7b necesita ~5 GB de VRAM.
  • DeepSeek-V3 es un modelo MoE de 671B parámetros totales con solo 37B activos por token: alto rendimiento con consumo eficiente.
  • DeepSeek-Coder V2 alcanza rendimiento comparable a GPT-5 en benchmarks de código específicos.
Comparativa de variantes DeepSeek-R1, V3 y Coder con requisitos de VRAM
Comparativa de las tres familias DeepSeek disponibles en Ollama con tamaños de disco y VRAM requerida.
Catalogo completo

Modelos DeepSeek disponibles en la librería de Ollama

La librería de Ollama incluye tres familias principales de DeepSeek, cada una optimizada para un caso de uso distinto. Todas se instalan con ollama pull.

DeepSeek-R1
Modelo de razonamiento con chain-of-thought extendido. Destacado en matemáticas, lógica y problemas que requieren razonamiento por pasos. Variantes desde 1.5b hasta 671b. Contexto de 128K–160K tokens.
Razonamiento
DeepSeek-V3
Modelo general de tipo Mixture-of-Experts con 671B parámetros totales y 37B activos por token. Líder entre modelos open-source en tareas generales. Requiere hardware de servidor o múltiples GPU de consumo.
General MoE
DeepSeek-Coder V2
Modelo especializado en programación con rendimiento comparable a GPT-5 en benchmarks de código. Disponible en variantes de 16b (9 GB) y 236b (133 GB). Contexto de 160K tokens.
Programación
Instalación rápida

Descarga cualquier modelo DeepSeek con un solo comando. Ollama gestiona automáticamente la descarga, cuantización y configuración:

# Modelo recomendado para empezar (5,2 GB)
ollama pull deepseek-r1:8b

# Variante ligera para hardware limitado (1,1 GB)
ollama pull deepseek-r1:1.5b

# Para codigo (9 GB, muy bueno en programacion)
ollama pull deepseek-coder-v2

# Ejecutar en modo interactivo
ollama run deepseek-r1:8b
DeepSeek-R1 en la libreria de Ollama
Captura de la página de DeepSeek-R1 en la librería de Ollama mostrando variantes y tamaños
La página de DeepSeek-R1 en ollama.com/library muestra todas las variantes disponibles con sus tamaños, ventanas de contexto y comandos de instalación.
Modelos DeepSeek disponibles en Ollama — mayo 2026
Modelo Tamaño en disco VRAM recomendada Contexto Licencia
deepseek-r1:1.5b 1,1 GB 2 GB (o CPU) 128K MIT
deepseek-r1:7b 4,7 GB 6 GB 128K MIT
deepseek-r1:8b (por defecto) 5,2 GB 8 GB 128K MIT
deepseek-r1:14b 9,0 GB 12 GB 128K MIT
deepseek-r1:32b 20 GB 24 GB 128K MIT
deepseek-r1:70b 43 GB 48 GB+ 128K MIT
deepseek-r1:671b 404 GB Servidor dedicado 160K MIT
deepseek-v3 404 GB Servidor dedicado 160K MIT
deepseek-coder-v2 (16b) 8,9 GB 10 GB 160K DeepSeek
deepseek-coder-v2:236b 133 GB Servidor dedicado 4K DeepSeek
Razonamiento avanzado

DeepSeek-R1: el modelo de razonamiento open-source

DeepSeek-R1 es el modelo que puso a DeepSeek AI en el mapa global a principios de 2025. Su arquitectura de razonamiento con chain-of-thought extendido lo hace especialmente capaz en matemáticas, lógica formal y programación compleja.

La familia DeepSeek-R1 incluye el modelo completo de 671 parámetros entrenado con aprendizaje por refuerzo puro, y una serie de modelos destilados que transfieren las capacidades de razonamiento del modelo grande a arquitecturas más pequeñas basadas en Qwen3 y Llama. El modelo por defecto en Ollama a mayo de 2026 es deepseek-r1:8b, una versión actualizada basada en Qwen3-8B que mejora significativamente al anterior deepseek-r1:7b.

Lo que distingue a DeepSeek-R1 de otros modelos open-source es su proceso de razonamiento visible: antes de dar la respuesta final, el modelo genera un bloque de "pensamiento" interno donde trabaja el problema paso a paso. En Ollama este bloque aparece entre etiquetas <think>...</think> y puede omitirse o procesarse según el caso de uso.

Usar DeepSeek-R1 via la API de Ollama

# Consulta via API REST
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:8b",
  "prompt": "Resuelve paso a paso: un tren parte a 80 km/h y otro en sentido contrario a 100 km/h. Si están a 360 km de distancia, ¿en cuánto tiempo se encuentran?",
  "stream": false
}'

Para integraciones en Python, el endpoint de Ollama es compatible con el SDK de OpenAI, lo que simplifica la migración desde modelos cloud:

from openai import OpenAI

cliente = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # cualquier valor no vacio
)

respuesta = cliente.chat.completions.create(
    model="deepseek-r1:8b",
    messages=[
        {
            "role": "user",
            "content": "Escribe una función Python que calcule el número de Fibonacci de forma eficiente usando memoización. Explica la complejidad temporal."
        }
    ],
    temperature=0.1,  # temperatura baja para razonamiento preciso
)

# El texto de razonamiento esta en el contenido si el modelo lo incluye
print(respuesta.choices[0].message.content)

Modelos destilados: qué variante elegir

1.5b y 7b — hardware mínimo

Para pruebas, dispositivos con RAM limitada o entornos sin GPU dedicada. El 1.5b puede correr en CPU a velocidad aceptable. El 7b requiere una GPU de consumo básica (GTX 1060 6 GB o equivalente).

8b (por defecto) — equilibrio optimo

El nuevo modelo por defecto en mayo 2026. Basado en Qwen3-8B destilado desde R1-0528. Ofrece el mejor balance entre velocidad, calidad de razonamiento y consumo de VRAM para hardware de consumo moderno (8 GB VRAM).

14b y 32b — calidad superior

Para tareas de razonamiento exigentes donde la precisión importa. El 32b en una RTX 3090 (24 GB) o similar ofrece resultados muy cercanos al modelo completo para la mayoría de casos de uso de matemáticas y código.

70b y 671b — hardware de servidor

Para organizaciones con infraestructura dedicada. El 70b requiere dos GPU de 24 GB o una A100/H100. El 671b es el modelo completo sin destilar: requiere clústeres multi-GPU de nivel empresarial.

Modelo general

DeepSeek-V3: el modelo MoE de 671B parámetros

DeepSeek-V3 es el modelo general de la familia, construido con arquitectura Mixture-of-Experts. Con 671B parámetros totales pero solo 37B activos por token, logra un rendimiento excepcional con un costo de inferencia relativamente bajo para su escala.

La arquitectura MoE de DeepSeek-V3 divide los parámetros del modelo en "expertos" especializados. Cada token activa solo un subconjunto de esos expertos (37B de los 671B totales), lo que reduce el cómputo por token comparado con modelos densos del mismo tamaño. Esto es lo que hace posible que un modelo de 671B parámetros sea práctico en hardware razonablemente accesible para organizaciones con infraestructura de servidor.

En la práctica, DeepSeek-V3 es el modelo a usar cuando necesitas la máxima calidad en tareas generales: redacción, análisis de documentos largos, traducción, resumen y conversación. No tiene el razonamiento chain-of-thought de R1, pero es significativamente más rápido en generación de texto y produce respuestas más fluidas para tareas que no requieren pasos intermedios de razonamiento.

Requisitos y consideraciones practicas

DeepSeek-V3 ocupa 404 GB en disco y requiere hardware de servidor para ejecutarse en Ollama. Las opciones prácticas son:

  • Multi-GPU consumer: 4-6 GPU RTX 4090 (24 GB cada una) en una workstation de alto rendimiento. Velocidad de generación baja pero funcional.
  • GPU de datacenter: una o dos NVIDIA A100 80 GB o H100 80 GB. Opción óptima para velocidad de inferencia aceptable.
  • CPU offloading: Ollama soporta offloading parcial a RAM cuando la VRAM no es suficiente. Con 128-256 GB de RAM del sistema y 24-48 GB de VRAM el modelo puede correr a baja velocidad pero de forma funcional.

Para la mayoría de proyectos con hardware de consumo, las variantes destiladas de DeepSeek-R1 o modelos como Llama o Qwen de tamaño similar ofrecen mejor relación calidad/hardware que DeepSeek-V3 completo.

Asistente de código

DeepSeek-Coder V2: programación sin coste de API

DeepSeek-Coder V2 es un modelo open-source de código MoE entrenado con 6 billones de tokens de alta calidad. Alcanza rendimiento comparable a GPT-5 en benchmarks de código específicos con la variante de 16b disponible en Ollama.

La variante práctica para hardware de consumo es deepseek-coder-v2 (que descarga el modelo de 16b, 8,9 GB). Soporta más de 338 lenguajes de programación y tiene un contexto de 160K tokens, lo que lo hace adecuado para analizar ficheros de código completos o refactorizar proyectos enteros.

Integración con Continue en VS Code

La forma más práctica de usar DeepSeek-Coder V2 como asistente de programación local es a través de la extensión Continue, que se integra en VS Code y JetBrains y se conecta al endpoint de Ollama:

# 1. Descargar el modelo
ollama pull deepseek-coder-v2

# 2. Instalar Continue en VS Code desde el Marketplace

# 3. Configurar ~/.continue/config.json
{
  "models": [
    {
      "title": "DeepSeek Coder V2",
      "provider": "ollama",
      "model": "deepseek-coder-v2",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "DeepSeek Coder V2",
    "provider": "ollama",
    "model": "deepseek-coder-v2"
  }
}

Con esta configuración, Continue usa DeepSeek-Coder V2 tanto para el chat integrado en el editor como para el autocompletado de código en tiempo real. Todo el procesamiento ocurre en local via Ollama: no se envían fragmentos de tu código a servidores externos.

Capacidades de DeepSeek-Coder V2

Generación y completado
Genera funciones completas, clases y módulos a partir de descripciones en lenguaje natural. Completa código en tiempo real con un contexto de hasta 160K tokens para entender proyectos completos.
Refactorización y revisión
Analiza código existente, detecta problemas de rendimiento, sugiere refactorizaciones y genera tests unitarios. Especialmente útil para migraciones entre versiones de lenguajes o frameworks.
338+ lenguajes soportados
Soporte nativo para Python, JavaScript, TypeScript, Go, Rust, Java, C/C++, PHP, Ruby, Swift y cientos de lenguajes adicionales. Incluye SQL, HTML/CSS y formatos de configuración como YAML y Dockerfile.
Privacidad total del código
Al ejecutarse en local via Ollama, ningún fragmento del código del proyecto sale del entorno de desarrollo. Ideal para proyectos con código propietario, datos sensibles o requisitos de cumplimiento normativo.
Guía de hardware

Requisitos de hardware por variante

La elección del tamaño de modelo depende principalmente de la VRAM disponible. Ollama puede hacer offloading a RAM del sistema cuando la VRAM no es suficiente, con una reducción significativa de velocidad.

Hardware de entrada

GPU: GTX 1060 6 GB / RTX 3060 8 GB

Modelos recomendados:

  • deepseek-r1:1.5b (1,1 GB)
  • deepseek-r1:7b (4,7 GB)

Velocidad: 15-40 tokens/seg. Suficiente para uso interactivo.

Hardware de consumo

GPU: RTX 3080 10 GB / RTX 4070 12 GB / RTX 4080 16 GB

Modelos recomendados:

  • deepseek-r1:8b (5,2 GB)
  • deepseek-r1:14b (9 GB)
  • deepseek-coder-v2 (8,9 GB)

Velocidad: 20-60 tokens/seg. Optimo para desarrollo diario.

Hardware entusiasta

GPU: RTX 3090/4090 24 GB / RTX 6000 Ada 48 GB

Modelos recomendados:

  • deepseek-r1:32b (20 GB)
  • deepseek-r1:70b con multi-GPU

Velocidad: 25-50 tokens/seg (32b). Alta calidad de razonamiento.

Offloading a CPU: cuando la VRAM no es suficiente

Ollama descarga automáticamente capas del modelo a la RAM del sistema cuando la VRAM no puede alojar el modelo completo. La regla practica: por cada GB de modelo que no cabe en VRAM, necesitas 2-3 GB de RAM del sistema y la velocidad de generación cae a 1-5 tokens/seg. Para modelos de razonamiento como DeepSeek-R1, donde una respuesta puede generar miles de tokens de "pensamiento", esta velocidad puede hacer el modelo impractico para uso interactivo en tiempo real.

Rendimiento

Benchmarks: rendimiento de DeepSeek-R1 por tamaño

DeepSeek AI publica resultados detallados en benchmarks estándar. Aquí presentamos los valores más relevantes para seleccionar la variante adecuada para cada caso de uso.

Resultados de benchmark de DeepSeek-R1 en matemáticas, código y razonamiento
Benchmark R1-7b R1-14b R1-32b R1-671b GPT-5 (referencia)
AIME 2024 (matemáticas olimpiada) 55,5% 69,7% 72,6% 79,8% 9,3%
MATH-500 (problemas matemáticos) 92,8% 93,9% 94,3% 97,3% 74,6%
HumanEval (programación Python) 86,6% 90,2% 92,7% 92,7% 90,2%
LiveCodeBench (código real) 37,1% 53,0% 57,2% 65,9% 33,9%
GPQA Diamond (ciencia avanzada) 49,1% 59,1% 62,1% 71,5% 50,6%

Interpretación practica: en matemáticas olympiadas (AIME 2024), incluso la variante de 7b supera con creces a GPT-5. En programación (HumanEval), la variante de 32b iguala al modelo cloud de referencia. Para la mayoría de casos de uso empresariales, la variante de 14b o 32b ejecutada en local via Ollama ofrece una alternativa solida y privada a las APIs cloud de pago.

Comparativa

DeepSeek en Ollama vs alternativas cloud

Ejecutar DeepSeek localmente tiene ventajas claras frente al uso de APIs cloud, pero también limitaciones que hay que considerar antes de elegir.

Comparativa: DeepSeek con Ollama en local vs APIs cloud — mayo 2026
Criterio Ollama local DeepSeek API (cloud) OpenAI / Anthropic
Coste por token Cero ~$0,55/M input tokens (R1) $1-15/M input tokens
Privacidad de datos Total (datos no salen) Servidores DeepSeek (China) Servidores OpenAI/Anthropic
Latencia Depende del hardware local Baja (servidores optimizados) Baja
Velocidad de generación 20-60 tok/seg (GPU consumo) 50-200 tok/seg 50-150 tok/seg
Disponibilidad 24/7 Mientras el servidor este encendido SLA 99,9% SLA 99,9%
Cumplimiento normativo Total control Jurisdicción china Acuerdos DPA disponibles
Inversión inicial Hardware GPU (300-2000 EUR) Cero (pago por uso) Cero (pago por uso)
Mantenimiento Actualizar Ollama + modelos Ninguno (gestionado) Ninguno (gestionado)

Cuándo elegir Ollama en local

La ejecución local con Ollama es la opción correcta cuando: el volumen de tokens es alto (el ahorro en API supera rápidamente el costo del hardware), los datos son sensibles o confidenciales, se necesita cumplimiento GDPR estricto, o cuando la aplicación requiere baja latencia en redes sin acceso a internet (edge computing, entornos industriales, aplicaciones offline).

La API cloud de DeepSeek es atractiva por su bajo precio, pero implica enviar datos a servidores en China, lo que puede ser un bloqueante para proyectos con datos personales de ciudadanos europeos bajo GDPR o proyectos con requisitos de soberania de datos.

Aplicaciones practicas

Casos de uso para razonamiento avanzado con DeepSeek

DeepSeek-R1 y DeepSeek-Coder tienen casos de uso complementarios. La familia R1 brilla en tareas que requieren razonamiento multi-paso; Coder en asistencia de desarrollo de software.

Matemáticas y análisis cuantitativo
DeepSeek-R1 supera a GPT-5 en benchmarks de matemáticas de olimpiada. Útil para: modelado financiero, resolución de ecuaciones diferenciales, optimización operativa, análisis estadístico y verificación de pruebas formales. La variante 14b o 32b es suficiente para la mayoría de aplicaciones empresariales.
Asistente de programación local
DeepSeek-Coder V2 (16b) como sustituto local de GitHub Copilot. Generación de funciones, explicación de código legacy, migración entre frameworks, generación de tests unitarios y revisión de pull requests. Sin enviar código propietario a servicios externos.
Análisis de documentos complejos
El contexto de 128K-160K tokens permite analizar documentos legales, contratos, informes técnicos o bases de código completas en una sola consulta. DeepSeek-R1 puede razonar sobre contradicciones internas o implicaciones no evidentes en el documento.
Investigación y razonamiento cientifico
GPQA Diamond mide capacidades en química, biología y física avanzadas. DeepSeek-R1-671b alcanza 71,5%, muy por encima del 50,6% de GPT-5. Útil para: revisión de hipótesis, diseño experimental, análisis de literatura científica y extracción de información de artículos técnicos.
Agentes con razonamiento multi-paso
La arquitectura de razonamiento de R1 es especialmente adecuada para agentes que necesitan planificar y ejecutar tareas complejas: agentes de automatización, sistemas de decisión con múltiples pasos, pipelines de análisis que requieren razonamiento causal o planificación de proyectos.
Entornos con requisitos de privacidad
Sectores como salud (datos de pacientes), legal (documentos confidenciales), finanzas (datos de clientes) o defensa donde no es aceptable enviar datos a APIs externas. DeepSeek con Ollama permite procesar estos datos en infraestructura controlada por la propia organización.
Preguntas frecuentes

Preguntas frecuentes sobre DeepSeek en Ollama

Depende de la variante. DeepSeek-R1:1.5b ocupa 1,1 GB y puede ejecutarse incluso en GPU integradas o CPU. La variante 7b necesita ~5 GB de VRAM, la 8b unos 6-8 GB, la 14b unos 10-12 GB y la 32b requiere al menos 24 GB. Para la variante 70b hacen falta 48 GB o varias GPU. El modelo completo de 671 parámetros requiere servidores con cientos de GB de VRAM. Ollama hace offloading automático a RAM del sistema cuando la VRAM no es suficiente, aunque con una reducción notable de velocidad.

DeepSeek-R1 es un modelo de razonamiento que emplea chain-of-thought extendido antes de responder: ideal para matemáticas, lógica y problemas que requieren pasos intermedios. DeepSeek-V3 es un modelo general de tipo Mixture-of-Experts (MoE) con 671B parámetros totales pero solo 37B activos por token, optimizado para tareas generales de texto con alta eficiencia en inferencia. En términos prácticos, R1 piensa más despacio y con mayor profundidad en razonamiento; V3 es más rápido en texto general y conversación.

No es práctico en hardware de consumo. La variante 671b ocupa 404 GB y requiere múltiples GPU de alto nivel o servidores especializados. Para uso doméstico, las variantes destiladas como 7b (4,7 GB), 14b (9 GB) o 32b (20 GB) ofrecen muy buen rendimiento de razonamiento con hardware accesible. La variante 32b en una RTX 3090 o 4090 de 24 GB ofrece un excelente equilibrio entre capacidad y costo.

DeepSeek-R1 en sus variantes destiladas (14b-32b) alcanza o supera a modelos cloud de gama media en tareas de matemáticas y programación según benchmarks publicados. La variante completa 671b compite con GPT-5 y Claude Sonnet en evaluaciones estándar como MATH-500 (97,3% vs 74,6% de GPT-5) y AIME 2024. La ventaja clave de ejecutarlo via Ollama es el coste cero por token, la privacidad total y la ausencia de latencia de red.

DeepSeek-Coder V2 alcanza rendimiento comparable a GPT-5 en benchmarks de código específicos. Su ventaja es que se ejecuta en local sin coste de suscripción y sin enviar código propietario a terceros. La desventaja frente a Copilot es la integración: Copilot tiene soporte nativo en VS Code, mientras que con DeepSeek-Coder necesitas configurar una extensión como Continue que apunte al endpoint de Ollama. La calidad del código es comparable; la diferencia está en la experiencia de usuario y la configuración inicial.

Los modelos DeepSeek-R1 y sus variantes destiladas se distribuyen bajo licencia MIT, lo que permite uso comercial sin restricciones. DeepSeek-V3 también usa licencia MIT. DeepSeek-Coder V2 usa licencia DeepSeek propia que permite uso comercial con ciertas condiciones. Revisa el repositorio oficial de cada modelo en Hugging Face para verificar los términos exactos antes de usarlos en producción comercial.

Explora todos los modelos disponibles en Ollama

Además de DeepSeek, Ollama cuenta con modelos de Llama, Qwen, Mistral, Gemma, Phi y cientos más. Descubre qué modelo se adapta mejor a tu hardware y caso de uso.

Ver catalogo completo de modelos
Guía gratuita

Crea tu primer agente de IA, paso a paso

Descarga la guía en PDF: 12 secciones, ejemplos reales y datos de 2026. Gratis.