¿Necesito flash attention desactivado para DeepSeek en LM Studio?

Sí, para los modelos DeepSeek Coder se recomienda desactivar flash attention en LM Studio (opción en la configuración del modelo antes de cargarlo). Los modelos R1 y V3 funcionan correctamente con flash attention activado en versiones recientes de LM Studio.

¿Cómo busco modelos DeepSeek en el buscador de LM Studio?

En la pestaña Discover de LM Studio, escribe "deepseek-r1", "deepseek-v3" o "deepseek-coder" para ver las variantes disponibles. La organización lmstudio-community en Hugging Face publica versiones GGUF actualizadas de todos los modelos DeepSeek. También puedes pegar directamente la URL del repositorio de Hugging Face en el campo de descarga manual.

DeepSeek R1-0528 disponible — mayo 2026

LM Studio con DeepSeek: ejecutar R1, V3 y Coder en local

Q: ¿Qué temperatura debo usar para DeepSeek R1 en LM Studio?

DeepSeek recomienda una temperatura de 0,6 para los modelos R1 (rango óptimo 0,5–0,7). Temperaturas más altas generan variación en el razonamiento pero pueden producir cadenas de pensamiento menos coherentes. Para tareas de código con DeepSeek Coder, usa temperatura 0,1–0,3 para mayor determinismo.

DeepSeek publica sus modelos bajo licencia MIT, lo que permite descargar, cuantizar y ejecutar localmente modelos con capacidades de razonamiento de nivel frontera a un coste de hardware accesible. Esta guía cubre todo lo necesario para ejecutar DeepSeek R1 (razonamiento avanzado), DeepSeek V3 (propósito general) y DeepSeek Coder (programación) en LM Studio: qué variante elegir según tu hardware, cómo configurar los parámetros óptimos y qué esperar de cada modelo.

Lo más importante de DeepSeek en LM Studio

DeepSeek R1 es el modelo de razonamiento open-source más capaz disponible en formato GGUF para LM Studio (mayo 2026). Las versiones destiladas (7B a 70B) permiten ejecutarlo en hardware de consumo.
La temperatura recomendada por DeepSeek para modelos R1 es 0,6 (rango óptimo 0,5–0,7). Temperaturas más altas degradan la coherencia del razonamiento.
DeepSeek Coder V2 Lite (16B MoE) requiere solo ~6 GB de VRAM y ofrece rendimiento en código comparable a modelos mucho más grandes.
Todos los modelos DeepSeek tienen licencia MIT — uso comercial libre sin restricciones adicionales.
La organización lmstudio-community en Hugging Face publica cuantizaciones GGUF actualizadas de todos los modelos DeepSeek.

Infografia comparativa de las tres lineas de modelos DeepSeek en LM Studio: R1, V3 y Coder con sus caracteristicas clave — Las tres lineas de modelos DeepSeek disponibles en LM Studio. R1 para razonamiento, V3 para uso general y Coder V2 para programacion en local con unos 6 GB de VRAM.

Catálogo

Modelos DeepSeek disponibles en LM Studio

DeepSeek mantiene tres líneas de modelos con propósitos distintos. Elegir la línea correcta es tan importante como elegir el tamaño adecuado.

DeepSeek R1

Modelo de razonamiento avanzado con chain-of-thought visible. Antes de responder, R1 muestra su proceso de pensamiento paso a paso entre etiquetas <think>. Ideal para matemáticas, lógica, análisis y problemas complejos donde el proceso es tan valioso como la respuesta.

Razonamiento

DeepSeek V3

Modelo de propósito general sin razonamiento explícito. Arquitectura MoE de 671B parámetros totales pero solo 37B activos por token — eficiencia computacional muy alta. Mejor que R1 en velocidad de respuesta para tareas de escritura, resumen y conversación.

Propósito general

DeepSeek Coder

Línea especializada en programación. DeepSeek Coder V2 Lite (16B MoE) es el más accesible para hardware de consumo. Soporta más de 300 lenguajes de programación. Capacidades de completado de código, generación de funciones y explicación de código comparables a GPT-4 en muchas métricas.

Código

Razonamiento local

DeepSeek R1 en LM Studio: razonamiento visible paso a paso

DeepSeek R1 es el modelo de razonamiento de código abierto más capaz disponible en formato GGUF. Su característica diferencial es el chain-of-thought visible: el modelo expone su proceso de razonamiento antes de llegar a la respuesta final.

DeepSeek R1 fue entrenado con aprendizaje por refuerzo sobre razonamiento, lo que produce un modelo que verbaliza cada paso de su proceso de pensamiento. En LM Studio, esto se muestra como bloques <think>...</think> antes de la respuesta final. Este comportamiento es especialmente útil para verificar si el modelo está razonando correctamente o tomando atajos, y para depurar prompts en aplicaciones complejas.

El modelo completo DeepSeek R1 tiene 671B parámetros y es inviable en hardware de consumo. Sin embargo, DeepSeek publicó simultáneamente versiones destiladas entrenadas usando las cadenas de razonamiento del modelo completo como datos de entrenamiento, que sí son ejecutables en hardware local.

La última versión disponible en Hugging Face a mayo de 2026 es DeepSeek R1-0528, una actualización del modelo original R1 con mejoras en matemáticas y razonamiento de larga duración. Las versiones destiladas R1-0528 están basadas en Qwen3 8B y ofrecen capacidades de razonamiento superiores a las versiones anteriores en el mismo tamaño.

Hardware de consumo

Versiones destiladas de DeepSeek R1: guía de elección

Las versiones destiladas de R1 transfieren el conocimiento de razonamiento del modelo de 671B a modelos base de Qwen y Llama en tamaños accesibles para hardware de consumo.

Versiones destiladas de DeepSeek R1 — requisitos y rendimiento
Modelo	Base	VRAM (Q4_K_M)	Velocidad aprox.	Recomendado para
`R1-Distill-Qwen-7B`	Qwen2.5 7B	~5 GB	30–50 tok/s	Hardware con 6–8 GB VRAM, respuestas rápidas
`R1-Distill-Llama-8B`	Llama 3.1 8B	~6 GB	28–45 tok/s	Alternativa con arquitectura Llama, 8 GB VRAM
`R1-Distill-Qwen-14B`	Qwen2.5 14B	~10 GB	18–30 tok/s	RTX 3080/3090 12 GB, razonamiento más sólido
`R1-Distill-Qwen-32B`	Qwen2.5 32B	~20 GB	8–15 tok/s	RTX 3090/4090 24 GB, mejor calidad de razonamiento local
`R1-Distill-Llama-70B`	Llama 3.3 70B	~40 GB	3–6 tok/s	Apple Silicon M2 Ultra/M3 Max o múltiples GPUs
`R1-0528-Qwen3-8B`	Qwen3 8B	~6 GB	28–48 tok/s	Versión más reciente, razonamiento mejorado en 8B

El punto óptimo para la mayoría de usuarios con una GPU de consumo es R1-Distill-Qwen-7B o R1-0528-Qwen3-8B: ofrecen razonamiento visible de calidad sorprendente para su tamaño y caben en cualquier GPU con 6 GB de VRAM. Si dispones de 24 GB de VRAM, el salto a R1-Distill-Qwen-32B produce mejoras perceptibles en tareas matemáticas y de razonamiento lógico complejo.

Programación

DeepSeek Coder en LM Studio: programación de nivel profesional en local

La línea DeepSeek Coder está diseñada específicamente para tareas de programación. Su variante Lite (16B MoE) ofrece una eficiencia extraordinaria para el hardware requerido.

DeepSeek Coder V2 Lite (16B MoE)

Arquitectura MoE con solo 2,4B parámetros activos de 16B totales. Requiere ~6–7 GB de VRAM en Q4_K_M — similar a un modelo de 7B denso pero con rendimiento en código de un modelo mucho más grande. Ideal para generación de funciones, refactoring y completado en VS Code. Velocidad: 35–55 tok/s en RTX 3070 u 8 GB.

Recomendado para 8 GB VRAM

DeepSeek Coder 33B instruct

Modelo denso de 33B parámetros para máxima calidad en generación de código. Requiere ~22 GB de VRAM en Q4_K_M. Soporta contextos de hasta 16K tokens, lo que permite analizar archivos de código completos. Ideal para refactoring de bases de código grandes y generación de tests. Velocidad: 8–14 tok/s en RTX 3090/4090.

24 GB VRAM

Nota importante sobre flash attention en DeepSeek Coder

Configuración crítica para DeepSeek Coder

En LM Studio, desactiva flash attention antes de cargar cualquier variante de DeepSeek Coder. Con flash attention activado, el modelo puede generar salidas incoherentes o fallar al inicio.
Para desactivarlo: al seleccionar el modelo en la pestaña Chat, abre el panel de configuración avanzada del modelo y desmarca "Use Flash Attention".
Este problema es específico de las variantes Coder — DeepSeek R1 y V3 funcionan correctamente con flash attention activado.

Puesta en marcha

Cómo buscar y descargar modelos DeepSeek en LM Studio

LM Studio incluye los modelos DeepSeek más populares en su catálogo integrado. El buscador se conecta directamente a Hugging Face, por lo que siempre muestra las versiones más recientes disponibles.

Abre LM Studio y ve a la pestaña Discover. Pulsa Ctrl+Shift+M (Windows/Linux) o Cmd+Shift+M (macOS) como atajo.
Escribe el término de búsqueda según el modelo que quieras:
- deepseek-r1 para las versiones destiladas de R1
- deepseek-r1-0528 para la versión más reciente
- deepseek-coder-v2 para DeepSeek Coder V2 Lite
- deepseek-v3 para el modelo de propósito general
Filtra los resultados por el tamaño de modelo adecuado a tu VRAM (ver tabla de versiones destiladas). Selecciona la cuantización Q4_K_M para uso general.
Haz clic en Download. Los modelos más grandes pueden tardar varios minutos o más. LM Studio muestra el progreso en la barra inferior.
Una vez descargado, selecciona el modelo en la pestaña Chat. Para DeepSeek Coder, recuerda desactivar flash attention antes de cargarlo.

Descarga manual desde Hugging Face

Si el modelo no aparece en el buscador integrado, puedes descargarlo directamente desde Hugging Face y apuntar LM Studio al archivo:

# Instalar huggingface-cli si no lo tienes
pip install huggingface_hub

# Descargar una cuantización específica de DeepSeek R1 destilado
huggingface-cli download \
  lmstudio-community/DeepSeek-R1-Distill-Qwen-7B-GGUF \
  DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf \
  --local-dir ~/.cache/lm-studio/models/lmstudio-community/DeepSeek-R1-Distill-Qwen-7B-GGUF

Guardando el archivo en la ruta de caché de LM Studio, la aplicación lo detecta automáticamente en el siguiente arranque sin necesidad de importación manual.

Configuración óptima

Parámetros óptimos para cada modelo DeepSeek en LM Studio

Los parámetros por defecto de LM Studio son un buen punto de partida, pero los modelos DeepSeek tienen configuraciones óptimas documentadas que mejoran la calidad de las respuestas de forma significativa.

Parámetros recomendados por modelo DeepSeek en LM Studio
Parámetro	DeepSeek R1 (destilado)	DeepSeek V3	DeepSeek Coder
Temperatura	0,6 (rango 0,5–0,7)	0,7–0,8	0,1–0,3
Top-P	0,95	0,9–0,95	0,95
Max tokens (generación)	8 192 (mínimo recomendado)	4 096	4 096–8 192
Context length	16 384–32 768	8 192–16 384	16 384
Flash attention	Activado (OK)	Activado (OK)	Desactivado (obligatorio)
GPU Layers	Máximo (offload completo si cabe)	Máximo posible	Máximo posible
Repeat penalty	1,0 (no cambiar)	1,05	1,0

Por qué R1 necesita max tokens alto

DeepSeek R1 genera primero el bloque de razonamiento (<think>) antes de producir la respuesta final. En problemas complejos, este bloque puede consumir varios miles de tokens. Si max_tokens es demasiado bajo, el modelo trunca el razonamiento y la respuesta final es incorrecta o incompleta. El valor mínimo recomendado de 8 192 tokens garantiza que el modelo puede completar su proceso de pensamiento antes de dar la respuesta.

System prompt para R1 destilado

Las versiones destiladas de R1 responden mejor con un system prompt que les indique explícitamente que muestren su razonamiento. El siguiente system prompt produce respuestas de mayor calidad en tareas analíticas:

Eres un asistente de razonamiento. Para cada problema:
1. Analiza el problema en detalle dentro de las etiquetas <think>.
2. Considera múltiples enfoques y verifica tu razonamiento.
3. Proporciona la respuesta final clara y concisa después del bloque de razonamiento.
Responde siempre en español.

Grafico de barras verticales mostrando la VRAM necesaria para cada variante de DeepSeek R1 y Coder en LM Studio — Requerimientos aproximados de VRAM para las variantes DeepSeek R1 en formato GGUF Q4 y DeepSeek Coder V2 Lite. El modelo de 70B requiere hardware profesional o uso en CPU con swap.

Requisitos

Requisitos de hardware: qué modelo corre en tu máquina

Guía de referencia rápida para saber qué variante de DeepSeek puedes ejecutar según la VRAM disponible en tu sistema.

Modelos DeepSeek recomendados según VRAM disponible
VRAM disponible	GPU de referencia	Modelo DeepSeek recomendado	Velocidad estimada
4–6 GB	RTX 3060 6 GB, GTX 1080	R1-Distill-Qwen-7B Q4_K_M Coder V2 Lite Q4_K_M	25–40 tok/s
8 GB	RTX 3070, RTX 4060	R1-Distill-Llama-8B Q4_K_M R1-0528-Qwen3-8B Q4_K_M	30–50 tok/s
10–12 GB	RTX 3080 10/12 GB, RTX 4070	R1-Distill-Qwen-14B Q4_K_M	18–30 tok/s
24 GB	RTX 3090, RTX 3090 Ti, RTX 4090	R1-Distill-Qwen-32B Q4_K_M Coder 33B Q4_K_M	8–15 tok/s
32–128 GB (unificada)	Apple M2 Pro, M3 Max, M4 Max	R1-Distill-Qwen-32B Q8_0 R1-Distill-Llama-70B Q4_K_M	6–20 tok/s
Solo CPU (sin GPU)	Cualquier PC con 16 GB RAM	R1-Distill-Qwen-7B Q4_K_M (lento)	2–6 tok/s

Si tu sistema tiene entre 4 y 8 GB de VRAM, el modelo R1-Distill-Qwen-7B en cuantización Q4_K_M es la mejor opción: ofrece razonamiento visible de calidad real con requisitos de hardware muy accesibles. Aunque la calidad es inferior al modelo completo de 671B, sigue siendo sorprendentemente bueno para matemáticas, lógica y análisis en comparación con otros modelos de 7B sin destilado de razonamiento.

Preguntas frecuentes

Preguntas frecuentes sobre DeepSeek en LM Studio

Con 8 GB de VRAM puedes ejecutar las versiones destiladas de DeepSeek R1: R1-Distill-Qwen-7B o R1-Distill-Llama-8B en cuantización Q4_K_M. Ambas requieren entre 5 y 6 GB de VRAM y ofrecen capacidades de razonamiento superiores a modelos de la misma escala gracias al destilado de conocimiento del modelo completo de 671B. La versión R1-0528-Qwen3-8B es la más reciente y ofrece mejoras en razonamiento con el mismo presupuesto de VRAM.

DeepSeek R1 es un modelo de razonamiento que muestra su proceso de pensamiento paso a paso (chain-of-thought visible) antes de dar la respuesta final. DeepSeek V3 es un modelo de propósito general más rápido, sin razonamiento explícito, mejor para tareas de escritura, resumen y conversación fluida. DeepSeek Coder está especializado en programación. Para matemáticas y lógica compleja, usa R1. Para generación de texto y conversación, V3. Para código, Coder.

DeepSeek recomienda una temperatura de 0,6 para los modelos R1 (rango óptimo 0,5–0,7). Temperaturas más altas generan variación en el razonamiento pero pueden producir cadenas de pensamiento menos coherentes y respuestas incorrectas en tareas matemáticas. Para tareas de código con DeepSeek Coder, usa temperatura 0,1–0,3 para mayor determinismo en la generación de código.

Solo para los modelos DeepSeek Coder. En LM Studio, desactiva flash attention antes de cargar cualquier variante de DeepSeek Coder — con flash attention activado, el modelo puede generar salidas incoherentes o fallar al inicio. Los modelos R1 y V3 funcionan correctamente con flash attention activado en versiones recientes de LM Studio.

El modelo DeepSeek R1 completo tiene 671B parámetros y requiere hardware a nivel de centro de datos (varios nodos con GPUs H100 o A100). Para uso en local, las versiones destiladas son la opción práctica: R1-Distill-Qwen-7B (~5 GB VRAM), R1-Distill-Qwen-14B (~10 GB), R1-Distill-Qwen-32B (~20 GB) y R1-Distill-Llama-70B (necesita múltiples GPUs de 24 GB o Apple M2 Ultra con 192 GB de memoria unificada).

En la pestaña Discover de LM Studio, escribe deepseek-r1, deepseek-v3 o deepseek-coder para ver las variantes disponibles. La organización lmstudio-community en Hugging Face publica cuantizaciones GGUF actualizadas. También puedes pegar directamente la URL del repositorio de Hugging Face (por ejemplo, lmstudio-community/DeepSeek-R1-Distill-Qwen-7B-GGUF) en el campo de búsqueda de LM Studio para acceder a variantes específicas.