- Gemma 4 (abril 2026) añade capacidades multimodales — texto, imagen y audio — en modelos de 2B y 4B parámetros que caben en hardware de consumo.
- Gemma 2 (2B, 9B, 27B) destaca en razonamiento y código y es la opción más madura para tareas puramente textuales en local.
- CodeGemma (2B y 7B) está especializado en autocompletado fill-in-the-middle y generación de código, compatible con extensiones de VS Code.
- Todos los modelos Gemma están disponibles en formato GGUF en la organización lmstudio-community de Hugging Face, listos para descargarse desde el buscador integrado de LM Studio.
- La licencia Apache 2.0 permite uso comercial sin restricciones adicionales.
La familia Gemma de Google: qué hay disponible en local
Google DeepMind mantiene tres líneas activas de modelos abiertos optimizados para ejecución en hardware de consumo, todas disponibles en formato GGUF para LM Studio.
Gemma 4 multimodal en LM Studio
Gemma 4 es la generación más reciente de modelos abiertos de Google, lanzada el 2 de abril de 2026. Introduce soporte multimodal, arquitecturas MoE y mejor eficiencia por parámetro.
La familia Gemma 4 incluye cuatro variantes con requisitos de hardware muy distintos. Los modelos E2B y E4B están diseñados para ejecutarse en dispositivos de consumo (teléfonos, portátiles de gama media) y son los únicos de la familia con soporte nativo de imagen y audio. Los modelos de 26B y 31B requieren hardware más potente pero ofrecen capacidades de razonamiento significativamente superiores.
| Modelo | Parámetros | VRAM (Q4) | Multimodal | Mejor para |
|---|---|---|---|---|
gemma-4-e2b |
2B | ~1,5 GB | Texto + imagen + audio | Dispositivos edge, respuesta rápida |
gemma-4-e4b |
4B | ~5 GB | Texto + imagen + audio | Uso general multimodal, portátiles |
gemma-4-26b (MoE) |
26B (3,8B activos) | 14–18 GB | Solo texto | Razonamiento avanzado, RTX 3090/4090 |
gemma-4-31b |
31B (denso) | ~20 GB | Solo texto | Máxima calidad, workstations |
Cómo descargar Gemma 4 en LM Studio
LM Studio incluye los modelos Gemma 4 directamente en su catálogo. El proceso de descarga es idéntico al de cualquier otro modelo:
- Abre LM Studio y ve a la pestaña Discover (o pulsa Ctrl+Shift+M en Windows/Linux, Cmd+Shift+M en macOS).
-
Escribe
gemma-4en el buscador. Aparecen las variantes E2B, E4B, 26B-MoE y 31B con las cuantizaciones disponibles. - Selecciona la variante adecuada a tu VRAM (ver tabla anterior) y elige la cuantización Q4_K_M para uso general o Q8_0 si dispones de VRAM amplia.
-
Haz clic en Download. LM Studio descarga el archivo GGUF desde Hugging Face
en segundo plano y lo almacena en
~/.cache/lm-studio/models/. - Una vez descargado, selecciona el modelo en la pestaña Chat. Para E2B y E4B puedes adjuntar imágenes directamente en el cuadro de texto del chat.
También puedes buscar los archivos GGUF directamente en Hugging Face buscando
lmstudio-community/gemma-4 y añadir el modelo en LM Studio pegando la URL
del repositorio en el campo de descarga manual.
Gemma 2 en LM Studio: razonamiento y texto
Gemma 2 sigue siendo la opción más madura para tareas puramente textuales. Su arquitectura de atención deslizante produce respuestas de alta calidad con una huella de memoria contenida.
La familia Gemma 2 (2B, 9B y 27B parámetros) destaca en pruebas de razonamiento lógico, matemáticas y generación de texto coherente. El modelo de 9B en cuantización Q4_K_M es el punto dulce para la mayoría de usuarios: cabe en una GPU con 6 GB de VRAM y produce respuestas de calidad comparable a modelos de 13B más antiguos.
| Modelo | VRAM Q4_K_M | Velocidad típica | Caso de uso recomendado |
|---|---|---|---|
gemma-2-2b-it |
~2 GB | 60–100 tok/s | Respuestas rápidas, hardware muy limitado |
gemma-2-9b-it |
~6 GB | 30–55 tok/s | Uso general — punto óptimo calidad/VRAM |
gemma-2-27b-it |
~18 GB | 10–20 tok/s | Máxima calidad sin cuantización agresiva |
Configuración de parámetros para Gemma 2
Los modelos Gemma 2 funcionan bien con la configuración por defecto de LM Studio, pero estos ajustes mejoran la calidad de las respuestas en tareas de instrucción:
CodeGemma en LM Studio: autocompletado y generación de código
CodeGemma es la línea de modelos de Google especializada en programación. Entrenada con más de 500B de tokens de código, soporta el modo fill-in-the-middle para integraciones en editores como VS Code.
Google publica CodeGemma en dos variantes principales optimizadas para distintas necesidades de hardware:
CodeGemma 2B — velocidad de autocompletado
Con solo 2 GB de VRAM en cuantización Q4, ofrece sugerencias de código
en tiempo real. El modelo pretrained (codegemma-2b) está optimizado para
completar líneas incompletas, cerrar funciones y sugerir el siguiente bloque de código.
Velocidad típica de 80–120 tok/s en GPU de consumo.
CodeGemma 7B — instrucción y generación completa
La variante instruct (codegemma-7b-it) entiende peticiones en lenguaje
natural: «escribe una función Python que ordene una lista por longitud» o
«explica este fragmento de SQL». Necesita ~5 GB de VRAM en Q4_K_M.
Velocidad de 25–45 tok/s en RTX 3070 o superior.
Conectar CodeGemma con VS Code y Continue.dev
Con el servidor local de LM Studio activo (http://localhost:1234/v1),
puedes conectar la extensión
Continue.dev
de VS Code para usar CodeGemma como asistente de código inline:
-
Instala CodeGemma 7B instruct en LM Studio (busca
codegemma-7b-iten Discover) y cárgalo en el servidor local. - Instala la extensión Continue en VS Code desde el Marketplace.
-
En la configuración de Continue (
~/.continue/config.json), añade un proveedor apuntando al servidor de LM Studio:
{
"models": [
{
"title": "CodeGemma 7B (LM Studio)",
"provider": "lmstudio",
"model": "codegemma-7b-it",
"apiBase": "http://localhost:1234/v1"
}
],
"tabAutocompleteModel": {
"title": "CodeGemma 2B autocomplete",
"provider": "lmstudio",
"model": "codegemma-2b",
"apiBase": "http://localhost:1234/v1"
}
}
Con esta configuración, CodeGemma 7B responde a las preguntas del panel de chat de Continue y CodeGemma 2B actúa como motor de autocompletado inline al escribir código, ambos ejecutándose en local sin coste de API.
Cuantización GGUF y requisitos de VRAM para modelos Gemma
Elegir la cuantización correcta es clave para equilibrar calidad de respuesta y velocidad de generación según la VRAM disponible.
| Cuantización | Bits/peso | Calidad | Recomendación |
|---|---|---|---|
Q2_K |
2–3 bits | Baja | Solo si VRAM es muy limitada (< 3 GB) |
Q4_0 |
4 bits | Moderada | Alternativa rápida a Q4_K_M en hardware antiguo |
Q4_K_M |
4 bits (mixto) | Buena | Recomendada para uso general — mejor equilibrio |
Q5_K_M |
5 bits (mixto) | Muy buena | Cuando la calidad importa y hay VRAM extra disponible |
Q8_0 |
8 bits | Excelente | RTX 3090/4090 o Apple Silicon con ≥ 24 GB |
Para Gemma 4 E4B, Google y la comunidad de LM Studio recomiendan Q8_0 si dispones de 16–24 GB de memoria, ya que el modelo es suficientemente pequeño para que la ganancia de calidad respecto a Q4_K_M sea perceptible. Para Gemma 2 9B y los modelos de 26B+ la recomendación general sigue siendo Q4_K_M como punto de equilibrio.
Gemma en local vs Gemini API: cuándo elegir cada opción
Ejecutar Gemma con LM Studio y usar la API de Gemini no son opciones excluyentes. Cada una tiene su caso de uso óptimo.
| Criterio | Gemma en LM Studio (local) | API de Gemini (cloud) |
|---|---|---|
| Coste | Cero — solo electricidad | Pago por token (Gemini Flash barato, Pro más caro) |
| Privacidad de datos | Total — ningún dato sale de tu máquina | Los datos se procesan en servidores de Google |
| Latencia | Depende del hardware local (25–80 tok/s) | Muy baja (respuesta en milisegundos) |
| Capacidad del modelo | Gemma 4 31B como máximo en local | Gemini 3.1 Pro — mucho más capaz |
| Disponibilidad offline | Funciona sin conexión a internet | Requiere conexión activa |
| Contexto máximo | Hasta 128K tokens (Gemma 4 26B+) | Hasta 2M tokens (Gemini 3.1 Pro) |
| Multimodalidad | Gemma 4 E2B/E4B: texto + imagen + audio | Completa en todos los modelos Gemini |
| Ideal para | Privacidad, desarrollo offline, control total, sin coste | Producción a escala, tareas complejas, contextos largos |
El patrón habitual es usar Gemma en LM Studio durante el desarrollo y las pruebas (sin coste, privacidad garantizada, funciona sin conexión) y la API de Gemini en producción cuando el volumen de consultas o la complejidad de las tareas supera lo que el hardware local puede manejar.
Dado que LM Studio expone una API compatible con OpenAI (http://localhost:1234/v1),
el cambio entre local y cloud es tan simple como actualizar la variable de entorno
con la URL del endpoint sin modificar el código de la aplicación.
Preguntas frecuentes sobre Gemma en LM Studio
Sí. El modelo Gemma 4 E4B (4B parámetros) requiere aproximadamente 5 GB en cuantización Q4, por lo que funciona comodamente en cualquier máquina con 8 GB de RAM o más. Para el modelo de 26B parámetros (MoE) se necesitan entre 14 y 18 GB de VRAM o memoria unificada (Apple Silicon). Con 16 GB de RAM unificada en un Mac M2 o M3 puedes ejecutar el modelo E4B a máxima calidad (Q8_0).
Gemma 4 (publicado en abril de 2026) añade capacidades multimodales (texto, imagen y audio en los modelos E2B y E4B) y utiliza arquitecturas MoE (Mixture of Experts) y densa para mayor eficiencia por parámetro activo. Gemma 2 es solo texto, pero sigue siendo una excelente opción para razonamiento y código por su madurez y el amplio ecosistema de cuantizaciones disponibles. Ambas familias están disponibles en formato GGUF para LM Studio.
Sí. CodeGemma 2B y 7B están entrenados para tareas de completado de código (fill-in-the-middle). Con el servidor local de LM Studio activo, puedes conectar extensiones de VS Code compatibles con OpenAI, como Continue.dev, y usar CodeGemma como motor de autocompletado sin coste de API. CodeGemma 2B es especialmente rápido para sugerencias inline en tiempo real.
Depende del caso de uso. La API de Gemini ofrece modelos más grandes y capaces (Gemini 3.1 Pro) con latencia muy baja, pero tiene coste por token y envía los datos a servidores de Google. Ejecutar Gemma en local con LM Studio elimina el coste, garantiza privacidad total y permite trabajar sin conexión, a cambio de menor capacidad en los modelos disponibles localmente. El patrón habitual es usar Gemma local durante el desarrollo y Gemini API en producción.
Para uso general se recomienda Q4_K_M: ofrece una buena relación entre calidad y tamaño de archivo. Si dispones de VRAM amplia (24 GB o más), Q8_0 del modelo E4B ofrece calidad muy próxima al modelo en precisión completa. Q2_K solo es recomendable si el hardware es muy limitado, ya que la calidad de las respuestas cae de forma perceptible.
Sí. Los modelos Gemma 4 E2B y E4B soportan entrada de imagen y audio. En LM Studio puedes adjuntar imágenes directamente en la interfaz de chat con estos modelos. La función multimodal requiere que el archivo GGUF sea de las variantes multimodales publicadas por la comunidad lmstudio-community en Hugging Face. Los modelos de 26B y 31B son solo texto por el momento.
Compara LM Studio con Ollama para modelos de Google
Tanto LM Studio como Ollama soportan los modelos Gemma en formato GGUF. La comparativa técnica detallada te ayuda a elegir cuál encaja mejor en tu flujo de trabajo.
Ver LM Studio vs Ollama