Gemma 4 publicado —

LM Studio con Google Gemma: ejecutar Gemma 2, Gemma 4 y CodeGemma en local

Google publica la familia Gemma de modelos abiertos bajo licencia Apache 2.0, lo que permite descargarlos, cuantizarlos en GGUF y ejecutarlos directamente en LM Studio sin necesidad de cuenta de Google ni coste por token. En esta guía verás qué modelos de Google están disponibles para uso local, cómo descargarlos en LM Studio, qué cuantización elegir según tu hardware y en qué casos conviene más la API de Gemini frente a ejecutar Gemma en tu propia máquina.

Lo más importante de Gemma en LM Studio
  • Gemma 4 (abril 2026) añade capacidades multimodales — texto, imagen y audio — en modelos de 2B y 4B parámetros que caben en hardware de consumo.
  • Gemma 2 (2B, 9B, 27B) destaca en razonamiento y código y es la opción más madura para tareas puramente textuales en local.
  • CodeGemma (2B y 7B) está especializado en autocompletado fill-in-the-middle y generación de código, compatible con extensiones de VS Code.
  • Todos los modelos Gemma están disponibles en formato GGUF en la organización lmstudio-community de Hugging Face, listos para descargarse desde el buscador integrado de LM Studio.
  • La licencia Apache 2.0 permite uso comercial sin restricciones adicionales.
Infografia comparativa de las tres lineas de la familia Gemma de Google en LM Studio: Gemma 2, Gemma 4 multimodal y CodeGemma
Las tres lineas de la familia Gemma de Google disponibles en LM Studio via Hugging Face. Gemma 4 es la mas reciente con capacidades multimodales (texto, imagen y audio).
Catálogo

La familia Gemma de Google: qué hay disponible en local

Google DeepMind mantiene tres líneas activas de modelos abiertos optimizados para ejecución en hardware de consumo, todas disponibles en formato GGUF para LM Studio.

Gemma 2
Modelos puramente textuales (2B, 9B, 27B parámetros). Excelente en razonamiento, seguimiento de instrucciones y código. Es la opción más estable y probada de la familia para tareas de propósito general en local. Publicado en 2024, sigue siendo la referencia de eficiencia por su arquitectura de atención deslizante.
Solo texto
Gemma 4
Publicado en abril de 2026, introduce modelos multimodales (texto + imagen + audio en E2B y E4B) y variantes MoE de mayor eficiencia (26B con solo 3,8B parámetros activos). La generación más moderna de Google para ejecución local con soporte nativo de visión.
Multimodal
CodeGemma
Especializado en tareas de programación. Variantes de 2B (velocidad de autocompletado) y 7B (instrucción y generación de funciones completas). Entrenado con 500B de tokens de código. Compatible con el modo fill-in-the-middle para integraciones en editores.
Código
Novedades 2026

Gemma 4 multimodal en LM Studio

Gemma 4 es la generación más reciente de modelos abiertos de Google, lanzada el 2 de abril de 2026. Introduce soporte multimodal, arquitecturas MoE y mejor eficiencia por parámetro.

La familia Gemma 4 incluye cuatro variantes con requisitos de hardware muy distintos. Los modelos E2B y E4B están diseñados para ejecutarse en dispositivos de consumo (teléfonos, portátiles de gama media) y son los únicos de la familia con soporte nativo de imagen y audio. Los modelos de 26B y 31B requieren hardware más potente pero ofrecen capacidades de razonamiento significativamente superiores.

Modelos Gemma 4 disponibles en LM Studio — mayo 2026
Modelo Parámetros VRAM (Q4) Multimodal Mejor para
gemma-4-e2b 2B ~1,5 GB Texto + imagen + audio Dispositivos edge, respuesta rápida
gemma-4-e4b 4B ~5 GB Texto + imagen + audio Uso general multimodal, portátiles
gemma-4-26b (MoE) 26B (3,8B activos) 14–18 GB Solo texto Razonamiento avanzado, RTX 3090/4090
gemma-4-31b 31B (denso) ~20 GB Solo texto Máxima calidad, workstations

Cómo descargar Gemma 4 en LM Studio

LM Studio incluye los modelos Gemma 4 directamente en su catálogo. El proceso de descarga es idéntico al de cualquier otro modelo:

  1. Abre LM Studio y ve a la pestaña Discover (o pulsa Ctrl+Shift+M en Windows/Linux, Cmd+Shift+M en macOS).
  2. Escribe gemma-4 en el buscador. Aparecen las variantes E2B, E4B, 26B-MoE y 31B con las cuantizaciones disponibles.
  3. Selecciona la variante adecuada a tu VRAM (ver tabla anterior) y elige la cuantización Q4_K_M para uso general o Q8_0 si dispones de VRAM amplia.
  4. Haz clic en Download. LM Studio descarga el archivo GGUF desde Hugging Face en segundo plano y lo almacena en ~/.cache/lm-studio/models/.
  5. Una vez descargado, selecciona el modelo en la pestaña Chat. Para E2B y E4B puedes adjuntar imágenes directamente en el cuadro de texto del chat.

También puedes buscar los archivos GGUF directamente en Hugging Face buscando lmstudio-community/gemma-4 y añadir el modelo en LM Studio pegando la URL del repositorio en el campo de descarga manual.

Referencia establecida

Gemma 2 en LM Studio: razonamiento y texto

Gemma 2 sigue siendo la opción más madura para tareas puramente textuales. Su arquitectura de atención deslizante produce respuestas de alta calidad con una huella de memoria contenida.

La familia Gemma 2 (2B, 9B y 27B parámetros) destaca en pruebas de razonamiento lógico, matemáticas y generación de texto coherente. El modelo de 9B en cuantización Q4_K_M es el punto dulce para la mayoría de usuarios: cabe en una GPU con 6 GB de VRAM y produce respuestas de calidad comparable a modelos de 13B más antiguos.

Variantes de Gemma 2 y requisitos de hardware
Modelo VRAM Q4_K_M Velocidad típica Caso de uso recomendado
gemma-2-2b-it ~2 GB 60–100 tok/s Respuestas rápidas, hardware muy limitado
gemma-2-9b-it ~6 GB 30–55 tok/s Uso general — punto óptimo calidad/VRAM
gemma-2-27b-it ~18 GB 10–20 tok/s Máxima calidad sin cuantización agresiva

Configuración de parámetros para Gemma 2

Los modelos Gemma 2 funcionan bien con la configuración por defecto de LM Studio, pero estos ajustes mejoran la calidad de las respuestas en tareas de instrucción:

Temperatura
Usa 0,7 para conversación general y creatividad. Para tareas de código o extracción de datos baja a 0,1–0,3 para respuestas más deterministas. Gemma 2 es sensible a temperaturas altas (por encima de 1,0 tiende a generar texto errático).
Longitud de contexto
Gemma 2 soporta hasta 8 192 tokens de contexto. Para la mayoría de conversaciones, 4 096 tokens es suficiente y reduce el consumo de VRAM. Solo activa el contexto máximo si necesitas procesar documentos largos.
Código en local

CodeGemma en LM Studio: autocompletado y generación de código

CodeGemma es la línea de modelos de Google especializada en programación. Entrenada con más de 500B de tokens de código, soporta el modo fill-in-the-middle para integraciones en editores como VS Code.

Google publica CodeGemma en dos variantes principales optimizadas para distintas necesidades de hardware:

CodeGemma 2B — velocidad de autocompletado

Con solo 2 GB de VRAM en cuantización Q4, ofrece sugerencias de código en tiempo real. El modelo pretrained (codegemma-2b) está optimizado para completar líneas incompletas, cerrar funciones y sugerir el siguiente bloque de código. Velocidad típica de 80–120 tok/s en GPU de consumo.

CodeGemma 7B — instrucción y generación completa

La variante instruct (codegemma-7b-it) entiende peticiones en lenguaje natural: «escribe una función Python que ordene una lista por longitud» o «explica este fragmento de SQL». Necesita ~5 GB de VRAM en Q4_K_M. Velocidad de 25–45 tok/s en RTX 3070 o superior.

Conectar CodeGemma con VS Code y Continue.dev

Con el servidor local de LM Studio activo (http://localhost:1234/v1), puedes conectar la extensión Continue.dev de VS Code para usar CodeGemma como asistente de código inline:

  1. Instala CodeGemma 7B instruct en LM Studio (busca codegemma-7b-it en Discover) y cárgalo en el servidor local.
  2. Instala la extensión Continue en VS Code desde el Marketplace.
  3. En la configuración de Continue (~/.continue/config.json), añade un proveedor apuntando al servidor de LM Studio:
{
  "models": [
    {
      "title": "CodeGemma 7B (LM Studio)",
      "provider": "lmstudio",
      "model": "codegemma-7b-it",
      "apiBase": "http://localhost:1234/v1"
    }
  ],
  "tabAutocompleteModel": {
    "title": "CodeGemma 2B autocomplete",
    "provider": "lmstudio",
    "model": "codegemma-2b",
    "apiBase": "http://localhost:1234/v1"
  }
}

Con esta configuración, CodeGemma 7B responde a las preguntas del panel de chat de Continue y CodeGemma 2B actúa como motor de autocompletado inline al escribir código, ambos ejecutándose en local sin coste de API.

Guía de hardware

Cuantización GGUF y requisitos de VRAM para modelos Gemma

Elegir la cuantización correcta es clave para equilibrar calidad de respuesta y velocidad de generación según la VRAM disponible.

Guía de cuantización GGUF para modelos Gemma en LM Studio
Cuantización Bits/peso Calidad Recomendación
Q2_K 2–3 bits Baja Solo si VRAM es muy limitada (< 3 GB)
Q4_0 4 bits Moderada Alternativa rápida a Q4_K_M en hardware antiguo
Q4_K_M 4 bits (mixto) Buena Recomendada para uso general — mejor equilibrio
Q5_K_M 5 bits (mixto) Muy buena Cuando la calidad importa y hay VRAM extra disponible
Q8_0 8 bits Excelente RTX 3090/4090 o Apple Silicon con ≥ 24 GB

Para Gemma 4 E4B, Google y la comunidad de LM Studio recomiendan Q8_0 si dispones de 16–24 GB de memoria, ya que el modelo es suficientemente pequeño para que la ganancia de calidad respecto a Q4_K_M sea perceptible. Para Gemma 2 9B y los modelos de 26B+ la recomendación general sigue siendo Q4_K_M como punto de equilibrio.

Diagrama de cuatro pasos para integrar Gemma en LM Studio: descargar, configurar, activar servidor y conectar a frameworks
Flujo completo para usar Gemma en local: descargar el modelo GGUF, cargarlo en LM Studio, activar el servidor y conectarlo a cualquier framework o herramienta compatible con la API de OpenAI.
Comparativa

Gemma en local vs Gemini API: cuándo elegir cada opción

Ejecutar Gemma con LM Studio y usar la API de Gemini no son opciones excluyentes. Cada una tiene su caso de uso óptimo.

Comparativa: ejecutar Gemma en local (LM Studio) vs API de Gemini
Criterio Gemma en LM Studio (local) API de Gemini (cloud)
Coste Cero — solo electricidad Pago por token (Gemini Flash barato, Pro más caro)
Privacidad de datos Total — ningún dato sale de tu máquina Los datos se procesan en servidores de Google
Latencia Depende del hardware local (25–80 tok/s) Muy baja (respuesta en milisegundos)
Capacidad del modelo Gemma 4 31B como máximo en local Gemini 3.1 Pro — mucho más capaz
Disponibilidad offline Funciona sin conexión a internet Requiere conexión activa
Contexto máximo Hasta 128K tokens (Gemma 4 26B+) Hasta 2M tokens (Gemini 3.1 Pro)
Multimodalidad Gemma 4 E2B/E4B: texto + imagen + audio Completa en todos los modelos Gemini
Ideal para Privacidad, desarrollo offline, control total, sin coste Producción a escala, tareas complejas, contextos largos

El patrón habitual es usar Gemma en LM Studio durante el desarrollo y las pruebas (sin coste, privacidad garantizada, funciona sin conexión) y la API de Gemini en producción cuando el volumen de consultas o la complejidad de las tareas supera lo que el hardware local puede manejar.

Dado que LM Studio expone una API compatible con OpenAI (http://localhost:1234/v1), el cambio entre local y cloud es tan simple como actualizar la variable de entorno con la URL del endpoint sin modificar el código de la aplicación.

Preguntas frecuentes

Preguntas frecuentes sobre Gemma en LM Studio

Sí. El modelo Gemma 4 E4B (4B parámetros) requiere aproximadamente 5 GB en cuantización Q4, por lo que funciona comodamente en cualquier máquina con 8 GB de RAM o más. Para el modelo de 26B parámetros (MoE) se necesitan entre 14 y 18 GB de VRAM o memoria unificada (Apple Silicon). Con 16 GB de RAM unificada en un Mac M2 o M3 puedes ejecutar el modelo E4B a máxima calidad (Q8_0).

Gemma 4 (publicado en abril de 2026) añade capacidades multimodales (texto, imagen y audio en los modelos E2B y E4B) y utiliza arquitecturas MoE (Mixture of Experts) y densa para mayor eficiencia por parámetro activo. Gemma 2 es solo texto, pero sigue siendo una excelente opción para razonamiento y código por su madurez y el amplio ecosistema de cuantizaciones disponibles. Ambas familias están disponibles en formato GGUF para LM Studio.

Sí. CodeGemma 2B y 7B están entrenados para tareas de completado de código (fill-in-the-middle). Con el servidor local de LM Studio activo, puedes conectar extensiones de VS Code compatibles con OpenAI, como Continue.dev, y usar CodeGemma como motor de autocompletado sin coste de API. CodeGemma 2B es especialmente rápido para sugerencias inline en tiempo real.

Depende del caso de uso. La API de Gemini ofrece modelos más grandes y capaces (Gemini 3.1 Pro) con latencia muy baja, pero tiene coste por token y envía los datos a servidores de Google. Ejecutar Gemma en local con LM Studio elimina el coste, garantiza privacidad total y permite trabajar sin conexión, a cambio de menor capacidad en los modelos disponibles localmente. El patrón habitual es usar Gemma local durante el desarrollo y Gemini API en producción.

Para uso general se recomienda Q4_K_M: ofrece una buena relación entre calidad y tamaño de archivo. Si dispones de VRAM amplia (24 GB o más), Q8_0 del modelo E4B ofrece calidad muy próxima al modelo en precisión completa. Q2_K solo es recomendable si el hardware es muy limitado, ya que la calidad de las respuestas cae de forma perceptible.

Sí. Los modelos Gemma 4 E2B y E4B soportan entrada de imagen y audio. En LM Studio puedes adjuntar imágenes directamente en la interfaz de chat con estos modelos. La función multimodal requiere que el archivo GGUF sea de las variantes multimodales publicadas por la comunidad lmstudio-community en Hugging Face. Los modelos de 26B y 31B son solo texto por el momento.

Compara LM Studio con Ollama para modelos de Google

Tanto LM Studio como Ollama soportan los modelos Gemma en formato GGUF. La comparativa técnica detallada te ayuda a elegir cuál encaja mejor en tu flujo de trabajo.

Ver LM Studio vs Ollama
Guía gratuita

Crea tu primer agente de IA, paso a paso

Descarga la guía en PDF: 12 secciones, ejemplos reales y datos de 2026. Gratis.