Gemini AI de Google

Gemini es la familia de modelos de lenguaje grande desarrollada por Google DeepMind, diseñada desde cero como una arquitectura nativa multimodal capaz de procesar texto, imagen, audio, video y código en un mismo modelo. Dentro del catalogo de modelos LLM para agentes, Gemini destaca por su ventana de contexto de 1 millón de tokens, su integración con Google Search y la disponibilidad de un agente de coding de código abierto, Gemini CLI. El lanzamiento más reciente es Gemini 3.5 Flash, presentado en Google I/O 2026 y ya el modelo por defecto de la app Gemini y del AI Mode de Búsqueda. Esta guía cubre los modelos Pro y Flash, precios de API, capacidades técnicas y cómo elegir la variante adecuada.

Última actualización:
Cinco puntos clave sobre Gemini AI
  • Nativo multimodal: Gemini procesa texto, imagen, audio, video y código en un mismo modelo, sin pipelines separados ni adaptadores. Es la arquitectura más completa del mercado en esa dimensión.
  • Contexto masivo: Gemini 3.1 Pro ofrece 2 millones de tokens de contexto, la ventana más grande entre los frontier públicos. Gemini 3.5 Flash y Gemini 3 Flash tienen 1 millón de tokens, suficiente para analizar libros, repositorios o largos historiales de conversación sin fragmentar el contenido.
  • Gemini 3.5 Flash, el nuevo modelo por defecto: presentado en Google I/O 2026 a $1,50/$9 por MTok, supera a Gemini 3.1 Pro en 11 de 15 benchmarks (sobre todo agénticos y multimodales) con un throughput de ~289 tokens/s. Gemini 3.1 Pro sigue siendo el frontier para razonamiento puro de máxima dificultad, y Gemini 3 Flash y Flash-Lite son las opciones económicas del catálogo.
  • Grounding con Google Search: Gemini puede conectarse a Google Search en tiempo real para responder con información actualizada sin alucinar fuentes, lo que lo diferencia de otros modelos frontier.
  • Gemini CLI: Google lanzo un agente de coding de código abierto que corre directamente en la terminal, accesible para desarrolladores sin infraestructura adicional.
Familia de modelos Gemini AI mayo 2026: Gemini 3.1 Pro (2M tokens, 2/12 USD/MTok), Gemini 3.5 Flash recomendado (1M tokens, 1.50/9 USD/MTok), Gemini 3 Flash (1M tokens, 0.50/3 USD/MTok), Flash-Lite (1M tokens, 0.10/0.40 USD/MTok).
Los modelos principales de la familia Gemini con precios de API por millon de tokens. Flash y Flash-Lite tienen capa gratuita en Google AI Studio; Pro es solo de pago desde abril 2026.
Google AI Studio con Gemini
Google AI Studio (aistudio.google.com), el entorno de prototipado gratuito de Google para explorar y probar los modelos Gemini antes de integrarlos via API.

¿Qué es Gemini y quien lo desarrolla?

Gemini es la familia de modelos de lenguaje multimodal de Google, desarrollada por Google DeepMind, el laboratorio de inteligencia artificial creado en 2023 tras la fusión de Google Brain y DeepMind. A diferencia de modelos anteriores cómo PaLM o LaMDA, Gemini fue diseñado desde cero como una arquitectura nativa multimodal: no es un modelo de texto con módulos de visión anadidos, sino un modelo que procesa texto, imágenes, audio, video y código de forma integrada en su arquitectura fundamental.

La familia Gemini se estructura en tres niveles: Ultra para las tareas más demandantes, Pro cómo modelo de alta capacidad para la mayoría de aplicaciones, y Flash cómo variante optimizada para velocidad y eficiencia en producción. A mayo de 2026, los modelos de referencia para desarrollo con API son Gemini 3.5 Flash (el más reciente, presentado en Google I/O 2026), Gemini 3.1 Pro y Gemini 3 Flash como opción económica. Flash-Lite está disponible para los casos donde el coste es el factor crítico.

Gemini se integra directamente en el ecosistema de Google: puede acceder a Google Search en tiempo real para grounding de respuestas, se despliega a traves de Google AI Studio para prototipado y a traves de Vertex AI para producción enterprise. También es el motor de los productos de Google cómo Google Workspace, NotebookLM y Google Search en modo AI.

Modelos

¿Cuáles son las diferencias entre los modelos Gemini?

La elección entre el nuevo Gemini 3.5 Flash, Gemini 3.1 Pro y Gemini 3 Flash determina el equilibrio entre calidad de razonamiento, velocidad y coste por llamada.

Alta capacidad

Gemini 3.1 Pro

El modelo frontier de Google para uso via API. Mantiene la ventaja en razonamiento puro de máxima dificultad (Humanity's Last Exam, ARC-AGI-2) frente a Gemini 3.5 Flash. Orientado a tareas de razonamiento complejo, análisis de documentos extensos y generación de contenido de alta calidad. Soporta entrada multimodal completa: texto, imagen, audio, video y código.

  • Ventana de contexto: 2 millones de tokens
  • Input: $2,00 / MTok
  • Output: $12,00 / MTok
  • Multimodal nativo (texto, imagen, audio, video, código)
  • Grounding con Google Search
  • Ideal para análisis crítico y tareas de alta complejidad
Opción económica

Gemini 3 Flash

La opción económica del catálogo Gemini. Mantiene una calidad muy alta a un coste menor que 3.5 Flash, lo que lo hace adecuado para pipelines de alto volumen donde el coste por llamada es el factor determinante.

  • Ventana de contexto: 1 millón de tokens
  • Input: $0,50 / MTok
  • Output: $3,00 / MTok
  • Latencia reducida
  • Apto para pipelines de alto volumen
  • Grounding con Google Search disponible

Con la llegada de Gemini 3.5 Flash, el modelo recomendado para la mayoría de agentes en producción pasa a ser este: combina el coste reducido de un Flash con un rendimiento agéntico que supera a Gemini 3.1 Pro en la mayoría de benchmarks. Gemini 3.1 Pro queda reservado para los casos que exigen razonamiento puro de máxima dificultad, y Gemini 3 Flash y Flash-Lite son las opciones cuando el coste por llamada es el factor crítico.

La decisión entre estos modelos no es binaria: muchos equipos los combinan dentro del mismo agente. Una arquitectura habitual consiste en usar Gemini 3.1 Pro para el paso de planificación y razonamiento inicial, y un modelo Flash para la ejecución de los pasos individuales del agente. Esta estrategia puede reducir el coste total hasta un 60% sin comprometer la calidad del resultado final.

Gemini 3.5 Flash y 3 Flash comparten una ventana de contexto de 1 millón de tokens; Gemini 3.1 Pro amplía esa capacidad hasta 2 millones de tokens. La elección se basa principalmente en el equilibrio entre calidad, velocidad y coste. Gemini 3.5 Flash es además uno de los modelos disponibles en Antigravity, el IDE agéntico de Google.

¿Qué es Gemini CLI y cómo funciona como agente de coding?

Gemini CLI es un agente de programación de código abierto desarrollado por Google, disponible en GitHub bajo licencia Apache 2.0. Funciona directamente en la terminal del desarrollador y utiliza Gemini como motor de lenguaje para automatizar tareas de desarrollo de software: analizar repositorios, generar y modificar código, ejecutar comandos y depurar errores.

A diferencia de los asistentes de código integrados en IDEs, Gemini CLI opera en el contexto completo del sistema de archivos del proyecto. Puede leer múltiples archivos, entender la arquitectura del repositorio, proponer cambios y ejecutarlos directamente, todo desde la línea de comandos sin necesidad de una interfaz gráfica.

Capacidades principales de Gemini CLI

  • Contexto completo del repositorio: gracias a la ventana de 1M de tokens, puede cargar un repositorio completo de tamaño moderado y razonar sobre el como un todo.
  • Uso de herramientas: accede a herramientas como busqueda web, ejecución de comandos shell y lectura/escritura de archivos, comportandose como un agente real.
  • Modo interactivo y modo comando: permite tanto conversación iterativa cómo ejecución de tareas definidas en un solo comando.
  • Extensible via MCP: compatible con el Model Context Protocol para conectar fuentes de datos adicionales y herramientas personalizadas.

Gemini CLI compite directamente con Claude Code de Anthropic y con Codex CLI de OpenAI en el espacio de agentes de coding para terminal. Su principal ventaja es ser código abierto y estar respaldado directamente por Google. Para más información sobre cómo integrarlo en flujos de trabajo de desarrollo, consulta la guía de Gemini CLI.

Desde el punto de vista de frameworks para agentes, Gemini CLI puede considerarse un agente de referencia de Google: muestra en la practica cómo estructurar un agente de coding con bucle de razonamiento, uso de herramientas y acceso a contexto de repositorio.

Precios

¿Cuánto cuesta usar Gemini via API?

Precios actualizados a mayo 2026. La capa gratuita de Google AI Studio permite prototipado sin coste.

Precios de Gemini API y Google AI Studio — mayo 2026. Precios en dolares por millón de tokens (MTok). Free tier sujeto a limites de RPM y TPM.
Modelo Input ($/MTok) Output ($/MTok) Contexto Free tier Plataforma
Gemini 3.5 Flash $1,50 $9,00 1M tokens Si (RPM limitado) AI Studio / Vertex AI
Gemini 3.1 Pro $2,00 $12,00 1M tokens Si (RPM limitado) AI Studio / Vertex AI
Gemini 3 Flash $0,50 $3,00 1M tokens Si (RPM limitado) AI Studio / Vertex AI
Gemini Flash-Lite $0,10 $0,40 Si AI Studio / Vertex AI

Gemini 3.5 Flash se posiciona como la opción de mejor relación calidad-precio del catálogo: a $1,50/MTok de entrada y $9,00/MTok de salida resulta unos 25% más barato que Gemini 3.1 Pro, cuyos precios escalan por tamaño de prompt ($2 de entrada hasta 200K tokens, $4 por encima; $12 y $18 de salida respectivamente). En Gemini 3.5 Flash el precio de salida ya incluye los thinking tokens, y la caché de entrada baja a $0,15/MTok. Gemini 3 Flash ($0,50/$3 por MTok) es la opción intermedia, y Gemini Flash-Lite ($0,10/$0,40) sigue siendo la alternativa más económica para volúmenes muy altos donde el coste prima sobre el rendimiento.

Google AI Studio: la capa gratuita de Gemini

Google AI Studio ofrece acceso gratuito a los modelos Gemini con limites de solicitudes por minuto (RPM) y por día. Es la forma más rápida de empezar a experimentar con Gemini sin necesidad de introducir una tarjeta de credito ni configurar facturación. Los limites exactos varian según el modelo, pero son suficientes para prototipado y desarrollo de pruebas de concepto.

Cuando el prototipo está listo para producción, el paso natural es migrar a la API de Gemini con cuenta de facturación activada, o usar Vertex AI si se necesita mayor control, cumplimiento normativo o despliegue en infraestructura de Google Cloud. La clave de API generada en AI Studio es compatible directamente con la Gemini API.

Prompt caching en Gemini

Al igual que Claude de Anthropic, Gemini soporta prompt caching para reducir el coste de llamadas repetidas con el mismo contexto inicial. Cuando las instrucciones del sistema y el contexto base no cambian entre llamadas (lo habitual en un agente en producción), el caching puede reducir el coste de los tokens de entrada entre un 75% y un 90%. El caching se activa declarando los tokens a cachear en la configuración de la llamada a la API.

¿Cuáles son las capacidades técnicas clave de Gemini?

Ventana de contexto de hasta 2 millones de tokens

Gemini 3.1 Pro cuenta con 2 millones de tokens de contexto, la más amplia del mercado. Los modelos Flash tienen 1 millón de tokens, equivalente a aproximadamente 750.000 palabras o varios libros completos. En la practica, esto permite:

  • Analizar repositorios de código completos sin fragmentar archivos.
  • Procesar documentos legales, informes financieros o manuales técnicos sin pérdida de información.
  • Mantener historiales de conversación muy largos en agentes de soporte o investigación.
  • Cargar múltiples documentos de referencia en el mismo contexto para análisis comparativo.

Es importante notar que una ventana grande no garantiza que el modelo use toda la información con igual precisión. Los modelos tienden a dar más peso a los tokens al inicio y al final del contexto (el llamado "lost in the middle" effect). Para contextos muy largos, estructurar la información más relevante al principio y al final del prompt mejora la calidad de las respuestas.

Multimodalidad nativa

Gemini procesa de forma nativa los siguientes tipos de entrada en un mismo modelo:

  • Texto: instrucciones, documentos, código, conversaciones.
  • Imagen: fotos, capturas de pantalla, diagramas, gráficos.
  • Audio: grabaciones de voz, podcasts, reuniones.
  • Video: clips de video con análisis frame a frame.
  • Código: generación, análisis, depuración y refactorización en múltiples lenguajes.

Esta multimodalidad nativa es una ventaja diferencial importante para agentes que necesitan procesar información de fuentes heterogeneas: un agente de análisis empresarial puede procesar en una sola llamada el texto de un informe, las imágenes de sus gráficos y el audio de la presentación asociada.

Grounding con Google Search

Una de las capacidades más distintivas de Gemini es su integración con Google Search para grounding de respuestas. Cuando se activa, Gemini puede buscar información actualizada en Google y citar las fuentes, lo que reduce drasticamente el riesgo de alucinaciones en respuestas sobre hechos recientes o datos que cambian con frecuencia.

El grounding es especialmente valioso para agentes de investigación, asistentes de soporte con información de productos que se actualiza y cualquier caso de uso donde la precisión factual con fuentes verificables sea critica. Se configura como una herramienta adicional en la llamada a la API.

Generación de código

Gemini es uno de los modelos más capaces en generación y análisis de código. Soporta docenas de lenguajes de programación y puede razonar sobre arquitecturas de software, generar tests, explicar código existente y proponer refactorizaciones. La combinación de su ventana de contexto de 1M de tokens con sus capacidades de código lo hace especialmente apto para tareas de Code Assist sobre repositorios grandes.

Herramientas

¿Cómo se accede a Gemini via API?

Tres formas de integrar Gemini en tus proyectos: AI Studio para prototipado, la API para producción y Gemini CLI para desarrollo en terminal.

Google AI Studio

Entorno web para prototipado rápido. Incluye playground interactivo, gestor de prompts y generación de claves de API. Capa gratuita disponible. Ideal para empezar sin fricción.

Ir a AI Studio

Vertex AI

Plataforma enterprise de Google Cloud para despliegue en producción. Ofrece control de acceso, cumplimiento normativo (SOC2, HIPAA, GDPR), SLAs y opciones de red privada.

Ver Vertex AI

Gemini CLI

Agente de coding de código abierto para terminal. Ideal para desarrolladores que quieren automatizar tareas de programación directamente desde la línea de comandos.

Guía de Gemini CLI

Primeros pasos con la Gemini API

La forma más rápida de empezar con Gemini es obtener una clave de API en Google AI Studio e instalar el SDK oficial. Google ofrece SDKs para Python, JavaScript/Node.js, Go, Dart/Flutter y REST directo. La guía completa de integración está disponible en la página de Gemini API.

Para un ejemplo de llamada básica en Python:

pip install google-generativeai

import google.generativeai as genai
genai.configure(api_key="TU_API_KEY")
model = genai.GenerativeModel("gemini-3.5-flash")
response = model.generate_content("Explica cómo funciona un agente de IA")
print(response.text)

Para integraciones más avanzadas con frameworks de agentes, Gemini es compatible con LangChain, LlamaIndex y el SDK de Google para agentes (Vertex AI Agent Builder). La documentación oficial está en ai.google.dev.

Multimodalidad nativa de Gemini: texto, imagen, audio, video y codigo procesados en un solo modelo con grounding de Google Search integrado.
Gemini es el unico modelo frontier que procesa texto, imagen, audio, video y codigo de forma nativa en un solo modelo base, con grounding de Google Search.
Comparativa

¿Cómo se compara Gemini con Claude y ChatGPT?

Comparativa de los modelos de referencia de cada proveedor para desarrollo de agentes a mayo 2026.

Comparativa Gemini vs Claude vs ChatGPT para agentes de IA — mayo 2026. Precios en dolares por millón de tokens.
Dimensión Gemini 3.1 Pro Claude Opus 4.7 GPT-5.4 / o3
Input ($/MTok) $2,00 $5,00 $1,25 / $2,00
Output ($/MTok) $12,00 $25,00 $10,00 / $8,00
Contexto 1M tokens 1M tokens 1M / 200K tokens
Multimodalidad Texto, imagen, audio, video, código Texto, imagen, código Texto, imagen, audio, código
Grounding web Google Search nativo Via herramienta Bing / herramienta
Agente coding Gemini CLI (open source) Claude Code Codex CLI
Tier gratuito Si (AI Studio) No Si (limitado)
Uso en comparativas Ver comparativas Ver comparativas Ver comparativas

Gemini 3.1 Pro ofrece la multimodalidad más completa del mercado (incluido audio y video nativos) y el grounding con Google Search cómo ventaja diferencial. Claude Opus 4.7 destaca en razonamiento y seguimiento de instrucciones complejas. GPT-5.4 mantiene el ecosistema más amplio de integraciones de terceros. Para la mayoría de agentes en producción, el punto de comparación más relevante es el tier balanced: el nuevo Gemini 3.5 Flash ($1,50/$9 por MTok) frente a Claude Sonnet 4.6, donde Gemini aporta la ventaja de superar en buena parte de los benchmarks agénticos a su propio modelo Pro a un coste menor.

Puedes explorar más comparativas detalladas en la sección de comparativas de modelos de esta guía.

FAQ

Preguntas frecuentes sobre Gemini AI

¿Qué es Gemini 3.5 Flash y en qué se diferencia de Gemini 3.1 Pro?

Gemini 3.5 Flash es el modelo rápido y económico que Google presentó en Google I/O 2026 (19 de mayo de 2026) y que ya funciona como modelo por defecto de la app Gemini y del AI Mode de Búsqueda a nivel global. Cuesta $1,50/MTok de entrada y $9,00/MTok de salida (la salida incluye los thinking tokens), aproximadamente un 25% menos que Gemini 3.1 Pro. Pese a ser un Flash, supera a Gemini 3.1 Pro en 11 de 15 benchmarks publicados, sobre todo agénticos y multimodales: Terminal-Bench 2.1 76,2% (frente al 70,3% de 3.1 Pro), MCP Atlas 83,6% y CharXiv Reasoning 84,2%. La excepción es el razonamiento puro de máxima dificultad, donde Gemini 3.1 Pro conserva ventaja. Ambos comparten la ventana de contexto de 1 millón de tokens.

¿Qué diferencia hay entre Gemini Pro y Gemini Flash?

Gemini 3.1 Pro es el modelo más capaz de Google para uso via API, orientado a tareas complejas de razonamiento, análisis de documentos extensos y multimodalidad avanzada. Su precio es de $2,00/MTok de entrada y $12,00/MTok de salida. Gemini 3.5 Flash es el nuevo modelo por defecto de producción (mayo 2026): más rápido, $1,50/MTok de entrada y $9,00/MTok de salida. Gemini 3 Flash sigue disponible como opción económica a $0,50/$3,00/MTok. Los tres tienen 1M de contexto.

¿Qué es Gemini CLI?

Gemini CLI es un agente de coding de código abierto creado por Google que funciona en la terminal. Permite automatizar tareas de desarrollo cómo analizar repositorios, generar código, ejecutar comandos y depurar errores usando Gemini como motor de lenguaje. Está disponible en GitHub bajo licencia Apache 2.0 y es compatible con el Model Context Protocol (MCP) para extender sus capacidades. Más información en la página de Gemini CLI.

Gemini tiene capa gratuita en Google AI Studio?

Si. Google AI Studio ofrece acceso gratuito a los modelos Gemini con limites de solicitudes por minuto (RPM) y por día generosos para prototipado. Permite experimentar sin necesidad de introducir datos de facturación. Los limites varian según el modelo, pero son suficientes para desarrollo de pruebas de concepto y proyectos pequeños. Cuando el proyecto escala, se puede activar la facturación o migrar a Vertex AI para producción enterprise.

¿Qué ventana de contexto tiene Gemini?

Gemini 3.1 Pro tiene la ventana de contexto más grande: 2 millones de tokens, la más amplia entre los modelos frontier públicos a mayo de 2026. Gemini 3.5 Flash y Gemini 3 Flash cuentan con 1 millón de tokens (1.048.576 de entrada y hasta 65.536 de salida en el caso de 3.5 Flash), equivalente a aproximadamente 750.000 palabras o varios libros completos. Esta capacidad permite analizar repositorios de código extensos, documentos largos o largas historias de conversación sin necesidad de fragmentar el contenido.

¿Qué diferencia hay entre Google AI Studio y Vertex AI para usar Gemini?

Google AI Studio es la plataforma de prototipado rápido: fácil de usar, con capa gratuita, acceso inmediato a los modelos Gemini y generación de claves de API sin configuración de infraestructura. Vertex AI es la plataforma enterprise de Google Cloud para producción: ofrece mayor control de seguridad, cumplimiento normativo (SOC2, HIPAA, GDPR), SLAs, opciones de red privada y despliegue en regiones específicas. La recomendación habitual es empezar con AI Studio y migrar a Vertex AI cuando los requisitos de producción lo exijan.

Es Gemini bueno para construir agentes de IA?

Si, especialmente Gemini 3.5 Flash para agentes en producción a escala. Su ventana de contexto de 1M de tokens, su multimodalidad nativa (texto, imagen, audio, video) y su integración con Google Search para grounding lo hacen muy competitivo. Para agentes que necesitan razonamiento complejo sobre documentos extensos o análisis multimodal avanzado, Gemini 3.1 Pro es una opción solida. Gemini 3 Flash es la alternativa económica para casos donde el coste es el factor prioritario. La combinación de modelos dentro del mismo agente es una estrategia eficiente para equilibrar calidad y coste. Explora los frameworks para agentes compatibles con Gemini.

Explora el catalogo completo de modelos

Compara Gemini con Claude, ChatGPT, DeepSeek, Llama y Mistral. Precios, contexto y recomendaciones según el tipo de agente que quieres construir.

Ver todos los modelos LLM
Guía gratuita

Crea tu primer agente de IA, paso a paso

Descarga la guía en PDF: 12 secciones, ejemplos reales y datos de 2026. Gratis.