¿Qué son las Structured Outputs (salidas estructuradas) de OpenAI?

Structured Outputs es una funcionalidad de GPT-5.4 que garantiza que la respuesta del modelo sigue exactamente un esquema JSON definido por el desarrollador. A diferencia del mode JSON básico, las salidas estructuradas aplican el esquema de forma estricta: si el esquema define un campo como integer, el modelo nunca devolvera un string. Se activa pasando response_format con un JSON Schema al endpoint de Chat Completions.

API de OpenAI (ChatGPT API) — Guía de integración 2026

Q: ¿Cuál es la diferencia entre Chat Completions API y Responses API?

Chat Completions (POST /v1/chat/completions) es el endpoint clásico que recibe un array de mensajes y devuelve una respuesta. Responses API (POST /v1/responses) es el endpoint más nuevo lanzado en 2026 que unifica herramientas integradas (busqueda web, ejecución de código, computer use) en un solo objeto de solicitud sin necesidad de implementar el bucle de herramientas manualmente.

Q: Tiene la API de OpenAI prompt caching para reducir costes?

A mayo de 2026, OpenAI ofrece caching automático de prefijos de prompt: cuando el comienzo de un prompt coincide con una solicitud reciente, los tokens cacheados se facturan al 50% del precio normal. El caching es automático y no requiere configuración explicitamente por parte del desarrollador, aunque no es tan granular ni tan configurable cómo el prompt caching de Anthropic Claude.

La API de OpenAI es el punto de acceso programatico a los modelos GPT-5.4, GPT-5.4 mini y o3 que impulsan ChatGPT. A mayo de 2026 ofrece dos endpoints principales — Chat Completions y el nuevo Responses API —, function calling con esquemas JSON estrictos, salidas estructuradas garantizadas, visión para análisis de imágenes y soporte nativo para streaming. Es la API de LLM más integrada del mercado y el punto de partida habitual para cualquier equipo que comience a construir agentes IA con modelos de OpenAI.

Última actualización: mayo 2026

Lo que necesitas saber sobre la API de OpenAI

La API de OpenAI se accede mediante REST en api.openai.com; los dos endpoints principales son Chat Completions (/v1/chat/completions) y el nuevo Responses API (/v1/responses), lanzado en 2026 con herramientas integradas nativas.
GPT-5.4 cuesta $1,25 por millón de tokens de entrada y $10 de salida; GPT-5.4 mini es cuatro veces más barato ($0,25 / $2); o3 se factura a $2 / $8. No hay cuota mínima mensual en la API.
Function calling permite al modelo llamar a funciones con parámetros JSON estrictos; Structured Outputs garantiza que la respuesta sigue exactamente un esquema JSON definido por el desarrollador.
Los SDKs oficiales de Python (openai) y Node.js (openai) envuelven la API con tipado, manejo de reintentos y soporte nativo para streaming; ambos se instalan con una sola línea.
La API incluye visión para análisis de imágenes por URL o base64, busqueda web integrada, ejecución de código en entorno aislado y Assistants API para conversaciones con estado persistente entre sesiones.

Arquitectura de la API de OpenAI: cliente, autenticacion con API key, endpoints Chat Completions y Responses API, modelos GPT-5.4 y o3 — Arquitectura simplificada de la API de OpenAI: cliente, autenticacion, endpoints y modelos disponibles a mayo 2026.

Documentación de la API de OpenAI — Portal de documentación de la API de OpenAI en platform.openai.com, con referencia de endpoints, guías de integración y ejemplos de código.

¿Qué es la API de OpenAI y cómo funciona?

La API de OpenAI es la interfaz programatica que permite acceder a los modelos de lenguaje de OpenAI — GPT-5.4, GPT-5.4 mini y o3 — desde cualquier aplicación o servicio externo. Es la misma infraestructura que impulsa ChatGPT y está disponible para desarrolladores y empresas mediante autenticación por clave de API y facturación por consumo. A mayo de 2026, es la API de LLM con mayor adopción en el mercado: practicamente cualquier framework de agentes, plataforma low-code y herramienta de terceros ofrece integración nativa con los endpoints de OpenAI.

El modelo de funcionamiento es simple: el desarrollador envia una solicitud HTTP POST con un array de mensajes (y opcionalmente herramientas o un esquema de respuesta), la API procesa la solicitud en los servidores de OpenAI y devuelve la respuesta del modelo en formato JSON o cómo flujo de eventos SSE si se usa streaming. No hay estado del lado del servidor salvo cuando se usa Assistants API: cada llamada a Chat Completions o Responses API es independiente y el cliente debe enviar el historial completo de la conversación si quiere que el modelo tenga contexto de turnos anteriores.

La API expone tres grupos principales de endpoints: Chat Completions (/v1/chat/completions) para el caso de uso general, Responses API (/v1/responses) cómo nuevo endpoint unificado lanzado en 2026 con herramientas integradas, y Assistants API para gestionar hilos de conversación persistentes con memoria y archivos adjuntos. Además, la API incluye endpoints auxiliares para embeddings, moderación de contenido, transcripción de audio (Whisper), síntesis de voz y generación de imágenes (DALL-E), aunque estos quedan fuera del alcance de esta guía centrada en los modelos de lenguaje.

La documentación oficial de referencia está disponible en platform.openai.com/docs, con referencia completa de todos los parámetros, campos de respuesta y limites de tasa en platform.openai.com/docs/api-reference.

Inicio rápido

Primeros pasos con la API de OpenAI

Desde cero hasta la primera respuesta del modelo en tres pasos: crear cuenta, generar clave de API e instalar el SDK.

1. Crear cuenta y cargar credito

Registrate en platform.openai.com con tu correo electrónico. Ve a Billing y añade un método de pago. OpenAI organiza el acceso en tiers (Tier 1 a Tier 5) según el gasto historico mensual: el Tier 1 se desbloquea con el primer pago y ya permite acceder a GPT-5.4 y GPT-5.4 mini. Los limits de tasa (requests por minuto y tokens por minuto) aumentan con cada tier.

2. Generar clave de API

En el panel de OpenAI ve a API Keys y pulsa Create new secret key. La clave se muestra solo en el momento de creación: guardala inmediatamente en un gestor de secretos (variable de entorno OPENAI_API_KEY, HashiCorp Vault, AWS Secrets Manager u otro). Nunca la incluyas directamente en el código fuente ni en repositorios públicos. Cada proyecto puede tener su propia clave con permisos granulares.

3. Instalar el SDK y hacer la primera llamada

Instala el SDK oficial para tu lenguaje: pip install openai (Python) o npm install openai (Node.js). El SDK lee la clave desde la variable de entorno automáticamente. A continuación realiza tu primera llamada a Chat Completions con el modelo gpt-5.4 y comprueba la respuesta en el objeto JSON devuelto.

Ejemplo de primera llamada con Python

El siguiente fragmento muestra la estructura mínima de una llamada a Chat Completions. La variable OPENAI_API_KEY debe estar definida en el entorno antes de ejecutar el script. El SDK la lee automáticamente desde os.environ:

from openai import OpenAI

client = OpenAI()  # Lee OPENAI_API_KEY del entorno

respuesta = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "system", "content": "Eres un asistente util."},
        {"role": "user",   "content": "Resume que es la API de OpenAI en dos oraciones."}
    ],
    max_tokens=200
)

print(respuesta.choices[0].message.content)

Ejemplo equivalente con Node.js

import OpenAI from "openai";

const client = new OpenAI(); // Lee OPENAI_API_KEY del entorno

const respuesta = await client.chat.completions.create({
  model: "gpt-5.4",
  messages: [
    { role: "system", content: "Eres un asistente util." },
    { role: "user",   content: "Resume que es la API de OpenAI en dos oraciones." }
  ],
  max_tokens: 200
});

console.log(respuesta.choices[0].message.content);

El objeto de respuesta de Chat Completions contiene siempre un array choices donde cada elemento tiene un campo message con el rol (assistant) y el contenido generado por el modelo. El campo usage informa de los tokens consumidos en la solicitud para facilitar el control de costes.

Endpoints principales

Chat Completions vs Responses API — cual usar?

OpenAI ofrece dos endpoints principales para acceder a los modelos GPT. Conocer sus diferencias permite elegir el más adecuado para cada caso de uso.

Chat Completions API

Endpoint: POST /v1/chat/completions

El endpoint clásico de OpenAI. Recibe un array de mensajes con roles (system, user, assistant) y devuelve la respuesta del modelo. Es el endpoint con mayor compatibilidad de ecosistema: la mayoría de frameworks, bibliotecas y plataformas lo soportan de forma nativa.

Máximo control sobre el array de mensajes y el historial
Soporte para function calling con definición de herramientas
Structured Outputs con esquema JSON garantizado
Compatible con todos los modelos GPT-5.4, GPT-5.4 mini y o3
El desarrollador gestiona manualmente el bucle de herramientas

Estable Máxima compatibilidad

Responses API

Endpoint: POST /v1/responses

El nuevo endpoint unificado lanzado por OpenAI en 2026. Simplifica la integración de herramientas integradas: busqueda web, ejecución de código en sandbox y computer use se declaran cómo capacidades del objeto de solicitud sin necesidad de implementar el bucle de herramientas del lado del cliente.

Herramientas integradas (web search, code execution, computer use)
Soporte para estado de conversación con previous_response_id
Salida en streaming nativa con eventos granulares
Reduce el código de orquestación necesario en el cliente
Menor compatibilidad con frameworks de terceros (por ser más nuevo)

2026 Herramientas integradas

La recomendación general a mayo de 2026 es usar Chat Completions cuando se necesita máxima compatibilidad con frameworks existentes (LangChain, LlamaIndex, CrewAI) o cuando el agente requiere control preciso sobre cada paso del bucle de herramientas. Usar Responses API cuando el caso de uso principal son herramientas integradas de OpenAI (busqueda web, ejecución de código) y se prefiere delegar el bucle de ejecución a la API para reducir el código de orquestación.

Los Assistants API y los Threads (hilos de conversación persistentes) siguen siendo la opción recomendada cuando el agente necesita mantener contexto entre sesiones de usuario sin que el cliente gestione el historial completo en cada llamada, o cuando el agente necesita acceder a archivos subidos por el usuario con File Search.

Flujo de function calling en la API de OpenAI: llamada inicial, decision del modelo, ejecucion de funcion, devolucion del resultado y respuesta final — Flujo completo de function calling: desde la primera llamada hasta la respuesta final con el resultado de la herramienta incorporado.

Capacidades clave

Function calling y salidas estructuradas

Las dos capacidades más relevantes de la API para construir agentes fiables: llamadas a herramientas con parámetros JSON controlados y respuestas con esquema garantizado.

Function calling — herramientas con parámetros estructurados

Function calling permite declarar funciones con nombre, descripción y un esquema JSON de sus parámetros. El modelo decide autonomamente cuando llamar a cada función y devuelve los parámetros en formato JSON estricto. El desarrollador ejecuta la función con esos parámetros y devuelve el resultado al modelo para que continue la respuesta. GPT-5.4 soporta parallel function calling: puede solicitar varias funciones en la misma respuesta cuando la tarea lo requiere, reduciendo el número de roundtrips. El parámetro tool_choice permite forzar el uso de una función específica o de cualquiera del conjunto.

Structured Outputs — esquema JSON garantizado

Structured Outputs es una funcionalidad de GPT-5.4 que aplica un esquema JSON de forma estricta al texto de respuesta del modelo. A diferencia del modo JSON básico (response_format: {type: "json_object"}) que solo garantiza JSON valido, Structured Outputs garantiza que la respuesta sigue exactamente el esquema especificado: tipos de datos correctos, campos requeridos presentes y ninguna propiedad adicional si se configura additionalProperties: false. Se activa pasando response_format con un JSON Schema completo o usando el parámetro strict: true en la definición de la herramienta.

Visión — análisis de imágenes

GPT-5.4 puede procesar imágenes junto con texto en el mismo mensaje. Las imágenes se pueden enviar cómo URL publica o cómo datos en base64 con el tipo MIME correspondiente (image/png, image/jpeg, etc.). El modelo analiza el contenido visual de la imagen y puede responder preguntas sobre ella, extraer texto, describir elementos, comparar imágenes o usarlas cómo contexto para tareas de código. El número de tokens consumidos por una imagen depende de su resolución: OpenAI usa un sistema de tiles para calcular el coste exacto.

Streaming — respuestas en tiempo real

La API de OpenAI soporta streaming mediante Server-Sent Events (SSE) tanto en Chat Completions cómo en Responses API. Al activar stream: true, la respuesta llega en fragmentos (chunks) a medida que el modelo la genera, lo que permite mostrar texto en tiempo real en la interfaz de usuario sin esperar a que el modelo termine de generar toda la respuesta. Los SDKs de Python y Node.js ofrecen abstracciones de alto nivel para iterar sobre los chunks de forma sincrona o asincrona sin gestionar el protocolo SSE directamente.

Busqueda web y File Search integradas

A traves del Responses API, GPT-5.4 puede buscar información actualizada en la web cuando el prompt requiere datos que no están en su entrenamiento. Las respuestas incluyen citas con las fuentes consultadas. File Search permite al modelo buscar dentro de documentos subidos previamente al Vector Store de OpenAI, extrayendo fragmentos relevantes para incorporarlos al contexto de respuesta. Ambas herramientas se declaran en el campo tools del objeto de solicitud de Responses API.

Assistants API — conversaciones con estado persistente

Assistants API gestiona hilos de conversación (Threads) con historial persistente en los servidores de OpenAI. El cliente no necesita enviar el historial completo en cada llamada: simplemente añade mensajes al Thread y llama a un Run sobre el Assistant configurado. Cada Thread puede tener archivos adjuntos accesibles para el modelo. Assistants API es la opción recomendada para chatbots con memoria de sesión o agentes que necesitan acceder a documentos del usuario de forma recurrente.

Ejemplo de function calling con Python

El siguiente ejemplo muestra cómo declarar una herramienta, detectar cuando el modelo la solicita y devolver el resultado para que el modelo continue la respuesta:

from openai import OpenAI
import json

client = OpenAI()

herramientas = [{
    "type": "function",
    "function": {
        "name": "obtener_temperatura",
        "description": "Devuelve la temperatura actual de una ciudad",
        "parameters": {
            "type": "object",
            "properties": {
                "ciudad": {
                    "type": "string",
                    "description": "Nombre de la ciudad, ej: Madrid"
                }
            },
            "required": ["ciudad"]
        }
    }
}]

mensajes = [{"role": "user", "content": "Que temperatura hace en Barcelona?"}]

# Primera llamada: el modelo solicita usar la herramienta
respuesta = client.chat.completions.create(
    model="gpt-5.4",
    messages=mensajes,
    tools=herramientas,
)

# Detectar llamada a herramienta
if respuesta.choices[0].finish_reason == "tool_calls":
    llamada = respuesta.choices[0].message.tool_calls[0]
    args = json.loads(llamada.function.arguments)

    # Ejecutar la herramienta (aqui seria tu función real)
    resultado = {"temperatura": "22C", "condicion": "soleado"}

    # Anadir respuesta del modelo y resultado de la herramienta
    mensajes.append(respuesta.choices[0].message)
    mensajes.append({
        "role": "tool",
        "tool_call_id": llamada.id,
        "content": json.dumps(resultado)
    })

    # Segunda llamada: el modelo genera la respuesta final
    respuesta_final = client.chat.completions.create(
        model="gpt-5.4",
        messages=mensajes,
        tools=herramientas,
    )
    print(respuesta_final.choices[0].message.content)

Precios

Precios de la API de OpenAI por modelo

Todos los precios son por millón de tokens. Se factura por consumo real sin cuota mínima mensual. Actualizado a mayo de 2026.

Precios de la API de OpenAI — mayo 2026. Valores en USD por millón de tokens.
Modelo	Tipo	Contexto	Input ($/MTok)	Output ($/MTok)	Input cacheado	Mejor para
GPT-5.4	General	1M	$1,25	$10,00	$0,625	Producción general, agentes, visión
GPT-5.4 mini	General (rápido)	1M	$0,25	$2,00	$0,125	Alto volumen, clasificación, extracción
o3	Razonamiento	200K	$2,00	$8,00	$1,00	Matemáticas, ciencias, código complejo

Caching automático de prefijos: la API de OpenAI aplica automáticamente un descuento del 50% a los tokens de entrada que coinciden con el comienzo de una solicitud reciente en cache. El caching es opaco y no requiere configuración explicita por parte del desarrollador, aunque no es configurable con la misma granularidad que el prompt caching de Anthropic (que permite hasta un 90% de ahorro en prefijos marcados).

Para una comparativa de precios con Claude y Gemini consulta la guía de modelos LLM. Para estimar el coste de tu caso de uso, usa el tokenizador de OpenAI disponible en platform.openai.com/tokenizer.

SDKs

SDKs y herramientas de desarrollo

OpenAI ofrece SDKs oficiales para los lenguajes más populares y una creciente lista de integraciones de terceros que envuelven la API con abstracciones de más alto nivel.

SDK de Python — openai

Instalación: pip install openai

El SDK oficial de Python para la API de OpenAI. Incluye clientes sincronos y asincronos (AsyncOpenAI), soporte nativo para streaming con iteradores, manejo automático de reintentos con backoff exponencial y tipos tipados con Pydantic para todos los objetos de respuesta. También incluye helpers para Assistants API, File Search y Responses API.

GitHub openai-python

SDK de Node.js — openai

Instalación: npm install openai

SDK oficial para Node.js y TypeScript. Incluye tipos TypeScript completos para todos los endpoints, soporte para streaming con for await...of, cliente compatible con navegador (sin incluir la clave de API en el bundle) y soporte para edge runtimes (Vercel Edge, Cloudflare Workers). También disponible el paquete @openai/agents con abstracciones de más alto nivel para construir agentes.

GitHub openai-node

SDKs para otros lenguajes

OpenAI ofrece SDKs oficiales también para Go (openai-go), Java (openai-java) y .NET (openai-dotnet). La API REST es compatible con cualquier cliente HTTP, lo que permite integrarla desde cualquier lenguaje sin SDK oficial. La compatibilidad con la especificación de OpenAI es amplia: muchas herramientas y plataformas ofrecen endpoints compatibles con la API de OpenAI, lo que facilita la portabilidad de integraciones existentes.

Frameworks y herramientas de terceros

La API de OpenAI es compatible de forma nativa con los principales frameworks para agentes: LangChain (Python y JS), LlamaIndex, CrewAI, AutoGen y n8n entre otros. También se integra con plataformas de observabilidad cómo LangSmith, Helicone y Langfuse para trazabilidad de llamadas, costes y latencia. Herramientas cómo OpenAI Evals permiten evaluar la calidad de las respuestas de forma sistematica.

Para casos de uso avanzados de agentes con la API de OpenAI, consulta también la guía de ChatGPT Agents para el enfoque gestionado por OpenAI, o la guía de frameworks para agentes IA si prefieres orquestar el bucle de agentes con una biblioteca de terceros. La referencia completa de la API está disponible en platform.openai.com/docs/api-reference.

FAQ

Preguntas frecuentes sobre la API de OpenAI

¿Cómo se obtiene una clave de API de OpenAI?

Para obtener una clave de API de OpenAI hay que crear una cuenta en platform.openai.com, ir a la sección Billing para añadir un método de pago y luego generar una nueva clave secreta en API Keys. La clave se muestra solo una vez al crearla: conviene guardarla inmediatamente en un gestor de secretos o cómo variable de entorno (OPENAI_API_KEY). OpenAI organiza el acceso en tiers de uso según el gasto historico mensual; el Tier 1 se activa con el primer pago y ya permite acceder a GPT-5.4 y GPT-5.4 mini con limites moderados.

¿Cuál es la diferencia entre Chat Completions API y Responses API?

Chat Completions (POST /v1/chat/completions) es el endpoint clásico de OpenAI que recibe un array de mensajes y devuelve la respuesta del modelo. Es el endpoint con mayor compatibilidad de ecosistema y el más usado en frameworks de terceros. Responses API (POST /v1/responses) es el endpoint más nuevo, lanzado en 2026, que unifica herramientas integradas (busqueda web, ejecución de código, computer use) en un solo objeto de solicitud. Con Responses API, el desarrollador declara las herramientas disponibles y OpenAI ejecuta el bucle de herramientas de forma automática sin que el cliente tenga que gestionar cada llamada individualmente.

¿Cuánto cuesta usar la API de OpenAI con GPT-5.4?

A mayo de 2026, GPT-5.4 cuesta $1,25 por millón de tokens de entrada y $10 por millón de tokens de salida. GPT-5.4 mini cuesta $0,25 input y $2 output, siendo cuatro veces más barato para casos de uso de alto volumen. El modelo de razonamiento o3 cuesta $2 input y $8 output. No hay cuota mínima mensual en la API: se factura exactamente por el consumo real. Los tokens de entrada cacheados (prefijos de prompt que coinciden con solicitudes recientes) se facturan al 50% del precio normal gracias al caching automático de prefijos de OpenAI.

¿Qué es function calling en la API de OpenAI y cómo funciona?

Function calling permite al modelo GPT llamar a funciones definidas por el desarrollador con parámetros estructurados. El flujo es: el desarrollador declara las funciones disponibles con nombre, descripción y un esquema JSON de sus parámetros; el modelo decide autonomamente cuando llamar a cada función y devuelve sus parámetros en formato JSON estricto; el desarrollador ejecuta la función localmente y devuelve el resultado al modelo para que genere la respuesta final. GPT-5.4 soporta parallel function calling (múltiples funciones en la misma respuesta) y strict mode (garantía de que el JSON de parámetros sigue el esquema exactamente).

¿Qué son las Structured Outputs de OpenAI y en que se diferencian del modo JSON?

El modo JSON básico (response_format: {type: "json_object"}) garantiza que la respuesta es JSON valido, pero no controla la estructura ni los tipos de datos. Structured Outputs, disponible en GPT-5.4, aplica un JSON Schema completo de forma estricta: si el esquema define un campo cómo integer, el modelo nunca devolvera un string; si se marca additionalProperties: false, la respuesta nunca incluira campos no definidos en el esquema. Se activa pasando response_format con un JSON Schema completo o usando strict: true en la definición de herramienta para function calling.

Tiene la API de OpenAI prompt caching para reducir costes?

A mayo de 2026, la API de OpenAI ofrece caching automático de prefijos de prompt: cuando el comienzo de un prompt coincide con una solicitud reciente en cache, los tokens cacheados se facturan al 50% del precio normal. El caching es opaco y automático: no requiere que el desarrollador marque explicitamente que partes del prompt quiere cachear, pero tampoco es configurable con la granularidad del prompt caching de Anthropic Claude (que permite marcar hasta 4 puntos de control y lograr hasta un 90% de ahorro en prefijos grandes). Para prompts de sistema grandes con muchos usuarios distintos, la diferencia puede ser significativa.

Quieres construir agentes autónomos con OpenAI?

La API de OpenAI es la base técnica. ChatGPT Agents eleva esa base a un agente gestionado capaz de navegar por la web, ejecutar código e interactuar con interfaces gráficas sin que tengas que implementar el bucle de herramientas manualmente.

Ver ChatGPT Agents