Modelos de IA Frontier febrero 2026: GPT-5

El mes más intenso en la historia de la IA

Febrero de 2026 será recordado como el mes en que la carrera por la IA frontier se aceleró a fondo. Diez grandes proveedores están lanzando activamente modelos frontier, cada uno empujando los límites de lo posible con los modelos de lenguaje.

La cronología:

Fecha	Proveedor	Modelo	Destacado
2 dic.	Mistral AI	Mistral Large 3	675B MoE, #2 open-source en LMArena
27 ene.	Moonshot AI	Kimi K2.5	1T MoE open-source con Agent Swarm
5 feb.	OpenAI	GPT-5.3 Codex	Primer modelo de codificación agéntica "auto-mejorante"
11 feb.	Zhipu AI	GLM-5	Modelo open-source 745B entrenado en chips chinos
12 feb.	DeepSeek	Actualización V3.2	Ventana de contexto expandida 10× a más de 1M tokens
15 feb.	Moonshot AI	Kimi Claw	Plataforma de agente basada en navegador, impulsada por K2.5
17 feb.	Anthropic	Claude Sonnet 4.6	Rendimiento cercano a Opus a 1/5 del precio
17 feb.	xAI	Grok 4.2 RC	Modelo de "aprendizaje rápido" que mejora semanalmente
17 feb.	DeepSeek	V4 (esperado)	Modelo de 1T parámetros apuntando a dominar la codificación
19 feb.	Google	Gemini 3.1 Pro	Salto 2× en razonamiento, puntuación ARC-AGI-2 de 77,1 %
2026	MiniMax	M2.5	#1 Multi-SWE-Bench, 10B parámetros activos, $0,30/M

Esto no es solo una mejora incremental. Es un cambio fundamental en lo que los modelos de IA pueden hacer, cuánto cuestan y quién los está construyendo.

Desglosemos cada lanzamiento.

OpenAI: GPT-5.3 Codex

Lanzado: 5 de febrero de 2026

GPT-5.3 Codex de OpenAI representa un cambio de paradigma: del "modelo que escribe código" al "modelo que hace casi todo lo que un desarrollador puede hacer en una computadora".

Novedades

GPT-5.3 Codex combina el rendimiento de codificación frontier de GPT-5.2-Codex con el razonamiento y el conocimiento profesional de GPT-5.2. El resultado es un modelo capaz de asumir tareas de larga duración que involucran investigación, uso de herramientas y ejecución compleja en múltiples pasos.

Mejoras clave:

25 % más rápido que GPT-5.2-Codex
Menos tokens consumidos por tarea — hace más con menos
Vanguardia en SWE-Bench Pro y Terminal-Bench
Resultados sólidos en OSWorld y GDPval

La alerta de ciberseguridad

Este es el primer modelo de OpenAI en alcanzar el nivel "alto" en su marco de preparación en ciberseguridad, lo que significa que creen que GPT-5.3 Codex es suficientemente capaz en codificación y razonamiento como para "habilitar significativamente daño cibernético real, especialmente si se automatiza o se usa a escala". Un hito que subraya cuán capaces se han vuelto estos modelos.

Disponibilidad

Disponible para usuarios de ChatGPT de pago a través de la app Codex, CLI, extensión de IDE y web. También se lanzó una variante más liviana, GPT-5.3-Codex-Spark. El acceso por API llega pronto.

Precios

Modelo	Entrada (por 1M)	Salida (por 1M)	Entrada en caché
GPT-5	$1,25	$10,00	$0,625
GPT-5.3 Codex	TBA (API pendiente)	TBA	TBA
o3	$2,00	$8,00	—
o4-mini	$1,10	$4,40	$0,55

Anthropic: Claude Sonnet 4.6

Lanzado: 17 de febrero de 2026

Claude Sonnet 4.6 es la respuesta de Anthropic a una pregunta que nadie creía posible hace un año: ¿puede un modelo de nivel medio igualar a uno insignia?

Novedades

Esto no es una actualización menor de versión. Sonnet 4.6 es una actualización completa en codificación, uso de computadora, razonamiento con contexto largo, planificación de agentes, trabajo del conocimiento y diseño. Incluye una ventana de contexto de 1M tokens (en beta).

Destacados de benchmarks

Benchmark	Sonnet 4.6	Opus 4.6	Diferencia
SWE-bench Verified	79,6 %	—	—
OSWorld (uso de computadora)	72,5 %	72,7 %	0,2 %
Office Productivity	1633 Elo	1559 Elo	Sonnet lidera
Financial Analysis	63,3 %	62,0 %	Sonnet lidera

El número de uso de computadora es notable: 72,5 % en OSWorld-Verified, frente al 14,9 % cuando el uso de computadora se lanzó por primera vez hace apenas 16 meses.

Preferencia de usuarios

Anthropic reporta que el 70 % de los usuarios prefiere Sonnet 4.6 sobre Sonnet 4.5, y el 59 % lo prefiere sobre el antiguo Opus 4.5. A $3/$15 por millón de tokens —una quinta parte del precio de Opus 4.6 a $15/$75—, este es el mejor valor en IA frontier para cargas de trabajo empresariales.

Claude Opus 4.6

El insignia Opus 4.6 sigue siendo el techo de las capacidades de Anthropic, impulsando las tareas agénticas y de razonamiento más exigentes. Sin embargo, la brecha con Sonnet es ahora mínima, convirtiendo al modelo de nivel medio en la elección pragmática para la mayoría de las aplicaciones.

Google: Gemini 3.1 Pro

Lanzado: 19 de febrero de 2026

Google presenta Gemini 3.1 Pro no como una mejora de nicho, sino como un modelo predeterminado más sólido para tareas complejas.

Novedades

El número titular: una puntuación ARC-AGI-2 de 77,1 % — más del doble del rendimiento de razonamiento de Gemini 3 Pro. Diseñado específicamente para tareas que requieren razonamiento avanzado en múltiples pasos, como sintetizar datos de diversas fuentes o explicar temas complejos e interdependientes.

Disponibilidad

Implementación gradual en todo el ecosistema de Google:

App Gemini (límites más altos para usuarios de planes Pro y Ultra)
NotebookLM (usuarios Pro y Ultra)
API Gemini a través de AI Studio, Vertex AI, Gemini CLI y Android Studio
Precios sin cambios respecto a Gemini 3 Pro (~$1,25/$10 por millón de tokens estándar)

Por qué importa

Google mantuvo los precios estables mientras mejoraba dramáticamente el razonamiento. Para empresas que ya están en Google Cloud, el 3.1 Pro encaja como una actualización directa sin impacto presupuestario.

DeepSeek: V4 y la expansión de contexto 10×

Actualización V3.2: 12 de febrero de 2026 V4 esperado: mediados de febrero de 2026

DeepSeek sigue siendo la fuerza más disruptiva en precios de IA mientras empuja capacidades genuinamente frontier.

V3.2: Expansión de contexto 10×

A principios de febrero, DeepSeek expandió la ventana de contexto de V3.2 de 128.000 tokens a más de 1 millón — un aumento de diez veces. A $0,27/$1,10 por millón de tokens, esta es ahora la forma más barata de procesar documentos masivos con un modelo de clase frontier.

V4: La próxima frontier

Se espera que DeepSeek V4 incluya:

1 billón de parámetros (arquitectura MoE)
Contexto nativo de 1M+ tokens
Tres avances arquitectónicos: Engram conditional memory, Manifold-Constrained Hyper-Connections y DeepSeek Sparse Attention
Objetivo: 80 %+ en SWE-bench — lo que lo situaría en la cima absoluta de los benchmarks de codificación
Se espera que sea open-weight bajo licencia permisiva

La historia de costos

La brecha de precios entre DeepSeek y los proveedores occidentales sigue siendo enorme:

Ejemplo de costo de tarea	GPT-5	Claude Opus 4.6	DeepSeek V3.2
100K entrada + 10K salida	$0,225	$2,25	$0,038
Relación con DeepSeek	6×	59×	1×

Una tarea compleja que cuesta $15 con GPT-5 cuesta aproximadamente $0,50 con DeepSeek. Esto no es solo una ventaja de costo — cambia lo que es económicamente viable automatizar.

Zhipu AI: GLM-5

Lanzado: 11 de febrero de 2026

El lanzamiento de modelo open-source más grande del mes, y posiblemente el más significativo geopolíticamente.

Novedades

GLM-5 es un modelo MoE de 745 mil millones de parámetros (44B parámetros activos) con cinco capacidades principales: escritura creativa, generación de código, razonamiento en múltiples pasos, inteligencia agéntica y procesamiento de contexto largo.

Rendimiento en benchmarks

Benchmark	GLM-5	Comparación
SWE-bench Verified	77,8 %	Iguala a Claude Opus 4.5
AIME 2026	92,7 %	—
GPQA-Diamond	86,0 %	—
Humanity's Last Exam	50,4 %	Supera a Claude Opus 4.5
Tasa de alucinación	34 %	Baja desde 90 % (GLM-4.7)

La reducción de alucinaciones —del 90 % al 34 % usando una técnica novedosa de RL llamada Slime— es particularmente impresionante y encabeza el índice Artificial Analysis Omniscience.

La señal geopolítica

GLM-5 fue entrenado íntegramente en chips Huawei Ascend usando el framework MindSpore — sin hardware fabricado en EE. UU. Esto demuestra que la pila de cómputo doméstica de China puede producir modelos de calidad frontier a pesar de los controles de exportación.

Modo Agente Nativo

GLM-5 incluye un "Modo Agente" nativo que puede transformar prompts en documentos de oficina profesionales (.docx, .pdf, .xlsx) — compitiendo directamente con el uso de computadora de Anthropic y el Codex de OpenAI en tareas empresariales prácticas.

Tras el lanzamiento, las acciones de Zhipu subieron un 34 % en la Bolsa de Hong Kong.

Moonshot AI: Kimi K2.5 y Kimi Claw

K2.5 lanzado: 27 de enero de 2026 Kimi Claw: 15 de febrero de 2026

Moonshot AI está construyendo el ecosistema agéntico open-source más completo en el espacio de IA chino.

Kimi K2.5

Un modelo MoE de 1 billón de parámetros (32B parámetros activos) que comprende texto, imágenes y video. Innovación clave: capacidad Agent Swarm, impulsada por una nueva técnica de RL llamada Parallel Agent Reinforcement Learning (PARL) que entrena al modelo para descomponer y paralelizar tareas complejas.

El modelo es completamente open-source y está disponible en Hugging Face.

Kimi Claw

Lanzado el 15 de febrero, Kimi Claw es una plataforma de agente de IA basada en navegador nativa en la nube, construida sobre el framework OpenClaw. Piénsalo como la respuesta de Moonshot al uso de computadora de Anthropic — pero ejecutándose completamente en la nube.

xAI: Grok 4.2 Release Candidate

Beta pública: 17 de febrero de 2026

Grok 4.2 de Elon Musk introduce un enfoque fundamentalmente diferente para la mejora de modelos: aprendizaje rápido.

Novedades

A diferencia de todos los demás modelos de esta lista, Grok 4.2 está diseñado para mejorar cada semana basándose en el uso público. Musk lo describió como capaz de "aprender rápidamente" con ciclos de mejora semanales y notas de lanzamiento.

Nuevas capacidades:

Colaboración paralela de 4 agentes — agentes de IA especializados que sintetizan salidas en una sola respuesta
Análisis de documentos médicos mediante carga de fotos
Razonamiento de ingeniería mejorado

Precios

xAI mantiene su agresiva estrategia de precios:

Modelo	Entrada (por 1M)	Salida (por 1M)
Grok 4.1	$0,20	$0,50
Grok 4.2 RC	TBA (beta)	TBA

Estado actual

Grok 4.2 está actualmente en beta pública — disponible para seleccionar en la interfaz de Grok. El lanzamiento general se espera en marzo de 2026. Los benchmarks oficiales se publicarán tras concluir la beta.

Mistral AI: Large 3 y el stack de codificación

Mistral Large 3: 2 de diciembre de 2025 Devstral 2: diciembre de 2025

Mistral sigue compitiendo por encima de su peso como laboratorio de IA frontier europeo, lanzando modelos que compiten en la cima de los rankings open-source.

Mistral Large 3

Un modelo MoE de 675 mil millones de parámetros con 41B parámetros activos. Debutó en el #2 entre modelos open-source no razonadores en el ranking LMArena — solo por detrás de los modelos mucho más grandes de los laboratorios chinos.

Modelos clave en la línea actual de Mistral:

Modelo	Enfoque	Precio (por 1M)
Mistral Large 3	Frontier general	~$2,00 / $6,00
Mistral Medium 3.1	Multimodal (40k ctx)	$2,00 / $5,00
Magistral Medium 1.2	Razonamiento	$2,00 / $5,00
Codestral	Completado de código	Tier Premier
Devstral 2	Codificación agéntica	Open-weight

Devstral Small 2

El destacado del lanzamiento de diciembre: un modelo de codificación de 24B parámetros que supera a Qwen 3 Coder Flash a pesar de ser significativamente más pequeño. Para equipos que necesitan IA de codificación alojada en sus propios servidores sin grandes requisitos de GPU, Devstral Small 2 es una opción convincente.

Ministral 3

La familia de modelos pequeños de Mistral (3B, 7B, 14B parámetros) logra la mejor relación costo-rendimiento de cualquier modelo open-source — igualando o superando modelos comparables mientras produce un orden de magnitud menos tokens.

MiniMax: M2.5

M2.5 lanzado: 2026

El caballo oscuro de la carrera frontier. M2.5 de MiniMax ofrece un rendimiento de codificación líder en benchmarks con solo 10 mil millones de parámetros activos — una fracción de lo que usan los competidores.

Novedades

MiniMax M2.5 está construido específicamente para codificación y ejecución agéntica, con foco en hacer más con menos:

#1 en Multi-SWE-Bench con una puntuación de 51,3
Supera a Claude Opus 4.6 en SWE-Bench Pro
Puntuaciones líderes en los benchmarks FinSearch, BrowseComp y RISE
Rendimiento de 100 tokens por segundo — descrito como "3× más rápido que Opus"
Razonamiento Chain of Thought hasta 128K tokens

La historia de eficiencia

El dato sobresaliente: MiniMax M2.5 completa 327,8 tareas por cada $100 de presupuesto — más de 10 veces más que Opus. A $0,30 por millón de tokens de entrada ($0,06 con caché), se ubica en el territorio de precios de DeepSeek mientras iguala o supera a los modelos premium en tareas de codificación.

Modelo	Entrada (por 1M)	Con caché	Velocidad
M2.5	$0,30	$0,06	100 TPS
M2.5-highspeed	$0,30	$0,06	Variante más rápida

Pesos abiertos

MiniMax ha publicado los pesos de M2.5 en HuggingFace con soporte para vLLM, SGLang y Transformers para autoalojamiento. Esto lo convierte en una de las opciones más rentables para equipos que gestionan su propia infraestructura de inferencia.

El panorama de precios

Así se comparan todos los modelos frontier en costo (por millón de tokens):

Proveedor	Modelo	Entrada	Salida	Contexto
xAI	Grok 4.1	$0,20	$0,50	—
DeepSeek	V3.2	$0,27	$1,10	1M+
MiniMax	M2.5	$0,30	—	128K
OpenAI	o4-mini	$1,10	$4,40	—
Google	Gemini 3.1 Pro	~$1,25	~$10,00	1M
OpenAI	GPT-5	$1,25	$10,00	400K
Mistral AI	Medium 3.1	$2,00	$5,00	40K
Mistral AI	Large 3	~$2,00	~$6,00	128K
OpenAI	o3	$2,00	$8,00	—
Anthropic	Sonnet 4.6	$3,00	$15,00	1M (beta)
Anthropic	Opus 4.6	$15,00	$75,00	200K
Zhipu AI	GLM-5	Pesos abiertos	Autoalojamiento gratuito	—
Moonshot AI	Kimi K2.5	Pesos abiertos	Autoalojamiento gratuito	—
DeepSeek	V4 (esperado)	Pesos abiertos	Autoalojamiento gratuito	1M+

La brecha de costos 17× entre el API más barato (DeepSeek a $0,27/M) y los modelos premium (Opus 4.6 a $15/M de entrada) representa una decisión arquitectónica real para las empresas. La pregunta ya no es "¿podemos permitirnos la IA?", sino "¿qué nivel de IA se adapta a nuestro caso de uso?"

Tendencias clave

1. El auge del open-source

Cinco lanzamientos recientes — GLM-5, Kimi K2.5, DeepSeek V4, Mistral Large 3 y MiniMax M2.5 — son modelos open-weight. No solo están alcanzando al closed-source; GLM-5 iguala a Claude Opus 4.5 en SWE-bench y lo supera en Humanity's Last Exam. Mistral Large 3 ocupa el #2 en LMArena open-source. La brecha de calidad entre abierto y cerrado prácticamente ha desaparecido.

2. El stack de IA independiente de China

Tanto GLM-5 (Huawei Ascend) como DeepSeek V4 demuestran que los laboratorios chinos pueden producir modelos frontier sin hardware estadounidense. Los controles de exportación han frenado pero no detenido el progreso de la IA china — y pueden haber acelerado su inversión en alternativas domésticas.

3. La agentificación de todo

Cada lanzamiento de este mes incluye capacidades agénticas: GPT-5.3 Codex realiza tareas de larga duración en múltiples pasos, Claude 4.6 tiene uso de computadora al 72,5 %, Grok 4.2 ejecuta colaboración paralela de 4 agentes, GLM-5 tiene Modo Agente nativo y Kimi tiene Agent Swarm. 2026 es el año en que los modelos dejaron de ser chatbots y se convirtieron en trabajadores.

4. La revolución del nivel medio

Que un modelo de $3/M pueda igualar a uno insignia de $15/M es un punto de inflexión. Combinado con los $0,27/M de DeepSeek logrando ~90 % de la calidad de GPT-5, la propuesta de valor de los precios premium de API está bajo seria presión.

5. Convergencia de ventanas de contexto

Múltiples modelos ahora ofrecen ventanas de contexto de 1M+ tokens: Gemini 3.1 Pro, Claude 4.6 (beta), DeepSeek V4 y Kimi K2.5. Procesar bases de código completas, documentos legales o corpus de investigación en un solo paso ya no es un diferenciador — es el requisito mínimo.

Qué significa esto para los usuarios empresariales

Si estás integrando IA en tu flujo de trabajo empresarial en 2026, aquí está el análisis práctico:

Para codificación y desarrollo: GPT-5.3 Codex y Claude Sonnet 4.6 lideran el grupo. Codex para tareas agénticas de larga duración, Sonnet para codificación versátil y uso de computadora.

Para cargas de trabajo sensibles al costo: DeepSeek V3.2 a $0,27/M tokens es imbatible para tareas de alto volumen. Los modelos open-weight (GLM-5, Kimi K2.5) son gratuitos para autoalojar si cuentas con infraestructura GPU.

Para razonamiento empresarial: La mejora 2× en razonamiento de Gemini 3.1 Pro lo convierte en el predeterminado para clientes de Google Cloud. Claude Opus 4.6 sigue siendo el techo para análisis complejos.

Para iteración rápida: El modelo de mejora semanal de Grok 4.2 es único — si necesitas un modelo que mejore con el tiempo para tus casos de uso específicos, vale la pena seguirlo.

Para la independencia: Los modelos open-weight (GLM-5, Kimi K2.5, DeepSeek V4) te dan control total sobre el despliegue, la personalización y la privacidad de datos.

Última actualización

20 de febrero de 2026 — Este artículo se actualiza a medida que se lanzan nuevos modelos frontier. Síguenos para la cobertura más reciente.

Actualizaciones anteriores: Publicación inicial (20 feb. 2026)

Modelos de IA Frontier: Todos los lanzamientos importantes de este mes (febrero 2026)

El mes más intenso en la historia de la IA

OpenAI: GPT-5.3 Codex

Novedades

La alerta de ciberseguridad

Disponibilidad

Precios

Anthropic: Claude Sonnet 4.6

Novedades

Destacados de benchmarks

Preferencia de usuarios

Claude Opus 4.6

Google: Gemini 3.1 Pro

Novedades

Disponibilidad

Por qué importa

DeepSeek: V4 y la expansión de contexto 10×

V3.2: Expansión de contexto 10×

V4: La próxima frontier

La historia de costos

Zhipu AI: GLM-5

Novedades

Rendimiento en benchmarks

La señal geopolítica

Modo Agente Nativo

Moonshot AI: Kimi K2.5 y Kimi Claw

Kimi K2.5

Kimi Claw

xAI: Grok 4.2 Release Candidate

Novedades

Precios

Estado actual

Mistral AI: Large 3 y el stack de codificación

Mistral Large 3

Devstral Small 2

Ministral 3

MiniMax: M2.5

Novedades

La historia de eficiencia

Pesos abiertos

El panorama de precios

Tendencias clave

1. El auge del open-source

2. El stack de IA independiente de China

3. La agentificación de todo

4. La revolución del nivel medio

5. Convergencia de ventanas de contexto

Qué significa esto para los usuarios empresariales

Última actualización

Turn the best models into shipped work