Modelos de IA Frontier: Todos los lanzamientos importantes de este mes (febrero 2026)
Jozo · 14 min read · 2026/02/20
Modelos de IAGPT-5ClaudeGeminiDeepSeekGrokGLM-5KimiMistralMiniMax2026IA Frontier

Modelos de IA Frontier: Todos los lanzamientos importantes de este mes (febrero 2026)

El mes más intenso en la historia de la IA

Febrero de 2026 será recordado como el mes en que la carrera por la IA frontier se aceleró a fondo. Diez grandes proveedores están lanzando activamente modelos frontier, cada uno empujando los límites de lo posible con los modelos de lenguaje.

La cronología:

FechaProveedorModeloDestacado
2 dic.Mistral AIMistral Large 3675B MoE, #2 open-source en LMArena
27 ene.Moonshot AIKimi K2.51T MoE open-source con Agent Swarm
5 feb.OpenAIGPT-5.3 CodexPrimer modelo de codificación agéntica “auto-mejorante”
11 feb.Zhipu AIGLM-5Modelo open-source 745B entrenado en chips chinos
12 feb.DeepSeekActualización V3.2Ventana de contexto expandida 10× a más de 1M tokens
15 feb.Moonshot AIKimi ClawPlataforma de agente basada en navegador, impulsada por K2.5
17 feb.AnthropicClaude Sonnet 4.6Rendimiento cercano a Opus a 1/5 del precio
17 feb.xAIGrok 4.2 RCModelo de “aprendizaje rápido” que mejora semanalmente
17 feb.DeepSeekV4 (esperado)Modelo de 1T parámetros apuntando a dominar la codificación
19 feb.GoogleGemini 3.1 ProSalto 2× en razonamiento, puntuación ARC-AGI-2 de 77,1 %
2026MiniMaxM2.5#1 Multi-SWE-Bench, 10B parámetros activos, $0,30/M

Esto no es solo una mejora incremental. Es un cambio fundamental en lo que los modelos de IA pueden hacer, cuánto cuestan y quién los está construyendo.

Desglosemos cada lanzamiento.


OpenAI: GPT-5.3 Codex

Lanzado: 5 de febrero de 2026

GPT-5.3 Codex de OpenAI representa un cambio de paradigma: del “modelo que escribe código” al “modelo que hace casi todo lo que un desarrollador puede hacer en una computadora”.

Novedades

GPT-5.3 Codex combina el rendimiento de codificación frontier de GPT-5.2-Codex con el razonamiento y el conocimiento profesional de GPT-5.2. El resultado es un modelo capaz de asumir tareas de larga duración que involucran investigación, uso de herramientas y ejecución compleja en múltiples pasos.

Mejoras clave:

  • 25 % más rápido que GPT-5.2-Codex
  • Menos tokens consumidos por tarea — hace más con menos
  • Vanguardia en SWE-Bench Pro y Terminal-Bench
  • Resultados sólidos en OSWorld y GDPval

La alerta de ciberseguridad

Este es el primer modelo de OpenAI en alcanzar el nivel “alto” en su marco de preparación en ciberseguridad, lo que significa que creen que GPT-5.3 Codex es suficientemente capaz en codificación y razonamiento como para “habilitar significativamente daño cibernético real, especialmente si se automatiza o se usa a escala”. Un hito que subraya cuán capaces se han vuelto estos modelos.

Disponibilidad

Disponible para usuarios de ChatGPT de pago a través de la app Codex, CLI, extensión de IDE y web. También se lanzó una variante más liviana, GPT-5.3-Codex-Spark. El acceso por API llega pronto.

Precios

ModeloEntrada (por 1M)Salida (por 1M)Entrada en caché
GPT-5$1,25$10,00$0,625
GPT-5.3 CodexTBA (API pendiente)TBATBA
o3$2,00$8,00
o4-mini$1,10$4,40$0,55

Anthropic: Claude Sonnet 4.6

Lanzado: 17 de febrero de 2026

Claude Sonnet 4.6 es la respuesta de Anthropic a una pregunta que nadie creía posible hace un año: ¿puede un modelo de nivel medio igualar a uno insignia?

Novedades

Esto no es una actualización menor de versión. Sonnet 4.6 es una actualización completa en codificación, uso de computadora, razonamiento con contexto largo, planificación de agentes, trabajo del conocimiento y diseño. Incluye una ventana de contexto de 1M tokens (en beta).

Destacados de benchmarks

BenchmarkSonnet 4.6Opus 4.6Diferencia
SWE-bench Verified79,6 %
OSWorld (uso de computadora)72,5 %72,7 %0,2 %
Office Productivity1633 Elo1559 EloSonnet lidera
Financial Analysis63,3 %62,0 %Sonnet lidera

El número de uso de computadora es notable: 72,5 % en OSWorld-Verified, frente al 14,9 % cuando el uso de computadora se lanzó por primera vez hace apenas 16 meses.

Preferencia de usuarios

Anthropic reporta que el 70 % de los usuarios prefiere Sonnet 4.6 sobre Sonnet 4.5, y el 59 % lo prefiere sobre el antiguo Opus 4.5. A $3/$15 por millón de tokens —una quinta parte del precio de Opus 4.6 a $15/$75—, este es el mejor valor en IA frontier para cargas de trabajo empresariales.

Claude Opus 4.6

El insignia Opus 4.6 sigue siendo el techo de las capacidades de Anthropic, impulsando las tareas agénticas y de razonamiento más exigentes. Sin embargo, la brecha con Sonnet es ahora mínima, convirtiendo al modelo de nivel medio en la elección pragmática para la mayoría de las aplicaciones.


Google: Gemini 3.1 Pro

Lanzado: 19 de febrero de 2026

Google presenta Gemini 3.1 Pro no como una mejora de nicho, sino como un modelo predeterminado más sólido para tareas complejas.

Novedades

El número titular: una puntuación ARC-AGI-2 de 77,1 % — más del doble del rendimiento de razonamiento de Gemini 3 Pro. Diseñado específicamente para tareas que requieren razonamiento avanzado en múltiples pasos, como sintetizar datos de diversas fuentes o explicar temas complejos e interdependientes.

Disponibilidad

Implementación gradual en todo el ecosistema de Google:

  • App Gemini (límites más altos para usuarios de planes Pro y Ultra)
  • NotebookLM (usuarios Pro y Ultra)
  • API Gemini a través de AI Studio, Vertex AI, Gemini CLI y Android Studio
  • Precios sin cambios respecto a Gemini 3 Pro (~$1,25/$10 por millón de tokens estándar)

Por qué importa

Google mantuvo los precios estables mientras mejoraba dramáticamente el razonamiento. Para empresas que ya están en Google Cloud, el 3.1 Pro encaja como una actualización directa sin impacto presupuestario.


DeepSeek: V4 y la expansión de contexto 10×

Actualización V3.2: 12 de febrero de 2026 V4 esperado: mediados de febrero de 2026

DeepSeek sigue siendo la fuerza más disruptiva en precios de IA mientras empuja capacidades genuinamente frontier.

V3.2: Expansión de contexto 10×

A principios de febrero, DeepSeek expandió la ventana de contexto de V3.2 de 128.000 tokens a más de 1 millón — un aumento de diez veces. A $0,27/$1,10 por millón de tokens, esta es ahora la forma más barata de procesar documentos masivos con un modelo de clase frontier.

V4: La próxima frontier

Se espera que DeepSeek V4 incluya:

  • 1 billón de parámetros (arquitectura MoE)
  • Contexto nativo de 1M+ tokens
  • Tres avances arquitectónicos: Engram conditional memory, Manifold-Constrained Hyper-Connections y DeepSeek Sparse Attention
  • Objetivo: 80 %+ en SWE-bench — lo que lo situaría en la cima absoluta de los benchmarks de codificación
  • Se espera que sea open-weight bajo licencia permisiva

La historia de costos

La brecha de precios entre DeepSeek y los proveedores occidentales sigue siendo enorme:

Ejemplo de costo de tareaGPT-5Claude Opus 4.6DeepSeek V3.2
100K entrada + 10K salida$0,225$2,25$0,038
Relación con DeepSeek59×

Una tarea compleja que cuesta $15 con GPT-5 cuesta aproximadamente $0,50 con DeepSeek. Esto no es solo una ventaja de costo — cambia lo que es económicamente viable automatizar.


Zhipu AI: GLM-5

Lanzado: 11 de febrero de 2026

El lanzamiento de modelo open-source más grande del mes, y posiblemente el más significativo geopolíticamente.

Novedades

GLM-5 es un modelo MoE de 745 mil millones de parámetros (44B parámetros activos) con cinco capacidades principales: escritura creativa, generación de código, razonamiento en múltiples pasos, inteligencia agéntica y procesamiento de contexto largo.

Rendimiento en benchmarks

BenchmarkGLM-5Comparación
SWE-bench Verified77,8 %Iguala a Claude Opus 4.5
AIME 202692,7 %
GPQA-Diamond86,0 %
Humanity’s Last Exam50,4 %Supera a Claude Opus 4.5
Tasa de alucinación34 %Baja desde 90 % (GLM-4.7)

La reducción de alucinaciones —del 90 % al 34 % usando una técnica novedosa de RL llamada Slime— es particularmente impresionante y encabeza el índice Artificial Analysis Omniscience.

La señal geopolítica

GLM-5 fue entrenado íntegramente en chips Huawei Ascend usando el framework MindSpore — sin hardware fabricado en EE. UU. Esto demuestra que la pila de cómputo doméstica de China puede producir modelos de calidad frontier a pesar de los controles de exportación.

Modo Agente Nativo

GLM-5 incluye un “Modo Agente” nativo que puede transformar prompts en documentos de oficina profesionales (.docx, .pdf, .xlsx) — compitiendo directamente con el uso de computadora de Anthropic y el Codex de OpenAI en tareas empresariales prácticas.

Tras el lanzamiento, las acciones de Zhipu subieron un 34 % en la Bolsa de Hong Kong.


Moonshot AI: Kimi K2.5 y Kimi Claw

K2.5 lanzado: 27 de enero de 2026 Kimi Claw: 15 de febrero de 2026

Moonshot AI está construyendo el ecosistema agéntico open-source más completo en el espacio de IA chino.

Kimi K2.5

Un modelo MoE de 1 billón de parámetros (32B parámetros activos) que comprende texto, imágenes y video. Innovación clave: capacidad Agent Swarm, impulsada por una nueva técnica de RL llamada Parallel Agent Reinforcement Learning (PARL) que entrena al modelo para descomponer y paralelizar tareas complejas.

El modelo es completamente open-source y está disponible en Hugging Face.

Kimi Claw

Lanzado el 15 de febrero, Kimi Claw es una plataforma de agente de IA basada en navegador nativa en la nube, construida sobre el framework OpenClaw. Piénsalo como la respuesta de Moonshot al uso de computadora de Anthropic — pero ejecutándose completamente en la nube.


xAI: Grok 4.2 Release Candidate

Beta pública: 17 de febrero de 2026

Grok 4.2 de Elon Musk introduce un enfoque fundamentalmente diferente para la mejora de modelos: aprendizaje rápido.

Novedades

A diferencia de todos los demás modelos de esta lista, Grok 4.2 está diseñado para mejorar cada semana basándose en el uso público. Musk lo describió como capaz de “aprender rápidamente” con ciclos de mejora semanales y notas de lanzamiento.

Nuevas capacidades:

  • Colaboración paralela de 4 agentes — agentes de IA especializados que sintetizan salidas en una sola respuesta
  • Análisis de documentos médicos mediante carga de fotos
  • Razonamiento de ingeniería mejorado

Precios

xAI mantiene su agresiva estrategia de precios:

ModeloEntrada (por 1M)Salida (por 1M)
Grok 4.1$0,20$0,50
Grok 4.2 RCTBA (beta)TBA

Estado actual

Grok 4.2 está actualmente en beta pública — disponible para seleccionar en la interfaz de Grok. El lanzamiento general se espera en marzo de 2026. Los benchmarks oficiales se publicarán tras concluir la beta.


Mistral AI: Large 3 y el stack de codificación

Mistral Large 3: 2 de diciembre de 2025 Devstral 2: diciembre de 2025

Mistral sigue compitiendo por encima de su peso como laboratorio de IA frontier europeo, lanzando modelos que compiten en la cima de los rankings open-source.

Mistral Large 3

Un modelo MoE de 675 mil millones de parámetros con 41B parámetros activos. Debutó en el #2 entre modelos open-source no razonadores en el ranking LMArena — solo por detrás de los modelos mucho más grandes de los laboratorios chinos.

Modelos clave en la línea actual de Mistral:

ModeloEnfoquePrecio (por 1M)
Mistral Large 3Frontier general~$2,00 / $6,00
Mistral Medium 3.1Multimodal (40k ctx)$2,00 / $5,00
Magistral Medium 1.2Razonamiento$2,00 / $5,00
CodestralCompletado de códigoTier Premier
Devstral 2Codificación agénticaOpen-weight

Devstral Small 2

El destacado del lanzamiento de diciembre: un modelo de codificación de 24B parámetros que supera a Qwen 3 Coder Flash a pesar de ser significativamente más pequeño. Para equipos que necesitan IA de codificación alojada en sus propios servidores sin grandes requisitos de GPU, Devstral Small 2 es una opción convincente.

Ministral 3

La familia de modelos pequeños de Mistral (3B, 7B, 14B parámetros) logra la mejor relación costo-rendimiento de cualquier modelo open-source — igualando o superando modelos comparables mientras produce un orden de magnitud menos tokens.


MiniMax: M2.5

M2.5 lanzado: 2026

El caballo oscuro de la carrera frontier. M2.5 de MiniMax ofrece un rendimiento de codificación líder en benchmarks con solo 10 mil millones de parámetros activos — una fracción de lo que usan los competidores.

Novedades

MiniMax M2.5 está construido específicamente para codificación y ejecución agéntica, con foco en hacer más con menos:

  • #1 en Multi-SWE-Bench con una puntuación de 51,3
  • Supera a Claude Opus 4.6 en SWE-Bench Pro
  • Puntuaciones líderes en los benchmarks FinSearch, BrowseComp y RISE
  • Rendimiento de 100 tokens por segundo — descrito como “3× más rápido que Opus”
  • Razonamiento Chain of Thought hasta 128K tokens

La historia de eficiencia

El dato sobresaliente: MiniMax M2.5 completa 327,8 tareas por cada $100 de presupuesto — más de 10 veces más que Opus. A $0,30 por millón de tokens de entrada ($0,06 con caché), se ubica en el territorio de precios de DeepSeek mientras iguala o supera a los modelos premium en tareas de codificación.

ModeloEntrada (por 1M)Con cachéVelocidad
M2.5$0,30$0,06100 TPS
M2.5-highspeed$0,30$0,06Variante más rápida

Pesos abiertos

MiniMax ha publicado los pesos de M2.5 en HuggingFace con soporte para vLLM, SGLang y Transformers para autoalojamiento. Esto lo convierte en una de las opciones más rentables para equipos que gestionan su propia infraestructura de inferencia.


El panorama de precios

Así se comparan todos los modelos frontier en costo (por millón de tokens):

ProveedorModeloEntradaSalidaContexto
xAIGrok 4.1$0,20$0,50
DeepSeekV3.2$0,27$1,101M+
MiniMaxM2.5$0,30128K
OpenAIo4-mini$1,10$4,40
GoogleGemini 3.1 Pro~$1,25~$10,001M
OpenAIGPT-5$1,25$10,00400K
Mistral AIMedium 3.1$2,00$5,0040K
Mistral AILarge 3~$2,00~$6,00128K
OpenAIo3$2,00$8,00
AnthropicSonnet 4.6$3,00$15,001M (beta)
AnthropicOpus 4.6$15,00$75,00200K
Zhipu AIGLM-5Pesos abiertosAutoalojamiento gratuito
Moonshot AIKimi K2.5Pesos abiertosAutoalojamiento gratuito
DeepSeekV4 (esperado)Pesos abiertosAutoalojamiento gratuito1M+

La brecha de costos 17× entre el API más barato (DeepSeek a $0,27/M) y los modelos premium (Opus 4.6 a $15/M de entrada) representa una decisión arquitectónica real para las empresas. La pregunta ya no es “¿podemos permitirnos la IA?”, sino “¿qué nivel de IA se adapta a nuestro caso de uso?”


Tendencias clave

1. El auge del open-source

Cinco lanzamientos recientes — GLM-5, Kimi K2.5, DeepSeek V4, Mistral Large 3 y MiniMax M2.5 — son modelos open-weight. No solo están alcanzando al closed-source; GLM-5 iguala a Claude Opus 4.5 en SWE-bench y lo supera en Humanity’s Last Exam. Mistral Large 3 ocupa el #2 en LMArena open-source. La brecha de calidad entre abierto y cerrado prácticamente ha desaparecido.

2. El stack de IA independiente de China

Tanto GLM-5 (Huawei Ascend) como DeepSeek V4 demuestran que los laboratorios chinos pueden producir modelos frontier sin hardware estadounidense. Los controles de exportación han frenado pero no detenido el progreso de la IA china — y pueden haber acelerado su inversión en alternativas domésticas.

3. La agentificación de todo

Cada lanzamiento de este mes incluye capacidades agénticas: GPT-5.3 Codex realiza tareas de larga duración en múltiples pasos, Claude 4.6 tiene uso de computadora al 72,5 %, Grok 4.2 ejecuta colaboración paralela de 4 agentes, GLM-5 tiene Modo Agente nativo y Kimi tiene Agent Swarm. 2026 es el año en que los modelos dejaron de ser chatbots y se convirtieron en trabajadores.

4. La revolución del nivel medio

Que un modelo de $3/M pueda igualar a uno insignia de $15/M es un punto de inflexión. Combinado con los $0,27/M de DeepSeek logrando ~90 % de la calidad de GPT-5, la propuesta de valor de los precios premium de API está bajo seria presión.

5. Convergencia de ventanas de contexto

Múltiples modelos ahora ofrecen ventanas de contexto de 1M+ tokens: Gemini 3.1 Pro, Claude 4.6 (beta), DeepSeek V4 y Kimi K2.5. Procesar bases de código completas, documentos legales o corpus de investigación en un solo paso ya no es un diferenciador — es el requisito mínimo.


Qué significa esto para los usuarios empresariales

Si estás integrando IA en tu flujo de trabajo empresarial en 2026, aquí está el análisis práctico:

Para codificación y desarrollo: GPT-5.3 Codex y Claude Sonnet 4.6 lideran el grupo. Codex para tareas agénticas de larga duración, Sonnet para codificación versátil y uso de computadora.

Para cargas de trabajo sensibles al costo: DeepSeek V3.2 a $0,27/M tokens es imbatible para tareas de alto volumen. Los modelos open-weight (GLM-5, Kimi K2.5) son gratuitos para autoalojar si cuentas con infraestructura GPU.

Para razonamiento empresarial: La mejora 2× en razonamiento de Gemini 3.1 Pro lo convierte en el predeterminado para clientes de Google Cloud. Claude Opus 4.6 sigue siendo el techo para análisis complejos.

Para iteración rápida: El modelo de mejora semanal de Grok 4.2 es único — si necesitas un modelo que mejore con el tiempo para tus casos de uso específicos, vale la pena seguirlo.

Para la independencia: Los modelos open-weight (GLM-5, Kimi K2.5, DeepSeek V4) te dan control total sobre el despliegue, la personalización y la privacidad de datos.


Última actualización

20 de febrero de 2026 — Este artículo se actualiza a medida que se lanzan nuevos modelos frontier. Síguenos para la cobertura más reciente.

Actualizaciones anteriores: Publicación inicial (20 feb. 2026)