El mes más intenso en la historia de la IA
Febrero de 2026 será recordado como el mes en que la carrera por la IA frontier se aceleró a fondo. Diez grandes proveedores están lanzando activamente modelos frontier, cada uno empujando los límites de lo posible con los modelos de lenguaje.
La cronología:
| Fecha | Proveedor | Modelo | Destacado |
|---|---|---|---|
| 2 dic. | Mistral AI | Mistral Large 3 | 675B MoE, #2 open-source en LMArena |
| 27 ene. | Moonshot AI | Kimi K2.5 | 1T MoE open-source con Agent Swarm |
| 5 feb. | OpenAI | GPT-5.3 Codex | Primer modelo de codificación agéntica “auto-mejorante” |
| 11 feb. | Zhipu AI | GLM-5 | Modelo open-source 745B entrenado en chips chinos |
| 12 feb. | DeepSeek | Actualización V3.2 | Ventana de contexto expandida 10× a más de 1M tokens |
| 15 feb. | Moonshot AI | Kimi Claw | Plataforma de agente basada en navegador, impulsada por K2.5 |
| 17 feb. | Anthropic | Claude Sonnet 4.6 | Rendimiento cercano a Opus a 1/5 del precio |
| 17 feb. | xAI | Grok 4.2 RC | Modelo de “aprendizaje rápido” que mejora semanalmente |
| 17 feb. | DeepSeek | V4 (esperado) | Modelo de 1T parámetros apuntando a dominar la codificación |
| 19 feb. | Gemini 3.1 Pro | Salto 2× en razonamiento, puntuación ARC-AGI-2 de 77,1 % | |
| 2026 | MiniMax | M2.5 | #1 Multi-SWE-Bench, 10B parámetros activos, $0,30/M |
Esto no es solo una mejora incremental. Es un cambio fundamental en lo que los modelos de IA pueden hacer, cuánto cuestan y quién los está construyendo.
Desglosemos cada lanzamiento.
OpenAI: GPT-5.3 Codex
Lanzado: 5 de febrero de 2026
GPT-5.3 Codex de OpenAI representa un cambio de paradigma: del “modelo que escribe código” al “modelo que hace casi todo lo que un desarrollador puede hacer en una computadora”.
Novedades
GPT-5.3 Codex combina el rendimiento de codificación frontier de GPT-5.2-Codex con el razonamiento y el conocimiento profesional de GPT-5.2. El resultado es un modelo capaz de asumir tareas de larga duración que involucran investigación, uso de herramientas y ejecución compleja en múltiples pasos.
Mejoras clave:
- 25 % más rápido que GPT-5.2-Codex
- Menos tokens consumidos por tarea — hace más con menos
- Vanguardia en SWE-Bench Pro y Terminal-Bench
- Resultados sólidos en OSWorld y GDPval
La alerta de ciberseguridad
Este es el primer modelo de OpenAI en alcanzar el nivel “alto” en su marco de preparación en ciberseguridad, lo que significa que creen que GPT-5.3 Codex es suficientemente capaz en codificación y razonamiento como para “habilitar significativamente daño cibernético real, especialmente si se automatiza o se usa a escala”. Un hito que subraya cuán capaces se han vuelto estos modelos.
Disponibilidad
Disponible para usuarios de ChatGPT de pago a través de la app Codex, CLI, extensión de IDE y web. También se lanzó una variante más liviana, GPT-5.3-Codex-Spark. El acceso por API llega pronto.
Precios
| Modelo | Entrada (por 1M) | Salida (por 1M) | Entrada en caché |
|---|---|---|---|
| GPT-5 | $1,25 | $10,00 | $0,625 |
| GPT-5.3 Codex | TBA (API pendiente) | TBA | TBA |
| o3 | $2,00 | $8,00 | — |
| o4-mini | $1,10 | $4,40 | $0,55 |
Anthropic: Claude Sonnet 4.6
Lanzado: 17 de febrero de 2026
Claude Sonnet 4.6 es la respuesta de Anthropic a una pregunta que nadie creía posible hace un año: ¿puede un modelo de nivel medio igualar a uno insignia?
Novedades
Esto no es una actualización menor de versión. Sonnet 4.6 es una actualización completa en codificación, uso de computadora, razonamiento con contexto largo, planificación de agentes, trabajo del conocimiento y diseño. Incluye una ventana de contexto de 1M tokens (en beta).
Destacados de benchmarks
| Benchmark | Sonnet 4.6 | Opus 4.6 | Diferencia |
|---|---|---|---|
| SWE-bench Verified | 79,6 % | — | — |
| OSWorld (uso de computadora) | 72,5 % | 72,7 % | 0,2 % |
| Office Productivity | 1633 Elo | 1559 Elo | Sonnet lidera |
| Financial Analysis | 63,3 % | 62,0 % | Sonnet lidera |
El número de uso de computadora es notable: 72,5 % en OSWorld-Verified, frente al 14,9 % cuando el uso de computadora se lanzó por primera vez hace apenas 16 meses.
Preferencia de usuarios
Anthropic reporta que el 70 % de los usuarios prefiere Sonnet 4.6 sobre Sonnet 4.5, y el 59 % lo prefiere sobre el antiguo Opus 4.5. A $3/$15 por millón de tokens —una quinta parte del precio de Opus 4.6 a $15/$75—, este es el mejor valor en IA frontier para cargas de trabajo empresariales.
Claude Opus 4.6
El insignia Opus 4.6 sigue siendo el techo de las capacidades de Anthropic, impulsando las tareas agénticas y de razonamiento más exigentes. Sin embargo, la brecha con Sonnet es ahora mínima, convirtiendo al modelo de nivel medio en la elección pragmática para la mayoría de las aplicaciones.
Google: Gemini 3.1 Pro
Lanzado: 19 de febrero de 2026
Google presenta Gemini 3.1 Pro no como una mejora de nicho, sino como un modelo predeterminado más sólido para tareas complejas.
Novedades
El número titular: una puntuación ARC-AGI-2 de 77,1 % — más del doble del rendimiento de razonamiento de Gemini 3 Pro. Diseñado específicamente para tareas que requieren razonamiento avanzado en múltiples pasos, como sintetizar datos de diversas fuentes o explicar temas complejos e interdependientes.
Disponibilidad
Implementación gradual en todo el ecosistema de Google:
- App Gemini (límites más altos para usuarios de planes Pro y Ultra)
- NotebookLM (usuarios Pro y Ultra)
- API Gemini a través de AI Studio, Vertex AI, Gemini CLI y Android Studio
- Precios sin cambios respecto a Gemini 3 Pro (~$1,25/$10 por millón de tokens estándar)
Por qué importa
Google mantuvo los precios estables mientras mejoraba dramáticamente el razonamiento. Para empresas que ya están en Google Cloud, el 3.1 Pro encaja como una actualización directa sin impacto presupuestario.
DeepSeek: V4 y la expansión de contexto 10×
Actualización V3.2: 12 de febrero de 2026 V4 esperado: mediados de febrero de 2026
DeepSeek sigue siendo la fuerza más disruptiva en precios de IA mientras empuja capacidades genuinamente frontier.
V3.2: Expansión de contexto 10×
A principios de febrero, DeepSeek expandió la ventana de contexto de V3.2 de 128.000 tokens a más de 1 millón — un aumento de diez veces. A $0,27/$1,10 por millón de tokens, esta es ahora la forma más barata de procesar documentos masivos con un modelo de clase frontier.
V4: La próxima frontier
Se espera que DeepSeek V4 incluya:
- 1 billón de parámetros (arquitectura MoE)
- Contexto nativo de 1M+ tokens
- Tres avances arquitectónicos: Engram conditional memory, Manifold-Constrained Hyper-Connections y DeepSeek Sparse Attention
- Objetivo: 80 %+ en SWE-bench — lo que lo situaría en la cima absoluta de los benchmarks de codificación
- Se espera que sea open-weight bajo licencia permisiva
La historia de costos
La brecha de precios entre DeepSeek y los proveedores occidentales sigue siendo enorme:
| Ejemplo de costo de tarea | GPT-5 | Claude Opus 4.6 | DeepSeek V3.2 |
|---|---|---|---|
| 100K entrada + 10K salida | $0,225 | $2,25 | $0,038 |
| Relación con DeepSeek | 6× | 59× | 1× |
Una tarea compleja que cuesta $15 con GPT-5 cuesta aproximadamente $0,50 con DeepSeek. Esto no es solo una ventaja de costo — cambia lo que es económicamente viable automatizar.
Zhipu AI: GLM-5
Lanzado: 11 de febrero de 2026
El lanzamiento de modelo open-source más grande del mes, y posiblemente el más significativo geopolíticamente.
Novedades
GLM-5 es un modelo MoE de 745 mil millones de parámetros (44B parámetros activos) con cinco capacidades principales: escritura creativa, generación de código, razonamiento en múltiples pasos, inteligencia agéntica y procesamiento de contexto largo.
Rendimiento en benchmarks
| Benchmark | GLM-5 | Comparación |
|---|---|---|
| SWE-bench Verified | 77,8 % | Iguala a Claude Opus 4.5 |
| AIME 2026 | 92,7 % | — |
| GPQA-Diamond | 86,0 % | — |
| Humanity’s Last Exam | 50,4 % | Supera a Claude Opus 4.5 |
| Tasa de alucinación | 34 % | Baja desde 90 % (GLM-4.7) |
La reducción de alucinaciones —del 90 % al 34 % usando una técnica novedosa de RL llamada Slime— es particularmente impresionante y encabeza el índice Artificial Analysis Omniscience.
La señal geopolítica
GLM-5 fue entrenado íntegramente en chips Huawei Ascend usando el framework MindSpore — sin hardware fabricado en EE. UU. Esto demuestra que la pila de cómputo doméstica de China puede producir modelos de calidad frontier a pesar de los controles de exportación.
Modo Agente Nativo
GLM-5 incluye un “Modo Agente” nativo que puede transformar prompts en documentos de oficina profesionales (.docx, .pdf, .xlsx) — compitiendo directamente con el uso de computadora de Anthropic y el Codex de OpenAI en tareas empresariales prácticas.
Tras el lanzamiento, las acciones de Zhipu subieron un 34 % en la Bolsa de Hong Kong.
Moonshot AI: Kimi K2.5 y Kimi Claw
K2.5 lanzado: 27 de enero de 2026 Kimi Claw: 15 de febrero de 2026
Moonshot AI está construyendo el ecosistema agéntico open-source más completo en el espacio de IA chino.
Kimi K2.5
Un modelo MoE de 1 billón de parámetros (32B parámetros activos) que comprende texto, imágenes y video. Innovación clave: capacidad Agent Swarm, impulsada por una nueva técnica de RL llamada Parallel Agent Reinforcement Learning (PARL) que entrena al modelo para descomponer y paralelizar tareas complejas.
El modelo es completamente open-source y está disponible en Hugging Face.
Kimi Claw
Lanzado el 15 de febrero, Kimi Claw es una plataforma de agente de IA basada en navegador nativa en la nube, construida sobre el framework OpenClaw. Piénsalo como la respuesta de Moonshot al uso de computadora de Anthropic — pero ejecutándose completamente en la nube.
xAI: Grok 4.2 Release Candidate
Beta pública: 17 de febrero de 2026
Grok 4.2 de Elon Musk introduce un enfoque fundamentalmente diferente para la mejora de modelos: aprendizaje rápido.
Novedades
A diferencia de todos los demás modelos de esta lista, Grok 4.2 está diseñado para mejorar cada semana basándose en el uso público. Musk lo describió como capaz de “aprender rápidamente” con ciclos de mejora semanales y notas de lanzamiento.
Nuevas capacidades:
- Colaboración paralela de 4 agentes — agentes de IA especializados que sintetizan salidas en una sola respuesta
- Análisis de documentos médicos mediante carga de fotos
- Razonamiento de ingeniería mejorado
Precios
xAI mantiene su agresiva estrategia de precios:
| Modelo | Entrada (por 1M) | Salida (por 1M) |
|---|---|---|
| Grok 4.1 | $0,20 | $0,50 |
| Grok 4.2 RC | TBA (beta) | TBA |
Estado actual
Grok 4.2 está actualmente en beta pública — disponible para seleccionar en la interfaz de Grok. El lanzamiento general se espera en marzo de 2026. Los benchmarks oficiales se publicarán tras concluir la beta.
Mistral AI: Large 3 y el stack de codificación
Mistral Large 3: 2 de diciembre de 2025 Devstral 2: diciembre de 2025
Mistral sigue compitiendo por encima de su peso como laboratorio de IA frontier europeo, lanzando modelos que compiten en la cima de los rankings open-source.
Mistral Large 3
Un modelo MoE de 675 mil millones de parámetros con 41B parámetros activos. Debutó en el #2 entre modelos open-source no razonadores en el ranking LMArena — solo por detrás de los modelos mucho más grandes de los laboratorios chinos.
Modelos clave en la línea actual de Mistral:
| Modelo | Enfoque | Precio (por 1M) |
|---|---|---|
| Mistral Large 3 | Frontier general | ~$2,00 / $6,00 |
| Mistral Medium 3.1 | Multimodal (40k ctx) | $2,00 / $5,00 |
| Magistral Medium 1.2 | Razonamiento | $2,00 / $5,00 |
| Codestral | Completado de código | Tier Premier |
| Devstral 2 | Codificación agéntica | Open-weight |
Devstral Small 2
El destacado del lanzamiento de diciembre: un modelo de codificación de 24B parámetros que supera a Qwen 3 Coder Flash a pesar de ser significativamente más pequeño. Para equipos que necesitan IA de codificación alojada en sus propios servidores sin grandes requisitos de GPU, Devstral Small 2 es una opción convincente.
Ministral 3
La familia de modelos pequeños de Mistral (3B, 7B, 14B parámetros) logra la mejor relación costo-rendimiento de cualquier modelo open-source — igualando o superando modelos comparables mientras produce un orden de magnitud menos tokens.
MiniMax: M2.5
M2.5 lanzado: 2026
El caballo oscuro de la carrera frontier. M2.5 de MiniMax ofrece un rendimiento de codificación líder en benchmarks con solo 10 mil millones de parámetros activos — una fracción de lo que usan los competidores.
Novedades
MiniMax M2.5 está construido específicamente para codificación y ejecución agéntica, con foco en hacer más con menos:
- #1 en Multi-SWE-Bench con una puntuación de 51,3
- Supera a Claude Opus 4.6 en SWE-Bench Pro
- Puntuaciones líderes en los benchmarks FinSearch, BrowseComp y RISE
- Rendimiento de 100 tokens por segundo — descrito como “3× más rápido que Opus”
- Razonamiento Chain of Thought hasta 128K tokens
La historia de eficiencia
El dato sobresaliente: MiniMax M2.5 completa 327,8 tareas por cada $100 de presupuesto — más de 10 veces más que Opus. A $0,30 por millón de tokens de entrada ($0,06 con caché), se ubica en el territorio de precios de DeepSeek mientras iguala o supera a los modelos premium en tareas de codificación.
| Modelo | Entrada (por 1M) | Con caché | Velocidad |
|---|---|---|---|
| M2.5 | $0,30 | $0,06 | 100 TPS |
| M2.5-highspeed | $0,30 | $0,06 | Variante más rápida |
Pesos abiertos
MiniMax ha publicado los pesos de M2.5 en HuggingFace con soporte para vLLM, SGLang y Transformers para autoalojamiento. Esto lo convierte en una de las opciones más rentables para equipos que gestionan su propia infraestructura de inferencia.
El panorama de precios
Así se comparan todos los modelos frontier en costo (por millón de tokens):
| Proveedor | Modelo | Entrada | Salida | Contexto |
|---|---|---|---|---|
| xAI | Grok 4.1 | $0,20 | $0,50 | — |
| DeepSeek | V3.2 | $0,27 | $1,10 | 1M+ |
| MiniMax | M2.5 | $0,30 | — | 128K |
| OpenAI | o4-mini | $1,10 | $4,40 | — |
| Gemini 3.1 Pro | ~$1,25 | ~$10,00 | 1M | |
| OpenAI | GPT-5 | $1,25 | $10,00 | 400K |
| Mistral AI | Medium 3.1 | $2,00 | $5,00 | 40K |
| Mistral AI | Large 3 | ~$2,00 | ~$6,00 | 128K |
| OpenAI | o3 | $2,00 | $8,00 | — |
| Anthropic | Sonnet 4.6 | $3,00 | $15,00 | 1M (beta) |
| Anthropic | Opus 4.6 | $15,00 | $75,00 | 200K |
| Zhipu AI | GLM-5 | Pesos abiertos | Autoalojamiento gratuito | — |
| Moonshot AI | Kimi K2.5 | Pesos abiertos | Autoalojamiento gratuito | — |
| DeepSeek | V4 (esperado) | Pesos abiertos | Autoalojamiento gratuito | 1M+ |
La brecha de costos 17× entre el API más barato (DeepSeek a $0,27/M) y los modelos premium (Opus 4.6 a $15/M de entrada) representa una decisión arquitectónica real para las empresas. La pregunta ya no es “¿podemos permitirnos la IA?”, sino “¿qué nivel de IA se adapta a nuestro caso de uso?”
Tendencias clave
1. El auge del open-source
Cinco lanzamientos recientes — GLM-5, Kimi K2.5, DeepSeek V4, Mistral Large 3 y MiniMax M2.5 — son modelos open-weight. No solo están alcanzando al closed-source; GLM-5 iguala a Claude Opus 4.5 en SWE-bench y lo supera en Humanity’s Last Exam. Mistral Large 3 ocupa el #2 en LMArena open-source. La brecha de calidad entre abierto y cerrado prácticamente ha desaparecido.
2. El stack de IA independiente de China
Tanto GLM-5 (Huawei Ascend) como DeepSeek V4 demuestran que los laboratorios chinos pueden producir modelos frontier sin hardware estadounidense. Los controles de exportación han frenado pero no detenido el progreso de la IA china — y pueden haber acelerado su inversión en alternativas domésticas.
3. La agentificación de todo
Cada lanzamiento de este mes incluye capacidades agénticas: GPT-5.3 Codex realiza tareas de larga duración en múltiples pasos, Claude 4.6 tiene uso de computadora al 72,5 %, Grok 4.2 ejecuta colaboración paralela de 4 agentes, GLM-5 tiene Modo Agente nativo y Kimi tiene Agent Swarm. 2026 es el año en que los modelos dejaron de ser chatbots y se convirtieron en trabajadores.
4. La revolución del nivel medio
Que un modelo de $3/M pueda igualar a uno insignia de $15/M es un punto de inflexión. Combinado con los $0,27/M de DeepSeek logrando ~90 % de la calidad de GPT-5, la propuesta de valor de los precios premium de API está bajo seria presión.
5. Convergencia de ventanas de contexto
Múltiples modelos ahora ofrecen ventanas de contexto de 1M+ tokens: Gemini 3.1 Pro, Claude 4.6 (beta), DeepSeek V4 y Kimi K2.5. Procesar bases de código completas, documentos legales o corpus de investigación en un solo paso ya no es un diferenciador — es el requisito mínimo.
Qué significa esto para los usuarios empresariales
Si estás integrando IA en tu flujo de trabajo empresarial en 2026, aquí está el análisis práctico:
Para codificación y desarrollo: GPT-5.3 Codex y Claude Sonnet 4.6 lideran el grupo. Codex para tareas agénticas de larga duración, Sonnet para codificación versátil y uso de computadora.
Para cargas de trabajo sensibles al costo: DeepSeek V3.2 a $0,27/M tokens es imbatible para tareas de alto volumen. Los modelos open-weight (GLM-5, Kimi K2.5) son gratuitos para autoalojar si cuentas con infraestructura GPU.
Para razonamiento empresarial: La mejora 2× en razonamiento de Gemini 3.1 Pro lo convierte en el predeterminado para clientes de Google Cloud. Claude Opus 4.6 sigue siendo el techo para análisis complejos.
Para iteración rápida: El modelo de mejora semanal de Grok 4.2 es único — si necesitas un modelo que mejore con el tiempo para tus casos de uso específicos, vale la pena seguirlo.
Para la independencia: Los modelos open-weight (GLM-5, Kimi K2.5, DeepSeek V4) te dan control total sobre el despliegue, la personalización y la privacidad de datos.
Última actualización
20 de febrero de 2026 — Este artículo se actualiza a medida que se lanzan nuevos modelos frontier. Síguenos para la cobertura más reciente.
Actualizaciones anteriores: Publicación inicial (20 feb. 2026)