Modèles d'IA Frontier : Tous les lancements majeurs du mois (février 2026)
Jozo · 14 min read · 2026/02/20
Modèles d'IAGPT-5ClaudeGeminiDeepSeekGrokGLM-5KimiMistralMiniMax2026IA Frontier

Modèles d'IA Frontier : Tous les lancements majeurs du mois (février 2026)

Le mois le plus intense de l’histoire de l’IA

Février 2026 sera mémorable comme le mois où la course à l’IA frontier s’est emballée. Dix grands fournisseurs lancent activement des modèles frontier — chacun repoussant les limites du possible avec les modèles de langage.

La chronologie :

DateFournisseurModèlePoint saillant
2 déc.Mistral AIMistral Large 3675B MoE, #2 open-source sur LMArena
27 jan.Moonshot AIKimi K2.51T MoE open-source avec Agent Swarm
5 fév.OpenAIGPT-5.3 CodexPremier modèle de codage agentique « auto-améliorant »
11 fév.Zhipu AIGLM-5Modèle open-source 745B entraîné sur des puces chinoises
12 fév.DeepSeekMise à jour V3.2Fenêtre de contexte étendue 10× à plus d’1 M de tokens
15 fév.Moonshot AIKimi ClawPlateforme d’agent basée sur navigateur, propulsée par K2.5
17 fév.AnthropicClaude Sonnet 4.6Performances proches d’Opus à 1/5 du prix
17 fév.xAIGrok 4.2 RCModèle à « apprentissage rapide » qui s’améliore chaque semaine
17 fév.DeepSeekV4 (attendu)Modèle à 1T paramètres visant la domination du codage
19 fév.GoogleGemini 3.1 ProBond 2× en raisonnement, score ARC-AGI-2 de 77,1 %
2026MiniMaxM2.5#1 Multi-SWE-Bench, 10B paramètres actifs, 0,30 $/M

Ce n’est pas une simple amélioration incrémentale. C’est un changement fondamental dans ce que les modèles d’IA peuvent accomplir, leur coût et qui les développe.

Détaillons chaque lancement.


OpenAI : GPT-5.3 Codex

Lancé le : 5 février 2026

GPT-5.3 Codex d’OpenAI représente un changement de paradigme : du « modèle qui écrit du code » au « modèle qui peut faire presque tout ce que les développeurs font sur ordinateur ».

Nouveautés

GPT-5.3 Codex combine les performances de codage frontier de GPT-5.2-Codex avec le raisonnement et les connaissances professionnelles de GPT-5.2. Le résultat est un modèle capable de prendre en charge des tâches de longue durée impliquant de la recherche, l’utilisation d’outils et une exécution complexe en plusieurs étapes.

Améliorations clés :

  • 25 % plus rapide que GPT-5.2-Codex
  • Moins de tokens consommés par tâche — fait plus avec moins
  • À la pointe sur SWE-Bench Pro et Terminal-Bench
  • Bons résultats sur OSWorld et GDPval

L’alerte cybersécurité

C’est le premier modèle d’OpenAI à atteindre le niveau « élevé » de leur cadre de préparation en cybersécurité — signifiant qu’ils estiment que GPT-5.3 Codex est suffisamment capable en codage et raisonnement pour « faciliter de manière significative des cyberattaques réelles, surtout s’il est automatisé ou utilisé à grande échelle ». Une étape qui souligne à quel point ces modèles sont devenus puissants.

Disponibilité

Disponible pour les utilisateurs payants de ChatGPT via l’application Codex, CLI, extension IDE et web. Une variante plus légère, GPT-5.3-Codex-Spark, a également été lancée. L’accès API arrive prochainement.

Tarifs

ModèleEntrée (par 1M)Sortie (par 1M)Entrée en cache
GPT-51,25 $10,00 $0,625 $
GPT-5.3 CodexTBA (API en attente)TBATBA
o32,00 $8,00 $
o4-mini1,10 $4,40 $0,55 $

Anthropic : Claude Sonnet 4.6

Lancé le : 17 février 2026

Claude Sonnet 4.6 est la réponse d’Anthropic à une question que personne ne pensait possible il y a un an : un modèle de milieu de gamme peut-il égaler un modèle phare ?

Nouveautés

Ce n’est pas une simple mise à jour de version. Sonnet 4.6 est une mise à niveau complète en matière de codage, d’utilisation informatique, de raisonnement avec contexte long, de planification d’agents, de travail de connaissance et de design. Il est livré avec une fenêtre de contexte d’1 M de tokens (en bêta).

Performances sur les benchmarks

BenchmarkSonnet 4.6Opus 4.6Écart
SWE-bench Verified79,6 %
OSWorld (utilisation informatique)72,5 %72,7 %0,2 %
Office Productivity1633 Elo1559 EloSonnet en tête
Financial Analysis63,3 %62,0 %Sonnet en tête

Le score en utilisation informatique est remarquable : 72,5 % sur OSWorld-Verified, contre 14,9 % lors du lancement de la fonctionnalité il y a seulement 16 mois.

Préférence des utilisateurs

Anthropic rapporte que 70 % des utilisateurs préfèrent Sonnet 4.6 à Sonnet 4.5, et 59 % le préfèrent à l’ancien Opus 4.5. À 3 $/15 $ par million de tokens — un cinquième du prix d’Opus 4.6 à 15 $/75 $ — c’est actuellement le meilleur rapport qualité-prix en IA frontier pour les charges de travail entreprises.

Claude Opus 4.6

Le phare Opus 4.6 reste le plafond des capacités d’Anthropic, propulsant les tâches agentiques et de raisonnement les plus exigeantes. Mais l’écart avec Sonnet est désormais minime, faisant du modèle milieu de gamme le choix pragmatique pour la plupart des applications.


Google : Gemini 3.1 Pro

Lancé le : 19 février 2026

Google présente Gemini 3.1 Pro non pas comme une mise à niveau de niche, mais comme un modèle par défaut plus solide pour les tâches complexes.

Nouveautés

Le chiffre phare : un score ARC-AGI-2 de 77,1 % — plus du double des performances de raisonnement de Gemini 3 Pro. Spécialement conçu pour les tâches nécessitant un raisonnement avancé en plusieurs étapes, comme la synthèse de données provenant de sources diverses ou l’explication de sujets complexes et interdépendants.

Disponibilité

Déploiement progressif dans tout l’écosystème Google :

  • Application Gemini (limites plus élevées pour les utilisateurs Pro et Ultra)
  • NotebookLM (utilisateurs Pro et Ultra)
  • API Gemini via AI Studio, Vertex AI, Gemini CLI et Android Studio
  • Tarifs inchangés par rapport à Gemini 3 Pro (~1,25 $/10 $ par million de tokens standard)

Pourquoi c’est important

Google a maintenu ses tarifs stables tout en améliorant dramatiquement le raisonnement. Pour les entreprises déjà sur Google Cloud, le 3.1 Pro s’intègre comme une mise à niveau directe sans impact budgétaire.


DeepSeek : V4 et l’expansion 10× du contexte

Mise à jour V3.2 : 12 février 2026 V4 attendu : mi-février 2026

DeepSeek reste la force la plus disruptive en matière de prix d’IA tout en proposant de véritables capacités frontier.

V3.2 : Expansion 10× du contexte

Début février, DeepSeek a étendu la fenêtre de contexte de V3.2 de 128 000 tokens à plus d’1 million — une multiplication par dix. À 0,27 $/1,10 $ par million de tokens, c’est désormais le moyen le moins cher de traiter des documents massifs avec un modèle de classe frontier.

V4 : La prochaine frontier

DeepSeek V4 devrait être lancé avec :

  • 1 000 milliards de paramètres (architecture MoE)
  • Contexte natif de 1 M+ tokens
  • Trois avancées architecturales : Engram conditional memory, Manifold-Constrained Hyper-Connections et DeepSeek Sparse Attention
  • Objectif : 80 %+ sur SWE-bench — ce qui le placerait au sommet absolu des benchmarks de codage
  • Attendu en open-weight sous licence permissive

L’histoire des coûts

L’écart de prix entre DeepSeek et les fournisseurs occidentaux reste considérable :

Exemple de coût de tâcheGPT-5Claude Opus 4.6DeepSeek V3.2
100K entrée + 10K sortie0,225 $2,25 $0,038 $
Ratio par rapport à DeepSeek59×

Une tâche complexe coûtant 15 $ avec GPT-5 coûte environ 0,50 $ avec DeepSeek. Ce n’est pas seulement un avantage de coût — cela change ce qu’il est économiquement viable d’automatiser.


Zhipu AI : GLM-5

Lancé le : 11 février 2026

Le plus grand lancement de modèle open-source du mois, et peut-être le plus significatif sur le plan géopolitique.

Nouveautés

GLM-5 est un modèle MoE de 745 milliards de paramètres (44B paramètres actifs) avec cinq capacités principales : écriture créative, génération de code, raisonnement en plusieurs étapes, intelligence agentique et traitement de contexte long.

Performances sur les benchmarks

BenchmarkGLM-5Comparaison
SWE-bench Verified77,8 %Égale Claude Opus 4.5
AIME 202692,7 %
GPQA-Diamond86,0 %
Humanity’s Last Exam50,4 %Dépasse Claude Opus 4.5
Taux d’hallucination34 %En baisse depuis 90 % (GLM-4.7)

La réduction des hallucinations — de 90 % à 34 % grâce à une technique RL novatrice appelée Slime — est particulièrement impressionnante et propulse GLM-5 en tête de l’Artificial Analysis Omniscience Index.

Le signal géopolitique

GLM-5 a été entraîné entièrement sur des puces Huawei Ascend en utilisant le framework MindSpore — sans matériel américain. Cela démontre que la pile de calcul domestique de la Chine peut produire des modèles de qualité frontier malgré les contrôles à l’exportation.

Mode Agent natif

GLM-5 est livré avec un « Mode Agent » natif capable de transformer des prompts en documents professionnels de bureau (.docx, .pdf, .xlsx) — en concurrence directe avec l’utilisation informatique d’Anthropic et le Codex d’OpenAI pour les tâches professionnelles pratiques.

Après le lancement, les actions de Zhipu ont bondi de 34 % à la Bourse de Hong Kong.


Moonshot AI : Kimi K2.5 et Kimi Claw

K2.5 lancé : 27 janvier 2026 Kimi Claw : 15 février 2026

Moonshot AI construit l’écosystème agentique open-source le plus complet dans l’espace IA chinois.

Kimi K2.5

Un modèle MoE de 1 000 milliards de paramètres (32B paramètres actifs) qui comprend texte, images et vidéo. Innovation clé : capacité Agent Swarm, propulsée par une nouvelle technique RL appelée Parallel Agent Reinforcement Learning (PARL) qui entraîne le modèle à décomposer et paralléliser les tâches complexes.

Le modèle est entièrement open-source et disponible sur Hugging Face.

Kimi Claw

Lancé le 15 février, Kimi Claw est une plateforme d’agent IA native dans le cloud, basée sur navigateur, construite sur le framework OpenClaw. Pensez-y comme la réponse de Moonshot à l’utilisation informatique d’Anthropic — mais fonctionnant entièrement dans le cloud.


xAI : Grok 4.2 Release Candidate

Bêta publique : 17 février 2026

Grok 4.2 d’Elon Musk introduit une approche fondamentalement différente de l’amélioration des modèles : l’apprentissage rapide.

Nouveautés

Contrairement à tous les autres modèles de cette liste, Grok 4.2 est conçu pour s’améliorer chaque semaine en fonction de l’utilisation publique. Musk l’a décrit comme capable d’« apprendre rapidement » avec des cycles d’amélioration hebdomadaires et des notes de version.

Nouvelles capacités :

  • Collaboration parallèle de 4 agents — des agents IA spécialisés qui synthétisent les sorties en une seule réponse
  • Analyse de documents médicaux via téléchargement de photos
  • Raisonnement technique amélioré

Tarifs

xAI maintient sa stratégie de prix agressive :

ModèleEntrée (par 1M)Sortie (par 1M)
Grok 4.10,20 $0,50 $
Grok 4.2 RCTBA (bêta)TBA

État actuel

Grok 4.2 est actuellement en bêta publique — disponible dans l’interface Grok. La sortie grand public est attendue en mars 2026. Les benchmarks officiels seront publiés après la fin de la bêta.


Mistral AI : Large 3 et la pile de codage

Mistral Large 3 : 2 décembre 2025 Devstral 2 : décembre 2025

Mistral continue de dépasser sa catégorie en tant que laboratoire IA frontier européen, lançant des modèles qui rivalisent en tête des classements open-source.

Mistral Large 3

Un modèle MoE de 675 milliards de paramètres avec 41B paramètres actifs. Il a débuté à la 2e place parmi les modèles open-source non-raisonneurs sur le classement LMArena — juste derrière les modèles beaucoup plus grands des laboratoires chinois.

Principaux modèles de la gamme actuelle de Mistral :

ModèleFocusTarif (par 1M)
Mistral Large 3Frontier général~2,00 $ / 6,00 $
Mistral Medium 3.1Multimodal (40k ctx)2,00 $ / 5,00 $
Magistral Medium 1.2Raisonnement2,00 $ / 5,00 $
CodestralComplétion de codeTier Premier
Devstral 2Codage agentiqueOpen-weight

Devstral Small 2

La star de la sortie de décembre : un modèle de codage de 24B paramètres qui surpasse Qwen 3 Coder Flash malgré une taille nettement inférieure. Pour les équipes qui ont besoin d’IA de codage auto-hébergée sans GPU massif, Devstral Small 2 est une option convaincante.

Ministral 3

La famille de petits modèles de Mistral (3B, 7B, 14B paramètres) obtient le meilleur rapport coût-performance de tous les modèles open-source — égalant ou dépassant les modèles comparables tout en produisant un ordre de grandeur de tokens en moins.


MiniMax : M2.5

M2.5 lancé : 2026

Le cheval noir de la course frontier. M2.5 de MiniMax offre des performances de codage en tête des benchmarks avec seulement 10 milliards de paramètres actifs — une fraction de ce qu’utilisent les concurrents.

Nouveautés

MiniMax M2.5 est spécialement conçu pour le codage et l’exécution agentique, en misant sur faire plus avec moins :

  • #1 sur Multi-SWE-Bench avec un score de 51,3
  • Dépasse Claude Opus 4.6 sur SWE-Bench Pro
  • Scores de tête sur les benchmarks FinSearch, BrowseComp et RISE
  • Débit de 100 tokens par seconde — décrit comme « 3× plus rapide qu’Opus »
  • Raisonnement Chain of Thought jusqu’à 128K tokens

L’histoire de l’efficacité

La statistique remarquable : MiniMax M2.5 complète 327,8 tâches pour un budget de 100 $ — plus de 10× plus qu’Opus. À 0,30 $ par million de tokens d’entrée (0,06 $ avec cache), il se situe dans le territoire tarifaire de DeepSeek tout en égalant ou dépassant les modèles premium sur les tâches de codage.

ModèleEntrée (par 1M)Avec cacheVitesse
M2.50,30 $0,06 $100 TPS
M2.5-highspeed0,30 $0,06 $Variante plus rapide

Poids ouverts

MiniMax a publié les poids de M2.5 sur HuggingFace, avec support pour vLLM, SGLang et Transformers pour l’auto-hébergement. Cela en fait l’une des options les plus rentables pour les équipes gérant leur propre infrastructure d’inférence.


Le paysage tarifaire

Voici comment tous les modèles frontier se comparent en coût (par million de tokens) :

FournisseurModèleEntréeSortieContexte
xAIGrok 4.10,20 $0,50 $
DeepSeekV3.20,27 $1,10 $1M+
MiniMaxM2.50,30 $128K
OpenAIo4-mini1,10 $4,40 $
GoogleGemini 3.1 Pro~1,25 $~10,00 $1M
OpenAIGPT-51,25 $10,00 $400K
Mistral AIMedium 3.12,00 $5,00 $40K
Mistral AILarge 3~2,00 $~6,00 $128K
OpenAIo32,00 $8,00 $
AnthropicSonnet 4.63,00 $15,00 $1M (bêta)
AnthropicOpus 4.615,00 $75,00 $200K
Zhipu AIGLM-5Poids ouvertsAuto-hébergement gratuit
Moonshot AIKimi K2.5Poids ouvertsAuto-hébergement gratuit
DeepSeekV4 (attendu)Poids ouvertsAuto-hébergement gratuit1M+

L’écart de prix 17× entre l’API la moins chère (DeepSeek à 0,27 $/M) et les modèles premium (Opus 4.6 à 15 $/M en entrée) représente une vraie décision architecturale pour les entreprises. La question n’est plus « pouvons-nous nous permettre l’IA ? », mais « quel niveau d’IA correspond à notre cas d’usage ? »


Tendances clés

1. L’essor de l’open-source

Cinq sorties récentes — GLM-5, Kimi K2.5, DeepSeek V4, Mistral Large 3 et MiniMax M2.5 — sont des modèles open-weight. Ils ne font pas que rattraper le closed-source ; GLM-5 égale Claude Opus 4.5 sur SWE-bench et le dépasse sur Humanity’s Last Exam. Mistral Large 3 est à la 2e place sur LMArena open-source. L’écart de qualité entre ouvert et fermé a pratiquement disparu.

2. La pile IA indépendante de la Chine

GLM-5 (Huawei Ascend) et DeepSeek V4 démontrent tous les deux que les laboratoires chinois peuvent produire des modèles frontier sans matériel américain. Les contrôles à l’exportation ont ralenti mais n’ont pas arrêté les progrès de l’IA chinoise — et ont peut-être accéléré leurs investissements dans des alternatives domestiques.

3. L’agentique partout

Chaque lancement de ce mois inclut des capacités agentiques : GPT-5.3 Codex gère des tâches de longue durée en plusieurs étapes, Claude 4.6 dispose de l’utilisation informatique à 72,5 %, Grok 4.2 exécute une collaboration parallèle de 4 agents, GLM-5 dispose d’un Mode Agent natif et Kimi d’un Agent Swarm. 2026 est l’année où les modèles ont cessé d’être des chatbots pour devenir des travailleurs.

4. La révolution du milieu de gamme

Prouver qu’un modèle à 3 $/M peut égaler un phare à 15 $/M est un moment charnière. Combiné avec le tarif de 0,27 $/M de DeepSeek atteignant ~90 % de la qualité de GPT-5, la proposition de valeur des tarifs premium d’API est sous sérieuse pression.

5. Convergence des fenêtres de contexte

Plusieurs modèles offrent maintenant des fenêtres de contexte de 1 M+ tokens : Gemini 3.1 Pro, Claude 4.6 (bêta), DeepSeek V4 et Kimi K2.5. Traiter des bases de code entières, des documents juridiques ou des corpus de recherche en un seul passage n’est plus un différenciateur — c’est la norme de base.


Ce que cela signifie pour les utilisateurs entreprises

Si vous intégrez l’IA dans votre flux de travail en 2026, voici les conclusions pratiques :

Pour le codage et le développement : GPT-5.3 Codex et Claude Sonnet 4.6 mènent le groupe. Codex pour les tâches agentiques de longue durée, Sonnet pour le codage polyvalent et l’utilisation informatique.

Pour les charges de travail sensibles aux coûts : DeepSeek V3.2 à 0,27 $/M de tokens est imbattable pour les tâches à volume élevé. Les modèles open-weight (GLM-5, Kimi K2.5) sont gratuits à auto-héberger si vous disposez d’une infrastructure GPU.

Pour le raisonnement entreprise : L’amélioration 2× du raisonnement de Gemini 3.1 Pro en fait le choix par défaut pour les clients Google Cloud. Claude Opus 4.6 reste le plafond pour les analyses complexes.

Pour l’itération rapide : Le modèle d’amélioration hebdomadaire de Grok 4.2 est unique — si vous avez besoin d’un modèle qui s’améliore dans le temps pour vos cas d’usage spécifiques, il vaut la peine d’être suivi.

Pour l’indépendance : Les modèles open-weight (GLM-5, Kimi K2.5, DeepSeek V4) vous donnent un contrôle total sur le déploiement, la personnalisation et la confidentialité des données.


Dernière mise à jour

20 février 2026 — Cet article est mis à jour à chaque nouveau lancement de modèle frontier. Suivez-nous pour la couverture la plus récente.

Mises à jour précédentes : Publication initiale (20 fév. 2026)