Le mois le plus intense de l’histoire de l’IA
Février 2026 sera mémorable comme le mois où la course à l’IA frontier s’est emballée. Dix grands fournisseurs lancent activement des modèles frontier — chacun repoussant les limites du possible avec les modèles de langage.
La chronologie :
| Date | Fournisseur | Modèle | Point saillant |
|---|---|---|---|
| 2 déc. | Mistral AI | Mistral Large 3 | 675B MoE, #2 open-source sur LMArena |
| 27 jan. | Moonshot AI | Kimi K2.5 | 1T MoE open-source avec Agent Swarm |
| 5 fév. | OpenAI | GPT-5.3 Codex | Premier modèle de codage agentique « auto-améliorant » |
| 11 fév. | Zhipu AI | GLM-5 | Modèle open-source 745B entraîné sur des puces chinoises |
| 12 fév. | DeepSeek | Mise à jour V3.2 | Fenêtre de contexte étendue 10× à plus d’1 M de tokens |
| 15 fév. | Moonshot AI | Kimi Claw | Plateforme d’agent basée sur navigateur, propulsée par K2.5 |
| 17 fév. | Anthropic | Claude Sonnet 4.6 | Performances proches d’Opus à 1/5 du prix |
| 17 fév. | xAI | Grok 4.2 RC | Modèle à « apprentissage rapide » qui s’améliore chaque semaine |
| 17 fév. | DeepSeek | V4 (attendu) | Modèle à 1T paramètres visant la domination du codage |
| 19 fév. | Gemini 3.1 Pro | Bond 2× en raisonnement, score ARC-AGI-2 de 77,1 % | |
| 2026 | MiniMax | M2.5 | #1 Multi-SWE-Bench, 10B paramètres actifs, 0,30 $/M |
Ce n’est pas une simple amélioration incrémentale. C’est un changement fondamental dans ce que les modèles d’IA peuvent accomplir, leur coût et qui les développe.
Détaillons chaque lancement.
OpenAI : GPT-5.3 Codex
Lancé le : 5 février 2026
GPT-5.3 Codex d’OpenAI représente un changement de paradigme : du « modèle qui écrit du code » au « modèle qui peut faire presque tout ce que les développeurs font sur ordinateur ».
Nouveautés
GPT-5.3 Codex combine les performances de codage frontier de GPT-5.2-Codex avec le raisonnement et les connaissances professionnelles de GPT-5.2. Le résultat est un modèle capable de prendre en charge des tâches de longue durée impliquant de la recherche, l’utilisation d’outils et une exécution complexe en plusieurs étapes.
Améliorations clés :
- 25 % plus rapide que GPT-5.2-Codex
- Moins de tokens consommés par tâche — fait plus avec moins
- À la pointe sur SWE-Bench Pro et Terminal-Bench
- Bons résultats sur OSWorld et GDPval
L’alerte cybersécurité
C’est le premier modèle d’OpenAI à atteindre le niveau « élevé » de leur cadre de préparation en cybersécurité — signifiant qu’ils estiment que GPT-5.3 Codex est suffisamment capable en codage et raisonnement pour « faciliter de manière significative des cyberattaques réelles, surtout s’il est automatisé ou utilisé à grande échelle ». Une étape qui souligne à quel point ces modèles sont devenus puissants.
Disponibilité
Disponible pour les utilisateurs payants de ChatGPT via l’application Codex, CLI, extension IDE et web. Une variante plus légère, GPT-5.3-Codex-Spark, a également été lancée. L’accès API arrive prochainement.
Tarifs
| Modèle | Entrée (par 1M) | Sortie (par 1M) | Entrée en cache |
|---|---|---|---|
| GPT-5 | 1,25 $ | 10,00 $ | 0,625 $ |
| GPT-5.3 Codex | TBA (API en attente) | TBA | TBA |
| o3 | 2,00 $ | 8,00 $ | — |
| o4-mini | 1,10 $ | 4,40 $ | 0,55 $ |
Anthropic : Claude Sonnet 4.6
Lancé le : 17 février 2026
Claude Sonnet 4.6 est la réponse d’Anthropic à une question que personne ne pensait possible il y a un an : un modèle de milieu de gamme peut-il égaler un modèle phare ?
Nouveautés
Ce n’est pas une simple mise à jour de version. Sonnet 4.6 est une mise à niveau complète en matière de codage, d’utilisation informatique, de raisonnement avec contexte long, de planification d’agents, de travail de connaissance et de design. Il est livré avec une fenêtre de contexte d’1 M de tokens (en bêta).
Performances sur les benchmarks
| Benchmark | Sonnet 4.6 | Opus 4.6 | Écart |
|---|---|---|---|
| SWE-bench Verified | 79,6 % | — | — |
| OSWorld (utilisation informatique) | 72,5 % | 72,7 % | 0,2 % |
| Office Productivity | 1633 Elo | 1559 Elo | Sonnet en tête |
| Financial Analysis | 63,3 % | 62,0 % | Sonnet en tête |
Le score en utilisation informatique est remarquable : 72,5 % sur OSWorld-Verified, contre 14,9 % lors du lancement de la fonctionnalité il y a seulement 16 mois.
Préférence des utilisateurs
Anthropic rapporte que 70 % des utilisateurs préfèrent Sonnet 4.6 à Sonnet 4.5, et 59 % le préfèrent à l’ancien Opus 4.5. À 3 $/15 $ par million de tokens — un cinquième du prix d’Opus 4.6 à 15 $/75 $ — c’est actuellement le meilleur rapport qualité-prix en IA frontier pour les charges de travail entreprises.
Claude Opus 4.6
Le phare Opus 4.6 reste le plafond des capacités d’Anthropic, propulsant les tâches agentiques et de raisonnement les plus exigeantes. Mais l’écart avec Sonnet est désormais minime, faisant du modèle milieu de gamme le choix pragmatique pour la plupart des applications.
Google : Gemini 3.1 Pro
Lancé le : 19 février 2026
Google présente Gemini 3.1 Pro non pas comme une mise à niveau de niche, mais comme un modèle par défaut plus solide pour les tâches complexes.
Nouveautés
Le chiffre phare : un score ARC-AGI-2 de 77,1 % — plus du double des performances de raisonnement de Gemini 3 Pro. Spécialement conçu pour les tâches nécessitant un raisonnement avancé en plusieurs étapes, comme la synthèse de données provenant de sources diverses ou l’explication de sujets complexes et interdépendants.
Disponibilité
Déploiement progressif dans tout l’écosystème Google :
- Application Gemini (limites plus élevées pour les utilisateurs Pro et Ultra)
- NotebookLM (utilisateurs Pro et Ultra)
- API Gemini via AI Studio, Vertex AI, Gemini CLI et Android Studio
- Tarifs inchangés par rapport à Gemini 3 Pro (~1,25 $/10 $ par million de tokens standard)
Pourquoi c’est important
Google a maintenu ses tarifs stables tout en améliorant dramatiquement le raisonnement. Pour les entreprises déjà sur Google Cloud, le 3.1 Pro s’intègre comme une mise à niveau directe sans impact budgétaire.
DeepSeek : V4 et l’expansion 10× du contexte
Mise à jour V3.2 : 12 février 2026 V4 attendu : mi-février 2026
DeepSeek reste la force la plus disruptive en matière de prix d’IA tout en proposant de véritables capacités frontier.
V3.2 : Expansion 10× du contexte
Début février, DeepSeek a étendu la fenêtre de contexte de V3.2 de 128 000 tokens à plus d’1 million — une multiplication par dix. À 0,27 $/1,10 $ par million de tokens, c’est désormais le moyen le moins cher de traiter des documents massifs avec un modèle de classe frontier.
V4 : La prochaine frontier
DeepSeek V4 devrait être lancé avec :
- 1 000 milliards de paramètres (architecture MoE)
- Contexte natif de 1 M+ tokens
- Trois avancées architecturales : Engram conditional memory, Manifold-Constrained Hyper-Connections et DeepSeek Sparse Attention
- Objectif : 80 %+ sur SWE-bench — ce qui le placerait au sommet absolu des benchmarks de codage
- Attendu en open-weight sous licence permissive
L’histoire des coûts
L’écart de prix entre DeepSeek et les fournisseurs occidentaux reste considérable :
| Exemple de coût de tâche | GPT-5 | Claude Opus 4.6 | DeepSeek V3.2 |
|---|---|---|---|
| 100K entrée + 10K sortie | 0,225 $ | 2,25 $ | 0,038 $ |
| Ratio par rapport à DeepSeek | 6× | 59× | 1× |
Une tâche complexe coûtant 15 $ avec GPT-5 coûte environ 0,50 $ avec DeepSeek. Ce n’est pas seulement un avantage de coût — cela change ce qu’il est économiquement viable d’automatiser.
Zhipu AI : GLM-5
Lancé le : 11 février 2026
Le plus grand lancement de modèle open-source du mois, et peut-être le plus significatif sur le plan géopolitique.
Nouveautés
GLM-5 est un modèle MoE de 745 milliards de paramètres (44B paramètres actifs) avec cinq capacités principales : écriture créative, génération de code, raisonnement en plusieurs étapes, intelligence agentique et traitement de contexte long.
Performances sur les benchmarks
| Benchmark | GLM-5 | Comparaison |
|---|---|---|
| SWE-bench Verified | 77,8 % | Égale Claude Opus 4.5 |
| AIME 2026 | 92,7 % | — |
| GPQA-Diamond | 86,0 % | — |
| Humanity’s Last Exam | 50,4 % | Dépasse Claude Opus 4.5 |
| Taux d’hallucination | 34 % | En baisse depuis 90 % (GLM-4.7) |
La réduction des hallucinations — de 90 % à 34 % grâce à une technique RL novatrice appelée Slime — est particulièrement impressionnante et propulse GLM-5 en tête de l’Artificial Analysis Omniscience Index.
Le signal géopolitique
GLM-5 a été entraîné entièrement sur des puces Huawei Ascend en utilisant le framework MindSpore — sans matériel américain. Cela démontre que la pile de calcul domestique de la Chine peut produire des modèles de qualité frontier malgré les contrôles à l’exportation.
Mode Agent natif
GLM-5 est livré avec un « Mode Agent » natif capable de transformer des prompts en documents professionnels de bureau (.docx, .pdf, .xlsx) — en concurrence directe avec l’utilisation informatique d’Anthropic et le Codex d’OpenAI pour les tâches professionnelles pratiques.
Après le lancement, les actions de Zhipu ont bondi de 34 % à la Bourse de Hong Kong.
Moonshot AI : Kimi K2.5 et Kimi Claw
K2.5 lancé : 27 janvier 2026 Kimi Claw : 15 février 2026
Moonshot AI construit l’écosystème agentique open-source le plus complet dans l’espace IA chinois.
Kimi K2.5
Un modèle MoE de 1 000 milliards de paramètres (32B paramètres actifs) qui comprend texte, images et vidéo. Innovation clé : capacité Agent Swarm, propulsée par une nouvelle technique RL appelée Parallel Agent Reinforcement Learning (PARL) qui entraîne le modèle à décomposer et paralléliser les tâches complexes.
Le modèle est entièrement open-source et disponible sur Hugging Face.
Kimi Claw
Lancé le 15 février, Kimi Claw est une plateforme d’agent IA native dans le cloud, basée sur navigateur, construite sur le framework OpenClaw. Pensez-y comme la réponse de Moonshot à l’utilisation informatique d’Anthropic — mais fonctionnant entièrement dans le cloud.
xAI : Grok 4.2 Release Candidate
Bêta publique : 17 février 2026
Grok 4.2 d’Elon Musk introduit une approche fondamentalement différente de l’amélioration des modèles : l’apprentissage rapide.
Nouveautés
Contrairement à tous les autres modèles de cette liste, Grok 4.2 est conçu pour s’améliorer chaque semaine en fonction de l’utilisation publique. Musk l’a décrit comme capable d’« apprendre rapidement » avec des cycles d’amélioration hebdomadaires et des notes de version.
Nouvelles capacités :
- Collaboration parallèle de 4 agents — des agents IA spécialisés qui synthétisent les sorties en une seule réponse
- Analyse de documents médicaux via téléchargement de photos
- Raisonnement technique amélioré
Tarifs
xAI maintient sa stratégie de prix agressive :
| Modèle | Entrée (par 1M) | Sortie (par 1M) |
|---|---|---|
| Grok 4.1 | 0,20 $ | 0,50 $ |
| Grok 4.2 RC | TBA (bêta) | TBA |
État actuel
Grok 4.2 est actuellement en bêta publique — disponible dans l’interface Grok. La sortie grand public est attendue en mars 2026. Les benchmarks officiels seront publiés après la fin de la bêta.
Mistral AI : Large 3 et la pile de codage
Mistral Large 3 : 2 décembre 2025 Devstral 2 : décembre 2025
Mistral continue de dépasser sa catégorie en tant que laboratoire IA frontier européen, lançant des modèles qui rivalisent en tête des classements open-source.
Mistral Large 3
Un modèle MoE de 675 milliards de paramètres avec 41B paramètres actifs. Il a débuté à la 2e place parmi les modèles open-source non-raisonneurs sur le classement LMArena — juste derrière les modèles beaucoup plus grands des laboratoires chinois.
Principaux modèles de la gamme actuelle de Mistral :
| Modèle | Focus | Tarif (par 1M) |
|---|---|---|
| Mistral Large 3 | Frontier général | ~2,00 $ / 6,00 $ |
| Mistral Medium 3.1 | Multimodal (40k ctx) | 2,00 $ / 5,00 $ |
| Magistral Medium 1.2 | Raisonnement | 2,00 $ / 5,00 $ |
| Codestral | Complétion de code | Tier Premier |
| Devstral 2 | Codage agentique | Open-weight |
Devstral Small 2
La star de la sortie de décembre : un modèle de codage de 24B paramètres qui surpasse Qwen 3 Coder Flash malgré une taille nettement inférieure. Pour les équipes qui ont besoin d’IA de codage auto-hébergée sans GPU massif, Devstral Small 2 est une option convaincante.
Ministral 3
La famille de petits modèles de Mistral (3B, 7B, 14B paramètres) obtient le meilleur rapport coût-performance de tous les modèles open-source — égalant ou dépassant les modèles comparables tout en produisant un ordre de grandeur de tokens en moins.
MiniMax : M2.5
M2.5 lancé : 2026
Le cheval noir de la course frontier. M2.5 de MiniMax offre des performances de codage en tête des benchmarks avec seulement 10 milliards de paramètres actifs — une fraction de ce qu’utilisent les concurrents.
Nouveautés
MiniMax M2.5 est spécialement conçu pour le codage et l’exécution agentique, en misant sur faire plus avec moins :
- #1 sur Multi-SWE-Bench avec un score de 51,3
- Dépasse Claude Opus 4.6 sur SWE-Bench Pro
- Scores de tête sur les benchmarks FinSearch, BrowseComp et RISE
- Débit de 100 tokens par seconde — décrit comme « 3× plus rapide qu’Opus »
- Raisonnement Chain of Thought jusqu’à 128K tokens
L’histoire de l’efficacité
La statistique remarquable : MiniMax M2.5 complète 327,8 tâches pour un budget de 100 $ — plus de 10× plus qu’Opus. À 0,30 $ par million de tokens d’entrée (0,06 $ avec cache), il se situe dans le territoire tarifaire de DeepSeek tout en égalant ou dépassant les modèles premium sur les tâches de codage.
| Modèle | Entrée (par 1M) | Avec cache | Vitesse |
|---|---|---|---|
| M2.5 | 0,30 $ | 0,06 $ | 100 TPS |
| M2.5-highspeed | 0,30 $ | 0,06 $ | Variante plus rapide |
Poids ouverts
MiniMax a publié les poids de M2.5 sur HuggingFace, avec support pour vLLM, SGLang et Transformers pour l’auto-hébergement. Cela en fait l’une des options les plus rentables pour les équipes gérant leur propre infrastructure d’inférence.
Le paysage tarifaire
Voici comment tous les modèles frontier se comparent en coût (par million de tokens) :
| Fournisseur | Modèle | Entrée | Sortie | Contexte |
|---|---|---|---|---|
| xAI | Grok 4.1 | 0,20 $ | 0,50 $ | — |
| DeepSeek | V3.2 | 0,27 $ | 1,10 $ | 1M+ |
| MiniMax | M2.5 | 0,30 $ | — | 128K |
| OpenAI | o4-mini | 1,10 $ | 4,40 $ | — |
| Gemini 3.1 Pro | ~1,25 $ | ~10,00 $ | 1M | |
| OpenAI | GPT-5 | 1,25 $ | 10,00 $ | 400K |
| Mistral AI | Medium 3.1 | 2,00 $ | 5,00 $ | 40K |
| Mistral AI | Large 3 | ~2,00 $ | ~6,00 $ | 128K |
| OpenAI | o3 | 2,00 $ | 8,00 $ | — |
| Anthropic | Sonnet 4.6 | 3,00 $ | 15,00 $ | 1M (bêta) |
| Anthropic | Opus 4.6 | 15,00 $ | 75,00 $ | 200K |
| Zhipu AI | GLM-5 | Poids ouverts | Auto-hébergement gratuit | — |
| Moonshot AI | Kimi K2.5 | Poids ouverts | Auto-hébergement gratuit | — |
| DeepSeek | V4 (attendu) | Poids ouverts | Auto-hébergement gratuit | 1M+ |
L’écart de prix 17× entre l’API la moins chère (DeepSeek à 0,27 $/M) et les modèles premium (Opus 4.6 à 15 $/M en entrée) représente une vraie décision architecturale pour les entreprises. La question n’est plus « pouvons-nous nous permettre l’IA ? », mais « quel niveau d’IA correspond à notre cas d’usage ? »
Tendances clés
1. L’essor de l’open-source
Cinq sorties récentes — GLM-5, Kimi K2.5, DeepSeek V4, Mistral Large 3 et MiniMax M2.5 — sont des modèles open-weight. Ils ne font pas que rattraper le closed-source ; GLM-5 égale Claude Opus 4.5 sur SWE-bench et le dépasse sur Humanity’s Last Exam. Mistral Large 3 est à la 2e place sur LMArena open-source. L’écart de qualité entre ouvert et fermé a pratiquement disparu.
2. La pile IA indépendante de la Chine
GLM-5 (Huawei Ascend) et DeepSeek V4 démontrent tous les deux que les laboratoires chinois peuvent produire des modèles frontier sans matériel américain. Les contrôles à l’exportation ont ralenti mais n’ont pas arrêté les progrès de l’IA chinoise — et ont peut-être accéléré leurs investissements dans des alternatives domestiques.
3. L’agentique partout
Chaque lancement de ce mois inclut des capacités agentiques : GPT-5.3 Codex gère des tâches de longue durée en plusieurs étapes, Claude 4.6 dispose de l’utilisation informatique à 72,5 %, Grok 4.2 exécute une collaboration parallèle de 4 agents, GLM-5 dispose d’un Mode Agent natif et Kimi d’un Agent Swarm. 2026 est l’année où les modèles ont cessé d’être des chatbots pour devenir des travailleurs.
4. La révolution du milieu de gamme
Prouver qu’un modèle à 3 $/M peut égaler un phare à 15 $/M est un moment charnière. Combiné avec le tarif de 0,27 $/M de DeepSeek atteignant ~90 % de la qualité de GPT-5, la proposition de valeur des tarifs premium d’API est sous sérieuse pression.
5. Convergence des fenêtres de contexte
Plusieurs modèles offrent maintenant des fenêtres de contexte de 1 M+ tokens : Gemini 3.1 Pro, Claude 4.6 (bêta), DeepSeek V4 et Kimi K2.5. Traiter des bases de code entières, des documents juridiques ou des corpus de recherche en un seul passage n’est plus un différenciateur — c’est la norme de base.
Ce que cela signifie pour les utilisateurs entreprises
Si vous intégrez l’IA dans votre flux de travail en 2026, voici les conclusions pratiques :
Pour le codage et le développement : GPT-5.3 Codex et Claude Sonnet 4.6 mènent le groupe. Codex pour les tâches agentiques de longue durée, Sonnet pour le codage polyvalent et l’utilisation informatique.
Pour les charges de travail sensibles aux coûts : DeepSeek V3.2 à 0,27 $/M de tokens est imbattable pour les tâches à volume élevé. Les modèles open-weight (GLM-5, Kimi K2.5) sont gratuits à auto-héberger si vous disposez d’une infrastructure GPU.
Pour le raisonnement entreprise : L’amélioration 2× du raisonnement de Gemini 3.1 Pro en fait le choix par défaut pour les clients Google Cloud. Claude Opus 4.6 reste le plafond pour les analyses complexes.
Pour l’itération rapide : Le modèle d’amélioration hebdomadaire de Grok 4.2 est unique — si vous avez besoin d’un modèle qui s’améliore dans le temps pour vos cas d’usage spécifiques, il vaut la peine d’être suivi.
Pour l’indépendance : Les modèles open-weight (GLM-5, Kimi K2.5, DeepSeek V4) vous donnent un contrôle total sur le déploiement, la personnalisation et la confidentialité des données.
Dernière mise à jour
20 février 2026 — Cet article est mis à jour à chaque nouveau lancement de modèle frontier. Suivez-nous pour la couverture la plus récente.
Mises à jour précédentes : Publication initiale (20 fév. 2026)