AI史上最も激しい月
2026年2月は、フロンティアAI競争が本格化した月として記憶されるでしょう。10の主要プロバイダーが積極的にフロンティアモデルをリリースし、言語モデルで可能なことの限界を次々と塗り替えています。
主なタイムライン:
| 日付 | プロバイダー | モデル | ハイライト |
|---|---|---|---|
| 12月2日 | Mistral AI | Mistral Large 3 | 675B MoE、LMArenaオープンソース2位 |
| 1月27日 | Moonshot AI | Kimi K2.5 | 1T オープンソースMoE(Agent Swarm搭載) |
| 2月5日 | OpenAI | GPT-5.3 Codex | 初の「自己改善型」エージェント型コーディングモデル |
| 2月11日 | Zhipu AI | GLM-5 | 中国製チップで訓練された745Bオープンソースモデル |
| 2月12日 | DeepSeek | V3.2アップデート | コンテキストウィンドウを10倍拡張(100万トークン超) |
| 2月15日 | Moonshot AI | Kimi Claw | K2.5搭載のブラウザ型エージェントプラットフォーム |
| 2月17日 | Anthropic | Claude Sonnet 4.6 | Opus近似の性能を5分の1の価格で |
| 2月17日 | xAI | Grok 4.2 RC | 毎週改善される「急速学習」モデル |
| 2月17日 | DeepSeek | V4(予定) | コーディング支配を目指す1Tパラメータモデル |
| 2月19日 | Gemini 3.1 Pro | 推論力2倍、ARC-AGI-2スコア77.1% | |
| 2026年 | MiniMax | M2.5 | Multi-SWE-Bench1位、10Bアクティブパラメータ、$0.30/M |
これは単なる段階的な改善ではありません。AIモデルの能力・コスト・開発者の多様性における根本的な変革です。
それぞれのリリースを詳しく見ていきましょう。
OpenAI:GPT-5.3 Codex
リリース日: 2026年2月5日
OpenAIのGPT-5.3 Codexは、「コードを書くモデル」から「開発者がコンピューターでできることをほぼすべてこなすモデル」へのパラダイムシフトを体現しています。
新機能
GPT-5.3 Codexは、GPT-5.2-Codexのフロンティアコーディング性能とGPT-5.2の推論・専門知識を組み合わせたモデルです。調査・ツール使用・複雑な多段階実行を伴う長時間タスクをこなす能力を持っています。
主な改善点:
- GPT-5.2-Codexより25%高速
- タスクあたりの消費トークンが少ない — より少ないリソースでより多くを実現
- SWE-Bench ProとTerminal-Benchで最高水準
- OSWorldとGDPvalでも優れた成績
サイバーセキュリティへの警告
OpenAIのサイバーセキュリティ準備フレームワークで初めて**「高」**と評価されたモデルです。コーディングと推論において「自動化や大規模利用により実際のサイバー被害を大幅に助長できる」レベルの能力を持つとされます。AIモデルの能力がいかに高まったかを示すマイルストーンです。
利用方法
有料ChatGPTユーザー向けにCodexアプリ、CLI、IDE拡張機能、Webから利用可能です。軽量版のGPT-5.3-Codex-Sparkも同時リリースされました。APIアクセスは近日公開予定です。
料金
| モデル | 入力(100万トークンあたり) | 出力(100万トークンあたり) | キャッシュ入力 |
|---|---|---|---|
| GPT-5 | $1.25 | $10.00 | $0.625 |
| GPT-5.3 Codex | TBA(API準備中) | TBA | TBA |
| o3 | $2.00 | $8.00 | — |
| o4-mini | $1.10 | $4.40 | $0.55 |
Anthropic:Claude Sonnet 4.6
リリース日: 2026年2月17日
Claude Sonnet 4.6は、1年前には誰も可能だと思わなかった問いへのAnthropicの回答です:ミッドレンジモデルはフラッグシップモデルに匹敵できるのか?
新機能
これは単なるマイナーバージョンアップではありません。Sonnet 4.6はコーディング・コンピューター操作・長文脈推論・エージェント計画・知識作業・デザインにわたる完全なアップグレードです。100万トークンのコンテキストウィンドウ(ベータ版)を搭載しています。
ベンチマーク結果
| ベンチマーク | Sonnet 4.6 | Opus 4.6 | 差 |
|---|---|---|---|
| SWE-bench Verified | 79.6% | — | — |
| OSWorld(コンピューター操作) | 72.5% | 72.7% | 0.2% |
| Office Productivity | 1633 Elo | 1559 Elo | Sonnetが上回る |
| Financial Analysis | 63.3% | 62.0% | Sonnetが上回る |
コンピューター操作のスコアは注目に値します:OSWorld-Verifiedで**72.5%**を達成。わずか16ヶ月前にこの機能が初めてリリースされた時の14.9%から大幅に向上しています。
ユーザーの評価
Anthropicによれば、ユーザーの70%がSonnet 4.5よりSonnet 4.6を好み、59%が旧Opus 4.5よりも好むとのことです。100万トークンあたり$3/$15という価格(Opus 4.6の$15/$75の5分の1)は、エンタープライズ用途において現在フロンティアAI最高のコストパフォーマンスを提供します。
Claude Opus 4.6
フラッグシップのOpus 4.6はAnthropicの能力の上限として、最も高度なエージェント・推論タスクを担い続けます。しかしSonnetとの差はわずかで、ほとんどのユースケースにはミッドレンジモデルが実用的な選択となっています。
Google:Gemini 3.1 Pro
リリース日: 2026年2月19日
Googleはgemini 3.1 Proをニッチなアップグレードではなく、複雑なタスクに向けたより堅牢なデフォルトモデルとして位置づけています。
新機能
注目の数値:ARC-AGI-2スコア77.1% — Gemini 3 Proの2倍以上の推論性能です。複数のソースからデータを統合したり、複雑で相互依存するトピックを説明したりするような、高度な多段階推論が必要なタスク向けに特別に設計されています。
利用方法
Googleエコシステム全体に段階的展開:
- Geminiアプリ(ProとUltraプランユーザーの上限引き上げ)
- NotebookLM(ProとUltraユーザー)
- Gemini API(AI Studio、Vertex AI、Gemini CLI、Android Studio経由)
- 価格はGemini 3 Proと変わらず(標準で100万トークンあたり約$1.25/$10)
重要性
Googleは価格を据え置きながら推論性能を劇的に向上させました。すでにGoogle Cloudを利用している企業にとって、3.1 Proは予算への影響なしに直接アップグレードできる選択肢です。
DeepSeek:V4と10倍コンテキスト拡張
V3.2アップデート: 2026年2月12日 V4予定: 2026年2月中旬
DeepSeekは真のフロンティア能力を維持しながら、AI価格帯において最も破壊的な存在であり続けています。
V3.2:コンテキスト10倍拡張
2月上旬、DeepSeekはV3.2のコンテキストウィンドウを12万8千トークンから100万トークン超に拡張しました。100万トークンあたり$0.27/$1.10という価格で、フロンティアクラスのモデルを使って大規模ドキュメントを処理する最安の方法になりました。
V4:次のフロンティア
DeepSeek V4には以下が含まれる見込みです:
- 1兆パラメータ(MoEアーキテクチャ)
- ネイティブで100万+トークンコンテキスト
- 3つのアーキテクチャ上の革新:Engram conditional memory、Manifold-Constrained Hyper-Connections、DeepSeek Sparse Attention
- 目標:SWE-benchで80%以上 — コーディングベンチマーク最高水準への到達
- パーミッシブライセンスのオープンウェイトで公開予定
コストの話
DeepSeekと西洋プロバイダーの価格差は依然として圧倒的です:
| タスクコスト例 | GPT-5 | Claude Opus 4.6 | DeepSeek V3.2 |
|---|---|---|---|
| 入力100K + 出力10K | $0.225 | $2.25 | $0.038 |
| DeepSeekとの比率 | 6倍 | 59倍 | 1倍 |
GPT-5で$15かかる複雑なタスクがDeepSeekなら約**$0.50**で処理できます。これは単なるコスト優位性を超え、何を自動化することが経済的に成立するかを根本から変えるものです。
Zhipu AI:GLM-5
リリース日: 2026年2月11日
今月最大のオープンソースモデルリリース。地政学的にも最も重要な意味を持つかもしれません。
新機能
GLM-5は7450億パラメータのMoEモデル(アクティブパラメータ440億)で、創作、コード生成、多段階推論、エージェント知能、長文脈処理の5つの中核能力を持っています。
ベンチマーク性能
| ベンチマーク | GLM-5 | 比較 |
|---|---|---|
| SWE-bench Verified | 77.8% | Claude Opus 4.5と同等 |
| AIME 2026 | 92.7% | — |
| GPQA-Diamond | 86.0% | — |
| Humanity’s Last Exam | 50.4% | Claude Opus 4.5を上回る |
| ハルシネーション率 | 34% | 90%(GLM-4.7)から減少 |
Slimeと呼ばれる新しいRL技術によりハルシネーションを90%から34%に削減したことは特に印象的で、Artificial Analysis Omniscience Indexでトップを獲得しています。
地政学的シグナル
GLM-5はMindSporeフレームワークを用いたHuawei Ascendチップで完全に訓練されており、米国製ハードウェアを一切使用していません。輸出規制にもかかわらず、中国の国産コンピューティングスタックがフロンティア品質のモデルを生産できることを証明しています。
ネイティブエージェントモード
GLM-5にはネイティブの「エージェントモード」が搭載されており、プロンプトからプロフェッショナルなオフィス文書(.docx、.pdf、.xlsx)を直接生成できます。Anthropicのcomputer useやOpenAIのCodexとビジネスタスクで直接競合する機能です。
リリース後、Zhipuの株価は香港証券取引所で34%急騰しました。
Moonshot AI:Kimi K2.5とKimi Claw
K2.5リリース: 2026年1月27日 Kimi Claw: 2026年2月15日
Moonshot AIは中国のAI空間で最も包括的なオープンソースエージェントエコシステムを構築しています。
Kimi K2.5
テキスト・画像・動画を理解する1兆パラメータのMoEモデル(アクティブ320億パラメータ)。重要な革新点はAgent Swarm機能で、複雑なタスクを分解・並列化するよう訓練する新しいRL技術**Parallel Agent Reinforcement Learning(PARL)**によって実現されています。
完全オープンソースでHugging Faceから入手可能です。
Kimi Claw
2月15日にリリースされたKimi Clawは、OpenClawフレームワーク上に構築されたクラウドネイティブのブラウザベースAIエージェントプラットフォームです。AnthropicのComuter useへの回答とも言えますが、完全にクラウド上で動作します。
xAI:Grok 4.2 Release Candidate
公開ベータ: 2026年2月17日
Elon MuskのGrok 4.2は、モデル改善に根本的に異なるアプローチを取ります:急速学習です。
新機能
このリストの他のモデルとは異なり、Grok 4.2は公開利用に基づいて毎週改善されるよう設計されています。Muskはこれを「急速に学習できる」モデルと表現し、週次の改善サイクルとリリースノートを伴うとしています。
新機能:
- 4エージェント並列コラボレーション — 特化したAIエージェントが出力を統合して単一の回答を生成
- 写真アップロードによる医療文書分析
- エンジニアリング推論の向上
料金
xAIは積極的な価格戦略を維持しています:
| モデル | 入力(100万トークン) | 出力(100万トークン) |
|---|---|---|
| Grok 4.1 | $0.20 | $0.50 |
| Grok 4.2 RC | TBA(ベータ) | TBA |
現状
Grok 4.2は現在公開ベータ版 — Grokインターフェースで選択可能です。一般リリースは2026年3月を予定しており、公式ベンチマークはベータ終了後に発表されます。
Mistral AI:Large 3とコーディングスタック
Mistral Large 3: 2025年12月2日 Devstral 2: 2025年12月
MistralはヨーロッパのフロンティアAIラボとして自らの規模を超えた競争力を維持し、オープンソースリーダーボードの上位で戦うモデルを提供し続けています。
Mistral Large 3
アクティブパラメータ410億を持つ6750億パラメータのMoEモデル。LMArenaリーダーボードのオープンソース非推論モデルで2位にデビュー — 中国のラボのはるかに大きなモデルに次ぐポジションです。
Mistralの現在のラインナップ:
| モデル | フォーカス | 料金(100万トークンあたり) |
|---|---|---|
| Mistral Large 3 | 汎用フロンティア | 約$2.00 / $6.00 |
| Mistral Medium 3.1 | マルチモーダル(40kコンテキスト) | $2.00 / $5.00 |
| Magistral Medium 1.2 | 推論 | $2.00 / $5.00 |
| Codestral | コード補完 | プレミアティア |
| Devstral 2 | エージェント型コーディング | オープンウェイト |
Devstral Small 2
12月リリースの注目株:大幅に小さいにもかかわらずQwen 3 Coder Flashを超えた240億パラメータのコーディングモデル。大規模GPU不要で自社ホストのコーディングAIを必要とするチームにとって魅力的な選択肢です。
Ministral 3
Mistralの小型モデルファミリー(30億・70億・140億パラメータ)はオープンソースモデル中最高のコストパフォーマンス比を達成 — 同等モデルと同等以上の性能を格段に少ないトークン数で実現しています。
MiniMax:M2.5
M2.5リリース: 2026年
フロンティア競争のダークホース。MiniMaxのM2.5は、競合他社が使用するわずかなアクティブ100億パラメータでベンチマーク最上位のコーディング性能を発揮します。
新機能
MiniMax M2.5はコーディングとエージェント実行に特化して構築され、少ないリソースでより多くを実現することに焦点を当てています:
- Multi-SWE-Bench 1位(スコア51.3)
- SWE-Bench ProでClaude Opus 4.6を超える
- FinSearch・BrowseComp・RISEベンチマークでリーディングスコア
- スループット毎秒100トークン — 「Opusの3倍高速」と表現
- Chain of Thoughtの推論は最大12万8千トークン
効率性の話
際立った統計:MiniMax M2.5は**$100の予算で327.8タスク**を処理 — Opusの10倍以上。入力100万トークンあたり$0.30(キャッシュで$0.06)で、DeepSeekと同じ価格帯でありながらコーディングタスクでプレミアムモデルに匹敵または凌駕します。
| モデル | 入力(100万トークン) | キャッシュ | 速度 |
|---|---|---|---|
| M2.5 | $0.30 | $0.06 | 100 TPS |
| M2.5-highspeed | $0.30 | $0.06 | 高速バリアント |
オープンウェイト
MiniMaxはHuggingFaceでM2.5のウェイトを公開しており、自社ホスト向けにvLLM・SGLang・Transformersをサポートしています。独自の推論インフラを運営するチームにとって最もコスト効率の高い選択肢の一つです。
価格景観
フロンティアモデルのコスト比較(100万トークンあたり):
| プロバイダー | モデル | 入力 | 出力 | コンテキスト |
|---|---|---|---|---|
| xAI | Grok 4.1 | $0.20 | $0.50 | — |
| DeepSeek | V3.2 | $0.27 | $1.10 | 100万+ |
| MiniMax | M2.5 | $0.30 | — | 12万8千 |
| OpenAI | o4-mini | $1.10 | $4.40 | — |
| Gemini 3.1 Pro | 約$1.25 | 約$10.00 | 100万 | |
| OpenAI | GPT-5 | $1.25 | $10.00 | 40万 |
| Mistral AI | Medium 3.1 | $2.00 | $5.00 | 4万 |
| Mistral AI | Large 3 | 約$2.00 | 約$6.00 | 12万8千 |
| OpenAI | o3 | $2.00 | $8.00 | — |
| Anthropic | Sonnet 4.6 | $3.00 | $15.00 | 100万(ベータ) |
| Anthropic | Opus 4.6 | $15.00 | $75.00 | 20万 |
| Zhipu AI | GLM-5 | オープンウェイト | セルフホスト無料 | — |
| Moonshot AI | Kimi K2.5 | オープンウェイト | セルフホスト無料 | — |
| DeepSeek | V4(予定) | オープンウェイト | セルフホスト無料 | 100万+ |
最安のAPI(DeepSeek $0.27/M)とプレミアムモデル(Opus 4.6 $15/M入力)の17倍の価格差は、企業にとって実際のアーキテクチャ上の決断を意味します。もはや「AIは高すぎる」という問いではなく、「どのレベルのAIが自社のユースケースに合っているか」という問いへと変わっています。
主要トレンド
1. オープンソースの躍進
最近の5つのリリース — GLM-5、Kimi K2.5、DeepSeek V4、Mistral Large 3、MiniMax M2.5 — はすべてオープンウェイトモデルです。クローズドソースに追いつくだけでなく、GLM-5はSWE-benchでClaude Opus 4.5と同等であり、Humanity’s Last Examではそれを超えています。Mistral Large 3はオープンソースLMArenaで2位です。オープンとクローズドの品質差は実質的になくなりました。
2. 中国の独立したAIスタック
GLM-5(Huawei Ascend)とDeepSeek V4はいずれも、中国のラボが米国製ハードウェアなしにフロンティアモデルを生産できることを実証しています。輸出規制は中国のAI進歩を遅らせましたが止めることはできず、むしろ国産代替品への投資を加速させた可能性があります。
3. あらゆるもののエージェント化
今月のすべてのリリースにエージェント機能が含まれています:GPT-5.3 Codexは長時間の多段階タスクをこなし、Claude 4.6はコンピューター操作を72.5%で実行し、Grok 4.2は4エージェント並列コラボレーションを行い、GLM-5はネイティブエージェントモードを持ち、KimiはAgent Swarmを備えています。2026年はモデルがチャットボットから働き手へと変わった年です。
4. ミッドレンジの革命
$3/Mのモデルが$15/Mのフラッグシップに匹敵できると証明されたことは画期的です。DeepSeekの$0.27/MがGPT-5の品質の約90%を達成しているという事実と合わせると、プレミアムAPI価格の価値提案は深刻な圧力に直面しています。
5. コンテキストウィンドウの収束
複数のモデルが100万+トークンのコンテキストウィンドウを提供するようになりました:Gemini 3.1 Pro、Claude 4.6(ベータ)、DeepSeek V4、Kimi K2.5。コードベース全体・法律文書・研究コーパスを一度に処理する能力は、もはや差別化要因ではなく前提条件となっています。
ビジネスユーザーへの影響
2026年にAIをビジネスワークフローに組み込む場合の実践的なポイント:
コーディング・開発向け: GPT-5.3 CodexとClaude Sonnet 4.6がリードしています。長時間エージェントタスクにはCodex、多用途なコーディングとコンピューター操作にはSonnetが適しています。
コスト敏感なワークロード向け: DeepSeek V3.2($0.27/Mトークン)は大量処理タスクで最強です。GPU環境があればオープンウェイトモデル(GLM-5、Kimi K2.5)を無料でセルフホストできます。
エンタープライズ推論向け: Gemini 3.1 Proの推論力2倍向上は、Google Cloudユーザーのデフォルト選択肢です。複雑な分析ではClaude Opus 4.6が依然として最高峰です。
迅速な反復向け: Grok 4.2の週次改善モデルは独自で — 特定のユースケースに対して時間をかけて改善するモデルが必要なら注目に値します。
自立性向け: オープンウェイトモデル(GLM-5、Kimi K2.5、DeepSeek V4)はデプロイ・カスタマイズ・データプライバシーの完全なコントロールを提供します。
最終更新
2026年2月20日 — 本記事は新しいフロンティアモデルのリリースに合わせて更新されます。最新情報はブログをフォローしてください。
以前の更新:初回公開(2026年2月20日)