フロンティアAIモデル 2026年2月：GPT-5.3、Claude 4.6、Gem

AI史上最も激しい月

2026年2月は、フロンティアAI競争が本格化した月として記憶されるでしょう。10の主要プロバイダーが積極的にフロンティアモデルをリリースし、言語モデルで可能なことの限界を次々と塗り替えています。

主なタイムライン：

日付	プロバイダー	モデル	ハイライト
12月2日	Mistral AI	Mistral Large 3	675B MoE、LMArenaオープンソース2位
1月27日	Moonshot AI	Kimi K2.5	1T オープンソースMoE（Agent Swarm搭載）
2月5日	OpenAI	GPT-5.3 Codex	初の「自己改善型」エージェント型コーディングモデル
2月11日	Zhipu AI	GLM-5	中国製チップで訓練された745Bオープンソースモデル
2月12日	DeepSeek	V3.2アップデート	コンテキストウィンドウを10倍拡張（100万トークン超）
2月15日	Moonshot AI	Kimi Claw	K2.5搭載のブラウザ型エージェントプラットフォーム
2月17日	Anthropic	Claude Sonnet 4.6	Opus近似の性能を5分の1の価格で
2月17日	xAI	Grok 4.2 RC	毎週改善される「急速学習」モデル
2月17日	DeepSeek	V4（予定）	コーディング支配を目指す1Tパラメータモデル
2月19日	Google	Gemini 3.1 Pro	推論力2倍、ARC-AGI-2スコア77.1%
2026年	MiniMax	M2.5	Multi-SWE-Bench1位、10Bアクティブパラメータ、$0.30/M

これは単なる段階的な改善ではありません。AIモデルの能力・コスト・開発者の多様性における根本的な変革です。

それぞれのリリースを詳しく見ていきましょう。

OpenAI：GPT-5.3 Codex

リリース日： 2026年2月5日

OpenAIのGPT-5.3 Codexは、「コードを書くモデル」から「開発者がコンピューターでできることをほぼすべてこなすモデル」へのパラダイムシフトを体現しています。

新機能

GPT-5.3 Codexは、GPT-5.2-Codexのフロンティアコーディング性能とGPT-5.2の推論・専門知識を組み合わせたモデルです。調査・ツール使用・複雑な多段階実行を伴う長時間タスクをこなす能力を持っています。

主な改善点：

GPT-5.2-Codexより25%高速
タスクあたりの消費トークンが少ない — より少ないリソースでより多くを実現
SWE-Bench ProとTerminal-Benchで最高水準
OSWorldとGDPvalでも優れた成績

サイバーセキュリティへの警告

OpenAIのサイバーセキュリティ準備フレームワークで初めて**「高」**と評価されたモデルです。コーディングと推論において「自動化や大規模利用により実際のサイバー被害を大幅に助長できる」レベルの能力を持つとされます。AIモデルの能力がいかに高まったかを示すマイルストーンです。

利用方法

有料ChatGPTユーザー向けにCodexアプリ、CLI、IDE拡張機能、Webから利用可能です。軽量版のGPT-5.3-Codex-Sparkも同時リリースされました。APIアクセスは近日公開予定です。

料金

モデル	入力（100万トークンあたり）	出力（100万トークンあたり）	キャッシュ入力
GPT-5	$1.25	$10.00	$0.625
GPT-5.3 Codex	TBA（API準備中）	TBA	TBA
o3	$2.00	$8.00	—
o4-mini	$1.10	$4.40	$0.55

Anthropic：Claude Sonnet 4.6

リリース日： 2026年2月17日

Claude Sonnet 4.6は、1年前には誰も可能だと思わなかった問いへのAnthropicの回答です：ミッドレンジモデルはフラッグシップモデルに匹敵できるのか？

新機能

これは単なるマイナーバージョンアップではありません。Sonnet 4.6はコーディング・コンピューター操作・長文脈推論・エージェント計画・知識作業・デザインにわたる完全なアップグレードです。100万トークンのコンテキストウィンドウ（ベータ版）を搭載しています。

ベンチマーク結果

ベンチマーク	Sonnet 4.6	Opus 4.6	差
SWE-bench Verified	79.6%	—	—
OSWorld（コンピューター操作）	72.5%	72.7%	0.2%
Office Productivity	1633 Elo	1559 Elo	Sonnetが上回る
Financial Analysis	63.3%	62.0%	Sonnetが上回る

コンピューター操作のスコアは注目に値します：OSWorld-Verifiedで**72.5%**を達成。わずか16ヶ月前にこの機能が初めてリリースされた時の14.9%から大幅に向上しています。

ユーザーの評価

Anthropicによれば、ユーザーの70%がSonnet 4.5よりSonnet 4.6を好み、59%が旧Opus 4.5よりも好むとのことです。100万トークンあたり$3/$15という価格（Opus 4.6の$15/$75の5分の1）は、エンタープライズ用途において現在フロンティアAI最高のコストパフォーマンスを提供します。

Claude Opus 4.6

フラッグシップのOpus 4.6はAnthropicの能力の上限として、最も高度なエージェント・推論タスクを担い続けます。しかしSonnetとの差はわずかで、ほとんどのユースケースにはミッドレンジモデルが実用的な選択となっています。

Google：Gemini 3.1 Pro

リリース日： 2026年2月19日

Googleはgemini 3.1 Proをニッチなアップグレードではなく、複雑なタスクに向けたより堅牢なデフォルトモデルとして位置づけています。

新機能

注目の数値：ARC-AGI-2スコア77.1% — Gemini 3 Proの2倍以上の推論性能です。複数のソースからデータを統合したり、複雑で相互依存するトピックを説明したりするような、高度な多段階推論が必要なタスク向けに特別に設計されています。

利用方法

Googleエコシステム全体に段階的展開：

Geminiアプリ（ProとUltraプランユーザーの上限引き上げ）
NotebookLM（ProとUltraユーザー）
Gemini API（AI Studio、Vertex AI、Gemini CLI、Android Studio経由）
価格はGemini 3 Proと変わらず（標準で100万トークンあたり約$1.25/$10）

重要性

Googleは価格を据え置きながら推論性能を劇的に向上させました。すでにGoogle Cloudを利用している企業にとって、3.1 Proは予算への影響なしに直接アップグレードできる選択肢です。

DeepSeek：V4と10倍コンテキスト拡張

V3.2アップデート： 2026年2月12日 V4予定： 2026年2月中旬

DeepSeekは真のフロンティア能力を維持しながら、AI価格帯において最も破壊的な存在であり続けています。

V3.2：コンテキスト10倍拡張

2月上旬、DeepSeekはV3.2のコンテキストウィンドウを12万8千トークンから100万トークン超に拡張しました。100万トークンあたり$0.27/$1.10という価格で、フロンティアクラスのモデルを使って大規模ドキュメントを処理する最安の方法になりました。

V4：次のフロンティア

DeepSeek V4には以下が含まれる見込みです：

1兆パラメータ（MoEアーキテクチャ）
ネイティブで100万+トークンコンテキスト
3つのアーキテクチャ上の革新：Engram conditional memory、Manifold-Constrained Hyper-Connections、DeepSeek Sparse Attention
目標：SWE-benchで80%以上 — コーディングベンチマーク最高水準への到達
パーミッシブライセンスのオープンウェイトで公開予定

コストの話

DeepSeekと西洋プロバイダーの価格差は依然として圧倒的です：

タスクコスト例	GPT-5	Claude Opus 4.6	DeepSeek V3.2
入力100K + 出力10K	$0.225	$2.25	$0.038
DeepSeekとの比率	6倍	59倍	1倍

GPT-5で$15かかる複雑なタスクがDeepSeekなら約**$0.50**で処理できます。これは単なるコスト優位性を超え、何を自動化することが経済的に成立するかを根本から変えるものです。

Zhipu AI：GLM-5

リリース日： 2026年2月11日

今月最大のオープンソースモデルリリース。地政学的にも最も重要な意味を持つかもしれません。

新機能

GLM-5は7450億パラメータのMoEモデル（アクティブパラメータ440億）で、創作、コード生成、多段階推論、エージェント知能、長文脈処理の5つの中核能力を持っています。

ベンチマーク性能

ベンチマーク	GLM-5	比較
SWE-bench Verified	77.8%	Claude Opus 4.5と同等
AIME 2026	92.7%	—
GPQA-Diamond	86.0%	—
Humanity's Last Exam	50.4%	Claude Opus 4.5を上回る
ハルシネーション率	34%	90%（GLM-4.7）から減少

Slimeと呼ばれる新しいRL技術によりハルシネーションを90%から34%に削減したことは特に印象的で、Artificial Analysis Omniscience Indexでトップを獲得しています。

地政学的シグナル

GLM-5はMindSporeフレームワークを用いたHuawei Ascendチップで完全に訓練されており、米国製ハードウェアを一切使用していません。輸出規制にもかかわらず、中国の国産コンピューティングスタックがフロンティア品質のモデルを生産できることを証明しています。

ネイティブエージェントモード

GLM-5にはネイティブの「エージェントモード」が搭載されており、プロンプトからプロフェッショナルなオフィス文書（.docx、.pdf、.xlsx）を直接生成できます。Anthropicのcomputer useやOpenAIのCodexとビジネスタスクで直接競合する機能です。

リリース後、Zhipuの株価は香港証券取引所で34%急騰しました。

Moonshot AI：Kimi K2.5とKimi Claw

K2.5リリース： 2026年1月27日 Kimi Claw： 2026年2月15日

Moonshot AIは中国のAI空間で最も包括的なオープンソースエージェントエコシステムを構築しています。

Kimi K2.5

テキスト・画像・動画を理解する1兆パラメータのMoEモデル（アクティブ320億パラメータ）。重要な革新点はAgent Swarm機能で、複雑なタスクを分解・並列化するよう訓練する新しいRL技術**Parallel Agent Reinforcement Learning（PARL）**によって実現されています。

完全オープンソースでHugging Faceから入手可能です。

Kimi Claw

2月15日にリリースされたKimi Clawは、OpenClawフレームワーク上に構築されたクラウドネイティブのブラウザベースAIエージェントプラットフォームです。AnthropicのComuter useへの回答とも言えますが、完全にクラウド上で動作します。

xAI：Grok 4.2 Release Candidate

公開ベータ： 2026年2月17日

Elon MuskのGrok 4.2は、モデル改善に根本的に異なるアプローチを取ります：急速学習です。

新機能

このリストの他のモデルとは異なり、Grok 4.2は公開利用に基づいて毎週改善されるよう設計されています。Muskはこれを「急速に学習できる」モデルと表現し、週次の改善サイクルとリリースノートを伴うとしています。

新機能：

4エージェント並列コラボレーション — 特化したAIエージェントが出力を統合して単一の回答を生成
写真アップロードによる医療文書分析
エンジニアリング推論の向上

料金

xAIは積極的な価格戦略を維持しています：

モデル	入力（100万トークン）	出力（100万トークン）
Grok 4.1	$0.20	$0.50
Grok 4.2 RC	TBA（ベータ）	TBA

現状

Grok 4.2は現在公開ベータ版 — Grokインターフェースで選択可能です。一般リリースは2026年3月を予定しており、公式ベンチマークはベータ終了後に発表されます。

Mistral AI：Large 3とコーディングスタック

Mistral Large 3： 2025年12月2日 Devstral 2： 2025年12月

MistralはヨーロッパのフロンティアAIラボとして自らの規模を超えた競争力を維持し、オープンソースリーダーボードの上位で戦うモデルを提供し続けています。

Mistral Large 3

アクティブパラメータ410億を持つ6750億パラメータのMoEモデル。LMArenaリーダーボードのオープンソース非推論モデルで2位にデビュー — 中国のラボのはるかに大きなモデルに次ぐポジションです。

Mistralの現在のラインナップ：

モデル	フォーカス	料金（100万トークンあたり）
Mistral Large 3	汎用フロンティア	約$2.00 / $6.00
Mistral Medium 3.1	マルチモーダル（40kコンテキスト）	$2.00 / $5.00
Magistral Medium 1.2	推論	$2.00 / $5.00
Codestral	コード補完	プレミアティア
Devstral 2	エージェント型コーディング	オープンウェイト

Devstral Small 2

12月リリースの注目株：大幅に小さいにもかかわらずQwen 3 Coder Flashを超えた240億パラメータのコーディングモデル。大規模GPU不要で自社ホストのコーディングAIを必要とするチームにとって魅力的な選択肢です。

Ministral 3

Mistralの小型モデルファミリー（30億・70億・140億パラメータ）はオープンソースモデル中最高のコストパフォーマンス比を達成 — 同等モデルと同等以上の性能を格段に少ないトークン数で実現しています。

MiniMax：M2.5

M2.5リリース： 2026年

フロンティア競争のダークホース。MiniMaxのM2.5は、競合他社が使用するわずかなアクティブ100億パラメータでベンチマーク最上位のコーディング性能を発揮します。

新機能

MiniMax M2.5はコーディングとエージェント実行に特化して構築され、少ないリソースでより多くを実現することに焦点を当てています：

Multi-SWE-Bench 1位（スコア51.3）
SWE-Bench ProでClaude Opus 4.6を超える
FinSearch・BrowseComp・RISEベンチマークでリーディングスコア
スループット毎秒100トークン — 「Opusの3倍高速」と表現
Chain of Thoughtの推論は最大12万8千トークン

効率性の話

際立った統計：MiniMax M2.5は**$100の予算で327.8タスク**を処理 — Opusの10倍以上。入力100万トークンあたり$0.30（キャッシュで$0.06）で、DeepSeekと同じ価格帯でありながらコーディングタスクでプレミアムモデルに匹敵または凌駕します。

モデル	入力（100万トークン）	キャッシュ	速度
M2.5	$0.30	$0.06	100 TPS
M2.5-highspeed	$0.30	$0.06	高速バリアント

オープンウェイト

MiniMaxはHuggingFaceでM2.5のウェイトを公開しており、自社ホスト向けにvLLM・SGLang・Transformersをサポートしています。独自の推論インフラを運営するチームにとって最もコスト効率の高い選択肢の一つです。

価格景観

フロンティアモデルのコスト比較（100万トークンあたり）：

プロバイダー	モデル	入力	出力	コンテキスト
xAI	Grok 4.1	$0.20	$0.50	—
DeepSeek	V3.2	$0.27	$1.10	100万+
MiniMax	M2.5	$0.30	—	12万8千
OpenAI	o4-mini	$1.10	$4.40	—
Google	Gemini 3.1 Pro	約$1.25	約$10.00	100万
OpenAI	GPT-5	$1.25	$10.00	40万
Mistral AI	Medium 3.1	$2.00	$5.00	4万
Mistral AI	Large 3	約$2.00	約$6.00	12万8千
OpenAI	o3	$2.00	$8.00	—
Anthropic	Sonnet 4.6	$3.00	$15.00	100万（ベータ）
Anthropic	Opus 4.6	$15.00	$75.00	20万
Zhipu AI	GLM-5	オープンウェイト	セルフホスト無料	—
Moonshot AI	Kimi K2.5	オープンウェイト	セルフホスト無料	—
DeepSeek	V4（予定）	オープンウェイト	セルフホスト無料	100万+

最安のAPI（DeepSeek $0.27/M）とプレミアムモデル（Opus 4.6 $15/M入力）の17倍の価格差は、企業にとって実際のアーキテクチャ上の決断を意味します。もはや「AIは高すぎる」という問いではなく、「どのレベルのAIが自社のユースケースに合っているか」という問いへと変わっています。

主要トレンド

1. オープンソースの躍進

最近の5つのリリース — GLM-5、Kimi K2.5、DeepSeek V4、Mistral Large 3、MiniMax M2.5 — はすべてオープンウェイトモデルです。クローズドソースに追いつくだけでなく、GLM-5はSWE-benchでClaude Opus 4.5と同等であり、Humanity's Last Examではそれを超えています。Mistral Large 3はオープンソースLMArenaで2位です。オープンとクローズドの品質差は実質的になくなりました。

2. 中国の独立したAIスタック

GLM-5（Huawei Ascend）とDeepSeek V4はいずれも、中国のラボが米国製ハードウェアなしにフロンティアモデルを生産できることを実証しています。輸出規制は中国のAI進歩を遅らせましたが止めることはできず、むしろ国産代替品への投資を加速させた可能性があります。

3. あらゆるもののエージェント化

今月のすべてのリリースにエージェント機能が含まれています：GPT-5.3 Codexは長時間の多段階タスクをこなし、Claude 4.6はコンピューター操作を72.5%で実行し、Grok 4.2は4エージェント並列コラボレーションを行い、GLM-5はネイティブエージェントモードを持ち、KimiはAgent Swarmを備えています。2026年はモデルがチャットボットから働き手へと変わった年です。

4. ミッドレンジの革命

$3/Mのモデルが$15/Mのフラッグシップに匹敵できると証明されたことは画期的です。DeepSeekの$0.27/MがGPT-5の品質の約90%を達成しているという事実と合わせると、プレミアムAPI価格の価値提案は深刻な圧力に直面しています。

5. コンテキストウィンドウの収束

複数のモデルが100万+トークンのコンテキストウィンドウを提供するようになりました：Gemini 3.1 Pro、Claude 4.6（ベータ）、DeepSeek V4、Kimi K2.5。コードベース全体・法律文書・研究コーパスを一度に処理する能力は、もはや差別化要因ではなく前提条件となっています。

ビジネスユーザーへの影響

2026年にAIをビジネスワークフローに組み込む場合の実践的なポイント：

コーディング・開発向け： GPT-5.3 CodexとClaude Sonnet 4.6がリードしています。長時間エージェントタスクにはCodex、多用途なコーディングとコンピューター操作にはSonnetが適しています。

コスト敏感なワークロード向け： DeepSeek V3.2（$0.27/Mトークン）は大量処理タスクで最強です。GPU環境があればオープンウェイトモデル（GLM-5、Kimi K2.5）を無料でセルフホストできます。

エンタープライズ推論向け： Gemini 3.1 Proの推論力2倍向上は、Google Cloudユーザーのデフォルト選択肢です。複雑な分析ではClaude Opus 4.6が依然として最高峰です。

迅速な反復向け： Grok 4.2の週次改善モデルは独自で — 特定のユースケースに対して時間をかけて改善するモデルが必要なら注目に値します。

自立性向け： オープンウェイトモデル（GLM-5、Kimi K2.5、DeepSeek V4）はデプロイ・カスタマイズ・データプライバシーの完全なコントロールを提供します。

最終更新

2026年2月20日 — 本記事は新しいフロンティアモデルのリリースに合わせて更新されます。最新情報はブログをフォローしてください。

以前の更新：初回公開（2026年2月20日）

フロンティアAIモデル：2026年2月の主要リリース総まとめ

AI史上最も激しい月

OpenAI：GPT-5.3 Codex

新機能

サイバーセキュリティへの警告

利用方法

料金

Anthropic：Claude Sonnet 4.6

新機能

ベンチマーク結果

ユーザーの評価

Claude Opus 4.6

Google：Gemini 3.1 Pro

新機能

利用方法

重要性

DeepSeek：V4と10倍コンテキスト拡張

V3.2：コンテキスト10倍拡張

V4：次のフロンティア

コストの話

Zhipu AI：GLM-5

新機能

ベンチマーク性能

地政学的シグナル

ネイティブエージェントモード

Moonshot AI：Kimi K2.5とKimi Claw

Kimi K2.5

Kimi Claw

xAI：Grok 4.2 Release Candidate

新機能

料金

現状

Mistral AI：Large 3とコーディングスタック

Mistral Large 3

Devstral Small 2

Ministral 3

MiniMax：M2.5

新機能

効率性の話

オープンウェイト

価格景観

主要トレンド

1. オープンソースの躍進

2. 中国の独立したAIスタック

3. あらゆるもののエージェント化

4. ミッドレンジの革命

5. コンテキストウィンドウの収束

ビジネスユーザーへの影響

最終更新

Turn the best models into shipped work