フロンティアAIモデル:2026年2月の主要リリース総まとめ
Jozo· 14 min read· 2026/02/20
AIモデルGPT-5ClaudeGeminiDeepSeekGrokGLM-5KimiMistralMiniMax2026フロンティアAI

フロンティアAIモデル:2026年2月の主要リリース総まとめ

AI史上最も激しい月

2026年2月は、フロンティアAI競争が本格化した月として記憶されるでしょう。10の主要プロバイダーが積極的にフロンティアモデルをリリースし、言語モデルで可能なことの限界を次々と塗り替えています。

主なタイムライン:

日付プロバイダーモデルハイライト
12月2日Mistral AIMistral Large 3675B MoE、LMArenaオープンソース2位
1月27日Moonshot AIKimi K2.51T オープンソースMoE(Agent Swarm搭載)
2月5日OpenAIGPT-5.3 Codex初の「自己改善型」エージェント型コーディングモデル
2月11日Zhipu AIGLM-5中国製チップで訓練された745Bオープンソースモデル
2月12日DeepSeekV3.2アップデートコンテキストウィンドウを10倍拡張(100万トークン超)
2月15日Moonshot AIKimi ClawK2.5搭載のブラウザ型エージェントプラットフォーム
2月17日AnthropicClaude Sonnet 4.6Opus近似の性能を5分の1の価格で
2月17日xAIGrok 4.2 RC毎週改善される「急速学習」モデル
2月17日DeepSeekV4(予定)コーディング支配を目指す1Tパラメータモデル
2月19日GoogleGemini 3.1 Pro推論力2倍、ARC-AGI-2スコア77.1%
2026年MiniMaxM2.5Multi-SWE-Bench1位、10Bアクティブパラメータ、$0.30/M

これは単なる段階的な改善ではありません。AIモデルの能力・コスト・開発者の多様性における根本的な変革です。

それぞれのリリースを詳しく見ていきましょう。


OpenAI:GPT-5.3 Codex

リリース日: 2026年2月5日

OpenAIのGPT-5.3 Codexは、「コードを書くモデル」から「開発者がコンピューターでできることをほぼすべてこなすモデル」へのパラダイムシフトを体現しています。

新機能

GPT-5.3 Codexは、GPT-5.2-Codexのフロンティアコーディング性能とGPT-5.2の推論・専門知識を組み合わせたモデルです。調査・ツール使用・複雑な多段階実行を伴う長時間タスクをこなす能力を持っています。

主な改善点:

  • GPT-5.2-Codexより25%高速
  • タスクあたりの消費トークンが少ない — より少ないリソースでより多くを実現
  • SWE-Bench ProTerminal-Benchで最高水準
  • OSWorldGDPvalでも優れた成績

サイバーセキュリティへの警告

OpenAIのサイバーセキュリティ準備フレームワークで初めて**「高」**と評価されたモデルです。コーディングと推論において「自動化や大規模利用により実際のサイバー被害を大幅に助長できる」レベルの能力を持つとされます。AIモデルの能力がいかに高まったかを示すマイルストーンです。

利用方法

有料ChatGPTユーザー向けにCodexアプリ、CLI、IDE拡張機能、Webから利用可能です。軽量版のGPT-5.3-Codex-Sparkも同時リリースされました。APIアクセスは近日公開予定です。

料金

モデル入力(100万トークンあたり)出力(100万トークンあたり)キャッシュ入力
GPT-5$1.25$10.00$0.625
GPT-5.3 CodexTBA(API準備中)TBATBA
o3$2.00$8.00
o4-mini$1.10$4.40$0.55

Anthropic:Claude Sonnet 4.6

リリース日: 2026年2月17日

Claude Sonnet 4.6は、1年前には誰も可能だと思わなかった問いへのAnthropicの回答です:ミッドレンジモデルはフラッグシップモデルに匹敵できるのか?

新機能

これは単なるマイナーバージョンアップではありません。Sonnet 4.6はコーディング・コンピューター操作・長文脈推論・エージェント計画・知識作業・デザインにわたる完全なアップグレードです。100万トークンのコンテキストウィンドウ(ベータ版)を搭載しています。

ベンチマーク結果

ベンチマークSonnet 4.6Opus 4.6
SWE-bench Verified79.6%
OSWorld(コンピューター操作)72.5%72.7%0.2%
Office Productivity1633 Elo1559 EloSonnetが上回る
Financial Analysis63.3%62.0%Sonnetが上回る

コンピューター操作のスコアは注目に値します:OSWorld-Verifiedで**72.5%**を達成。わずか16ヶ月前にこの機能が初めてリリースされた時の14.9%から大幅に向上しています。

ユーザーの評価

Anthropicによれば、ユーザーの70%がSonnet 4.5よりSonnet 4.6を好み59%が旧Opus 4.5よりも好むとのことです。100万トークンあたり$3/$15という価格(Opus 4.6の$15/$75の5分の1)は、エンタープライズ用途において現在フロンティアAI最高のコストパフォーマンスを提供します。

Claude Opus 4.6

フラッグシップのOpus 4.6はAnthropicの能力の上限として、最も高度なエージェント・推論タスクを担い続けます。しかしSonnetとの差はわずかで、ほとんどのユースケースにはミッドレンジモデルが実用的な選択となっています。


Google:Gemini 3.1 Pro

リリース日: 2026年2月19日

Googleはgemini 3.1 Proをニッチなアップグレードではなく、複雑なタスクに向けたより堅牢なデフォルトモデルとして位置づけています。

新機能

注目の数値:ARC-AGI-2スコア77.1% — Gemini 3 Proの2倍以上の推論性能です。複数のソースからデータを統合したり、複雑で相互依存するトピックを説明したりするような、高度な多段階推論が必要なタスク向けに特別に設計されています。

利用方法

Googleエコシステム全体に段階的展開:

  • Geminiアプリ(ProとUltraプランユーザーの上限引き上げ)
  • NotebookLM(ProとUltraユーザー)
  • Gemini API(AI Studio、Vertex AI、Gemini CLI、Android Studio経由)
  • 価格はGemini 3 Proと変わらず(標準で100万トークンあたり約$1.25/$10)

重要性

Googleは価格を据え置きながら推論性能を劇的に向上させました。すでにGoogle Cloudを利用している企業にとって、3.1 Proは予算への影響なしに直接アップグレードできる選択肢です。


DeepSeek:V4と10倍コンテキスト拡張

V3.2アップデート: 2026年2月12日 V4予定: 2026年2月中旬

DeepSeekは真のフロンティア能力を維持しながら、AI価格帯において最も破壊的な存在であり続けています。

V3.2:コンテキスト10倍拡張

2月上旬、DeepSeekはV3.2のコンテキストウィンドウを12万8千トークンから100万トークン超に拡張しました。100万トークンあたり$0.27/$1.10という価格で、フロンティアクラスのモデルを使って大規模ドキュメントを処理する最安の方法になりました。

V4:次のフロンティア

DeepSeek V4には以下が含まれる見込みです:

  • 1兆パラメータ(MoEアーキテクチャ)
  • ネイティブで100万+トークンコンテキスト
  • 3つのアーキテクチャ上の革新:Engram conditional memoryManifold-Constrained Hyper-ConnectionsDeepSeek Sparse Attention
  • 目標:SWE-benchで80%以上 — コーディングベンチマーク最高水準への到達
  • パーミッシブライセンスのオープンウェイトで公開予定

コストの話

DeepSeekと西洋プロバイダーの価格差は依然として圧倒的です:

タスクコスト例GPT-5Claude Opus 4.6DeepSeek V3.2
入力100K + 出力10K$0.225$2.25$0.038
DeepSeekとの比率6倍59倍1倍

GPT-5で$15かかる複雑なタスクがDeepSeekなら約**$0.50**で処理できます。これは単なるコスト優位性を超え、何を自動化することが経済的に成立するかを根本から変えるものです。


Zhipu AI:GLM-5

リリース日: 2026年2月11日

今月最大のオープンソースモデルリリース。地政学的にも最も重要な意味を持つかもしれません。

新機能

GLM-5は7450億パラメータのMoEモデル(アクティブパラメータ440億)で、創作、コード生成、多段階推論、エージェント知能、長文脈処理の5つの中核能力を持っています。

ベンチマーク性能

ベンチマークGLM-5比較
SWE-bench Verified77.8%Claude Opus 4.5と同等
AIME 202692.7%
GPQA-Diamond86.0%
Humanity's Last Exam50.4%Claude Opus 4.5を上回る
ハルシネーション率34%90%(GLM-4.7)から減少

Slimeと呼ばれる新しいRL技術によりハルシネーションを90%から34%に削減したことは特に印象的で、Artificial Analysis Omniscience Indexでトップを獲得しています。

地政学的シグナル

GLM-5はMindSporeフレームワークを用いたHuawei Ascendチップで完全に訓練されており、米国製ハードウェアを一切使用していません。輸出規制にもかかわらず、中国の国産コンピューティングスタックがフロンティア品質のモデルを生産できることを証明しています。

ネイティブエージェントモード

GLM-5にはネイティブの「エージェントモード」が搭載されており、プロンプトからプロフェッショナルなオフィス文書(.docx.pdf.xlsx)を直接生成できます。Anthropicのcomputer useやOpenAIのCodexとビジネスタスクで直接競合する機能です。

リリース後、Zhipuの株価は香港証券取引所で34%急騰しました。


Moonshot AI:Kimi K2.5とKimi Claw

K2.5リリース: 2026年1月27日 Kimi Claw: 2026年2月15日

Moonshot AIは中国のAI空間で最も包括的なオープンソースエージェントエコシステムを構築しています。

Kimi K2.5

テキスト・画像・動画を理解する1兆パラメータのMoEモデル(アクティブ320億パラメータ)。重要な革新点はAgent Swarm機能で、複雑なタスクを分解・並列化するよう訓練する新しいRL技術**Parallel Agent Reinforcement Learning(PARL)**によって実現されています。

完全オープンソースでHugging Faceから入手可能です。

Kimi Claw

2月15日にリリースされたKimi Clawは、OpenClawフレームワーク上に構築されたクラウドネイティブのブラウザベースAIエージェントプラットフォームです。AnthropicのComuter useへの回答とも言えますが、完全にクラウド上で動作します。


xAI:Grok 4.2 Release Candidate

公開ベータ: 2026年2月17日

Elon MuskのGrok 4.2は、モデル改善に根本的に異なるアプローチを取ります:急速学習です。

新機能

このリストの他のモデルとは異なり、Grok 4.2は公開利用に基づいて毎週改善されるよう設計されています。Muskはこれを「急速に学習できる」モデルと表現し、週次の改善サイクルとリリースノートを伴うとしています。

新機能:

  • 4エージェント並列コラボレーション — 特化したAIエージェントが出力を統合して単一の回答を生成
  • 写真アップロードによる医療文書分析
  • エンジニアリング推論の向上

料金

xAIは積極的な価格戦略を維持しています:

モデル入力(100万トークン)出力(100万トークン)
Grok 4.1$0.20$0.50
Grok 4.2 RCTBA(ベータ)TBA

現状

Grok 4.2は現在公開ベータ版 — Grokインターフェースで選択可能です。一般リリースは2026年3月を予定しており、公式ベンチマークはベータ終了後に発表されます。


Mistral AI:Large 3とコーディングスタック

Mistral Large 3: 2025年12月2日 Devstral 2: 2025年12月

MistralはヨーロッパのフロンティアAIラボとして自らの規模を超えた競争力を維持し、オープンソースリーダーボードの上位で戦うモデルを提供し続けています。

Mistral Large 3

アクティブパラメータ410億を持つ6750億パラメータのMoEモデル。LMArenaリーダーボードのオープンソース非推論モデルで2位にデビュー — 中国のラボのはるかに大きなモデルに次ぐポジションです。

Mistralの現在のラインナップ:

モデルフォーカス料金(100万トークンあたり)
Mistral Large 3汎用フロンティア約$2.00 / $6.00
Mistral Medium 3.1マルチモーダル(40kコンテキスト)$2.00 / $5.00
Magistral Medium 1.2推論$2.00 / $5.00
Codestralコード補完プレミアティア
Devstral 2エージェント型コーディングオープンウェイト

Devstral Small 2

12月リリースの注目株:大幅に小さいにもかかわらずQwen 3 Coder Flashを超えた240億パラメータのコーディングモデル。大規模GPU不要で自社ホストのコーディングAIを必要とするチームにとって魅力的な選択肢です。

Ministral 3

Mistralの小型モデルファミリー(30億・70億・140億パラメータ)はオープンソースモデル中最高のコストパフォーマンス比を達成 — 同等モデルと同等以上の性能を格段に少ないトークン数で実現しています。


MiniMax:M2.5

M2.5リリース: 2026年

フロンティア競争のダークホース。MiniMaxのM2.5は、競合他社が使用するわずかなアクティブ100億パラメータでベンチマーク最上位のコーディング性能を発揮します。

新機能

MiniMax M2.5はコーディングとエージェント実行に特化して構築され、少ないリソースでより多くを実現することに焦点を当てています:

  • Multi-SWE-Bench 1位(スコア51.3)
  • SWE-Bench ProでClaude Opus 4.6を超える
  • FinSearchBrowseCompRISEベンチマークでリーディングスコア
  • スループット毎秒100トークン — 「Opusの3倍高速」と表現
  • Chain of Thoughtの推論は最大12万8千トークン

効率性の話

際立った統計:MiniMax M2.5は**$100の予算で327.8タスク**を処理 — Opusの10倍以上。入力100万トークンあたり$0.30(キャッシュで$0.06)で、DeepSeekと同じ価格帯でありながらコーディングタスクでプレミアムモデルに匹敵または凌駕します。

モデル入力(100万トークン)キャッシュ速度
M2.5$0.30$0.06100 TPS
M2.5-highspeed$0.30$0.06高速バリアント

オープンウェイト

MiniMaxはHuggingFaceでM2.5のウェイトを公開しており、自社ホスト向けにvLLM・SGLang・Transformersをサポートしています。独自の推論インフラを運営するチームにとって最もコスト効率の高い選択肢の一つです。


価格景観

フロンティアモデルのコスト比較(100万トークンあたり):

プロバイダーモデル入力出力コンテキスト
xAIGrok 4.1$0.20$0.50
DeepSeekV3.2$0.27$1.10100万+
MiniMaxM2.5$0.3012万8千
OpenAIo4-mini$1.10$4.40
GoogleGemini 3.1 Pro約$1.25約$10.00100万
OpenAIGPT-5$1.25$10.0040万
Mistral AIMedium 3.1$2.00$5.004万
Mistral AILarge 3約$2.00約$6.0012万8千
OpenAIo3$2.00$8.00
AnthropicSonnet 4.6$3.00$15.00100万(ベータ)
AnthropicOpus 4.6$15.00$75.0020万
Zhipu AIGLM-5オープンウェイトセルフホスト無料
Moonshot AIKimi K2.5オープンウェイトセルフホスト無料
DeepSeekV4(予定)オープンウェイトセルフホスト無料100万+

最安のAPI(DeepSeek $0.27/M)とプレミアムモデル(Opus 4.6 $15/M入力)の17倍の価格差は、企業にとって実際のアーキテクチャ上の決断を意味します。もはや「AIは高すぎる」という問いではなく、「どのレベルのAIが自社のユースケースに合っているか」という問いへと変わっています。


主要トレンド

1. オープンソースの躍進

最近の5つのリリース — GLM-5、Kimi K2.5、DeepSeek V4、Mistral Large 3、MiniMax M2.5 — はすべてオープンウェイトモデルです。クローズドソースに追いつくだけでなく、GLM-5はSWE-benchでClaude Opus 4.5と同等であり、Humanity's Last Examではそれを超えています。Mistral Large 3はオープンソースLMArenaで2位です。オープンとクローズドの品質差は実質的になくなりました。

2. 中国の独立したAIスタック

GLM-5(Huawei Ascend)とDeepSeek V4はいずれも、中国のラボが米国製ハードウェアなしにフロンティアモデルを生産できることを実証しています。輸出規制は中国のAI進歩を遅らせましたが止めることはできず、むしろ国産代替品への投資を加速させた可能性があります。

3. あらゆるもののエージェント化

今月のすべてのリリースにエージェント機能が含まれています:GPT-5.3 Codexは長時間の多段階タスクをこなし、Claude 4.6はコンピューター操作を72.5%で実行し、Grok 4.2は4エージェント並列コラボレーションを行い、GLM-5はネイティブエージェントモードを持ち、KimiはAgent Swarmを備えています。2026年はモデルがチャットボットから働き手へと変わった年です。

4. ミッドレンジの革命

$3/Mのモデルが$15/Mのフラッグシップに匹敵できると証明されたことは画期的です。DeepSeekの$0.27/MがGPT-5の品質の約90%を達成しているという事実と合わせると、プレミアムAPI価格の価値提案は深刻な圧力に直面しています。

5. コンテキストウィンドウの収束

複数のモデルが100万+トークンのコンテキストウィンドウを提供するようになりました:Gemini 3.1 Pro、Claude 4.6(ベータ)、DeepSeek V4、Kimi K2.5。コードベース全体・法律文書・研究コーパスを一度に処理する能力は、もはや差別化要因ではなく前提条件となっています。


ビジネスユーザーへの影響

2026年にAIをビジネスワークフローに組み込む場合の実践的なポイント:

コーディング・開発向け: GPT-5.3 CodexとClaude Sonnet 4.6がリードしています。長時間エージェントタスクにはCodex、多用途なコーディングとコンピューター操作にはSonnetが適しています。

コスト敏感なワークロード向け: DeepSeek V3.2($0.27/Mトークン)は大量処理タスクで最強です。GPU環境があればオープンウェイトモデル(GLM-5、Kimi K2.5)を無料でセルフホストできます。

エンタープライズ推論向け: Gemini 3.1 Proの推論力2倍向上は、Google Cloudユーザーのデフォルト選択肢です。複雑な分析ではClaude Opus 4.6が依然として最高峰です。

迅速な反復向け: Grok 4.2の週次改善モデルは独自で — 特定のユースケースに対して時間をかけて改善するモデルが必要なら注目に値します。

自立性向け: オープンウェイトモデル(GLM-5、Kimi K2.5、DeepSeek V4)はデプロイ・カスタマイズ・データプライバシーの完全なコントロールを提供します。


最終更新

2026年2月20日 — 本記事は新しいフロンティアモデルのリリースに合わせて更新されます。最新情報はブログをフォローしてください。

以前の更新:初回公開(2026年2月20日)

Turn the best models into shipped work

Teamday installs AI employees with the right model, harness, MCP servers, workspace files, review path, and recurring mission. Stop comparing tools in isolation and put them to work.