AI历史上最密集的一个月
2026年2月将被铭记为前沿AI竞赛全速运转的月份。十大主要提供商正积极发布前沿模型——每家都在突破语言模型的可能边界。
时间线如下:
| 日期 | 提供商 | 模型 | 亮点 |
|---|---|---|---|
| 12月2日 | Mistral AI | Mistral Large 3 | 675B MoE,LMArena开源排名第2 |
| 1月27日 | Moonshot AI | Kimi K2.5 | 1T开源MoE,搭载Agent Swarm |
| 2月5日 | OpenAI | GPT-5.3 Codex | 首个”自我改进”的智能体编程模型 |
| 2月11日 | 智谱AI | GLM-5 | 在国产芯片上训练的745B开源模型 |
| 2月12日 | DeepSeek | V3.2更新 | 上下文窗口扩展10倍至超百万token |
| 2月15日 | Moonshot AI | Kimi Claw | 基于K2.5的浏览器智能体平台 |
| 2月17日 | Anthropic | Claude Sonnet 4.6 | 接近Opus性能,仅需1/5价格 |
| 2月17日 | xAI | Grok 4.2 RC | 每周持续改进的”快速学习”模型 |
| 2月17日 | DeepSeek | V4(预计) | 1T参数模型,剑指编程领域霸主 |
| 2月19日 | Gemini 3.1 Pro | 推理能力提升2倍,ARC-AGI-2得分77.1% | |
| 2026年 | MiniMax | M2.5 | Multi-SWE-Bench第1名,100亿活跃参数,$0.30/M |
这不仅仅是渐进式改进,而是AI模型能力、成本和开发者格局的根本性转变。
让我们逐一解析每个发布。
OpenAI:GPT-5.3 Codex
发布时间: 2026年2月5日
OpenAI的GPT-5.3 Codex代表了一次范式转变:从”能写代码的模型”到”几乎能做开发者在电脑上能做一切事情的模型”。
新特性
GPT-5.3 Codex将GPT-5.2-Codex的前沿编程性能与GPT-5.2的推理和专业知识相结合,打造出一个能够承担涉及研究、工具使用和复杂多步骤执行的长时间任务的模型。
核心改进:
- 比GPT-5.2-Codex快25%
- 每个任务消耗更少token — 用更少做更多
- SWE-Bench Pro和Terminal-Bench最先进成绩
- OSWorld和GDPval表现出色
网络安全警告
这是首个在OpenAI网络安全准备框架中达到**“高”级别**的模型——意味着他们认为GPT-5.3 Codex在编程和推理方面已足够强大,可以”有意义地助长现实世界的网络危害,尤其是在自动化或大规模使用时”。这一里程碑凸显了这些模型已变得多么强大。
可用性
通过Codex应用、CLI、IDE扩展和网页向付费ChatGPT用户开放。同时发布了更轻量的GPT-5.3-Codex-Spark变体。API访问即将推出。
定价
| 模型 | 输入(每百万token) | 输出(每百万token) | 缓存输入 |
|---|---|---|---|
| GPT-5 | $1.25 | $10.00 | $0.625 |
| GPT-5.3 Codex | 待定(API待发布) | 待定 | 待定 |
| o3 | $2.00 | $8.00 | — |
| o4-mini | $1.10 | $4.40 | $0.55 |
Anthropic:Claude Sonnet 4.6
发布时间: 2026年2月17日
Claude Sonnet 4.6是Anthropic对一年前无人认为可能的问题的回答:中端模型能否媲美旗舰模型?
新特性
这不是小幅版本更新。Sonnet 4.6是在编程、电脑操作、长上下文推理、智能体规划、知识工作和设计方面的全面升级,并配备百万token上下文窗口(测试版)。
基准测试亮点
| 基准测试 | Sonnet 4.6 | Opus 4.6 | 差距 |
|---|---|---|---|
| SWE-bench Verified | 79.6% | — | — |
| OSWorld(电脑操作) | 72.5% | 72.7% | 0.2% |
| Office Productivity | 1633 Elo | 1559 Elo | Sonnet领先 |
| Financial Analysis | 63.3% | 62.0% | Sonnet领先 |
电脑操作数据尤为亮眼:OSWorld-Verified得分72.5%,而仅仅16个月前首次推出电脑操作功能时得分仅为14.9%。
用户偏好
Anthropic报告称,70%的用户偏好Sonnet 4.6而非Sonnet 4.5,59%偏好其而非旧版Opus 4.5。每百万token仅需$3/$15——Opus 4.6价格($15/$75)的五分之一——是目前企业工作负载中前沿AI领域性价比最高的选择。
Claude Opus 4.6
旗舰Opus 4.6仍是Anthropic能力的天花板,驱动最苛刻的智能体和推理任务。但与Sonnet的差距现在已极为微小,使中端模型成为大多数应用场景的务实之选。
Google:Gemini 3.1 Pro
发布时间: 2026年2月19日
Google将Gemini 3.1 Pro定位为复杂任务的更稳健的默认模型,而非针对特定场景的升级。
新特性
核心数字:ARC-AGI-2得分77.1% — 推理性能是Gemini 3 Pro的两倍以上。专为需要高级多步骤推理的任务设计,例如综合多个来源的数据,或解释复杂的相互依赖主题。
可用性
在整个Google生态系统中逐步推出:
- Gemini应用(Pro和Ultra套餐用户享有更高限额)
- NotebookLM(Pro和Ultra用户)
- Gemini API(通过AI Studio、Vertex AI、Gemini CLI和Android Studio)
- 定价与Gemini 3 Pro持平(标准每百万token约$1.25/$10)
重要意义
Google在价格不变的情况下大幅提升了推理能力。对于已在Google Cloud上运营的企业,3.1 Pro是零预算影响的直接升级。
DeepSeek:V4与10倍上下文扩展
V3.2更新: 2026年2月12日 V4预计: 2026年2月中旬
DeepSeek在持续推动真正前沿能力的同时,依然是AI定价领域最具颠覆性的力量。
V3.2:10倍上下文扩展
2月初,DeepSeek将V3.2的上下文窗口从12.8万token扩展至超过百万——扩大了10倍。以每百万token $0.27/$1.10的价格,这是目前用前沿级模型处理海量文档的最低成本方案。
V4:下一个前沿
DeepSeek V4预计将具备:
- 1万亿参数(MoE架构)
- 原生百万+token上下文
- 三大架构突破:Engram条件记忆、流形约束超连接和DeepSeek稀疏注意力
- 目标:SWE-bench 80%+ — 将跻身编程基准最顶端
- 预计以宽松许可证开放权重发布
成本故事
DeepSeek与西方提供商之间的价格差距依然惊人:
| 任务成本示例 | GPT-5 | Claude Opus 4.6 | DeepSeek V3.2 |
|---|---|---|---|
| 输入10万 + 输出1万token | $0.225 | $2.25 | $0.038 |
| 与DeepSeek的比值 | 6倍 | 59倍 | 1倍 |
用GPT-5需花费$15的复杂任务,用DeepSeek仅需约**$0.50**。这不仅是成本优势——它从根本上改变了自动化的经济可行性边界。
智谱AI:GLM-5
发布时间: 2026年2月11日
本月最大的开源模型发布,也是地缘政治意义最重大的一次。
新特性
GLM-5是一个7450亿参数的MoE模型(440亿活跃参数),拥有五大核心能力:创意写作、代码生成、多步骤推理、智能体能力和长上下文处理。
基准性能
| 基准测试 | GLM-5 | 对比 |
|---|---|---|
| SWE-bench Verified | 77.8% | 与Claude Opus 4.5持平 |
| AIME 2026 | 92.7% | — |
| GPQA-Diamond | 86.0% | — |
| Humanity’s Last Exam | 50.4% | 超越Claude Opus 4.5 |
| 幻觉率 | 34% | 从90%(GLM-4.7)大幅下降 |
幻觉率从90%降至34%(使用名为Slime的新型强化学习技术),尤其令人印象深刻,在Artificial Analysis Omniscience Index中名列第一。
地缘政治信号
GLM-5完全使用华为昇腾芯片和MindSpore框架训练——无需任何美国制造的硬件。这证明,尽管受到出口管制,中国国产算力栈同样能够生产前沿级模型。
原生智能体模式
GLM-5内置”智能体模式”,可将提示词转化为专业办公文档(.docx、.pdf、.xlsx)——直接与Anthropic的电脑操作和OpenAI的Codex在实际商业任务上展开竞争。
发布后,智谱AI股价在香港交易所飙升34%。
Moonshot AI:Kimi K2.5与Kimi Claw
K2.5发布: 2026年1月27日 Kimi Claw: 2026年2月15日
Moonshot AI正在中国AI领域构建最完整的开源智能体生态系统。
Kimi K2.5
1万亿参数的MoE模型(320亿活跃参数),能够理解文本、图像和视频。核心创新:Agent Swarm能力,由名为**并行智能体强化学习(PARL)**的新型强化学习技术驱动,训练模型分解并并行处理复杂任务。
该模型完全开源,可在Hugging Face获取。
Kimi Claw
2月15日发布的Kimi Claw是基于OpenClaw框架构建的云原生、浏览器型AI智能体平台。可视为Moonshot对Anthropic电脑操作能力的回应——但完全在云端运行。
xAI:Grok 4.2候选发布版
公开测试版: 2026年2月17日
Elon Musk的Grok 4.2引入了一种根本不同的模型改进方式:快速学习。
新特性
与本文所有其他模型不同,Grok 4.2被设计为基于公众使用每周持续改进。Musk将其描述为能够”快速学习”,具有每周改进周期和发布说明。
新能力:
- 4智能体并行协作 — 专业化AI智能体将输出综合为单一回答
- 通过照片上传进行医疗文件分析
- 改进的工程推理能力
定价
xAI延续其积极的定价策略:
| 模型 | 输入(每百万) | 输出(每百万) |
|---|---|---|
| Grok 4.1 | $0.20 | $0.50 |
| Grok 4.2 RC | 待定(测试版) | 待定 |
当前状态
Grok 4.2目前处于公开测试版——可在Grok界面中选择使用。正式发布预计于2026年3月。官方基准测试将在测试结束后公布。
Mistral AI:Large 3与编程技术栈
Mistral Large 3: 2025年12月2日 Devstral 2: 2025年12月
Mistral作为欧洲前沿AI实验室,持续超越自身量级,发布在开源排行榜顶端竞争的模型。
Mistral Large 3
6750亿参数的MoE模型,拥有410亿活跃参数。在LMArena排行榜开源非推理模型中排名第2首次亮相——仅次于中国实验室规模大得多的模型。
Mistral当前产品线主要模型:
| 模型 | 定位 | 定价(每百万) |
|---|---|---|
| Mistral Large 3 | 通用前沿 | 约$2.00 / $6.00 |
| Mistral Medium 3.1 | 多模态(4万上下文) | $2.00 / $5.00 |
| Magistral Medium 1.2 | 推理 | $2.00 / $5.00 |
| Codestral | 代码补全 | 高级层 |
| Devstral 2 | 智能体编程 | 开放权重 |
Devstral Small 2
十二月发布的亮点:一个240亿参数的编程模型,在体积明显更小的情况下超越了Qwen 3 Coder Flash。对于需要自托管编程AI但GPU资源有限的团队,Devstral Small 2是极具吸引力的选择。
Ministral 3
Mistral的小型模型系列(30亿、70亿、140亿参数)在所有开源模型中实现了最佳性价比 — 性能与同类模型持平或更优,同时生成的token数量少一个数量级。
MiniMax:M2.5
M2.5发布: 2026年
前沿竞赛的黑马。MiniMax M2.5以仅100亿活跃参数——竞争对手使用量的一小部分——实现了基准测试领先的编程性能。
新特性
MiniMax M2.5专为编程和智能体执行打造,聚焦于以更少实现更多:
- Multi-SWE-Bench第1名,得分51.3
- SWE-Bench Pro上超越Claude Opus 4.6
- FinSearch、BrowseComp和RISE基准测试领先
- 吞吐量每秒100 token — 被描述为”比Opus快3倍”
- 思维链推理支持最多12.8万token
效率故事
突出统计数据:MiniMax M2.5在**$100预算内完成327.8个任务** — 是Opus的10倍以上。每百万输入token仅$0.30(缓存$0.06),定价处于DeepSeek水平,同时在编程任务上与高端模型持平或更优。
| 模型 | 输入(每百万) | 带缓存 | 速度 |
|---|---|---|---|
| M2.5 | $0.30 | $0.06 | 100 TPS |
| M2.5-highspeed | $0.30 | $0.06 | 更快变体 |
开放权重
MiniMax已在HuggingFace开源M2.5权重,支持vLLM、SGLang和Transformers自托管。这使其成为自建推理基础设施团队最具成本效益的选择之一。
价格全景
以下是所有前沿模型的成本对比(每百万token):
| 提供商 | 模型 | 输入 | 输出 | 上下文 |
|---|---|---|---|---|
| xAI | Grok 4.1 | $0.20 | $0.50 | — |
| DeepSeek | V3.2 | $0.27 | $1.10 | 100万+ |
| MiniMax | M2.5 | $0.30 | — | 12.8万 |
| OpenAI | o4-mini | $1.10 | $4.40 | — |
| Gemini 3.1 Pro | 约$1.25 | 约$10.00 | 100万 | |
| OpenAI | GPT-5 | $1.25 | $10.00 | 40万 |
| Mistral AI | Medium 3.1 | $2.00 | $5.00 | 4万 |
| Mistral AI | Large 3 | 约$2.00 | 约$6.00 | 12.8万 |
| OpenAI | o3 | $2.00 | $8.00 | — |
| Anthropic | Sonnet 4.6 | $3.00 | $15.00 | 100万(测试版) |
| Anthropic | Opus 4.6 | $15.00 | $75.00 | 20万 |
| 智谱AI | GLM-5 | 开放权重 | 自托管免费 | — |
| Moonshot AI | Kimi K2.5 | 开放权重 | 自托管免费 | — |
| DeepSeek | V4(预计) | 开放权重 | 自托管免费 | 100万+ |
最便宜的API(DeepSeek $0.27/M)与高端模型(Opus 4.6输入$15/M)之间17倍的价格差距对企业而言是真实的架构决策。问题已不再是”我们能负担得起AI吗”,而是”哪个层级的AI适合我们的使用场景”。
关键趋势
1. 开源浪潮的兴起
最近五个发布——GLM-5、Kimi K2.5、DeepSeek V4、Mistral Large 3和MiniMax M2.5——都是开放权重模型。它们不仅在追赶闭源模型,GLM-5在SWE-bench上与Claude Opus 4.5持平,并在Humanity’s Last Exam上超越它。Mistral Large 3在开源LMArena排名第2。开源与闭源之间的质量差距实际上已经消失。
2. 中国独立AI技术栈
GLM-5(华为昇腾)和DeepSeek V4都证明,尽管受到出口管制,中国实验室仍可在没有美国硬件的情况下生产前沿级模型。出口管制减缓但未阻止中国AI进步——甚至可能加速了国产替代品的投资。
3. 万物智能体化
本月每一个发布都包含智能体能力:GPT-5.3 Codex处理长时间多步骤任务,Claude 4.6的电脑操作达72.5%,Grok 4.2运行4智能体并行协作,GLM-5拥有原生智能体模式,Kimi拥有Agent Swarm。2026年是模型停止做聊天机器人、开始做工作者的一年。
4. 中端模型革命
$3/M的模型能与$15/M的旗舰匹敌——这是一个转折点。结合DeepSeek $0.27/M的定价能达到GPT-5约90%的质量,高端API定价的价值主张正面临严峻压力。
5. 上下文窗口的收敛
多个模型现在提供百万+token上下文窗口:Gemini 3.1 Pro、Claude 4.6(测试版)、DeepSeek V4和Kimi K2.5。在单次对话中处理完整代码库、法律文件或研究语料库不再是差异化特性——而是基础配置。
对企业用户的意义
如果您在2026年将AI整合到业务流程中,以下是实际要点:
编程和开发: GPT-5.3 Codex和Claude Sonnet 4.6领跑。Codex适合长时间智能体任务,Sonnet适合多功能编程和电脑操作。
成本敏感型工作负载: DeepSeek V3.2每百万token $0.27,对高容量任务无可比拟。开放权重模型(GLM-5、Kimi K2.5)如有GPU基础设施可免费自托管。
企业推理: Gemini 3.1 Pro 2倍推理提升使其成为Google Cloud客户的默认选择。Claude Opus 4.6在复杂分析方面仍是天花板。
快速迭代: Grok 4.2每周改进模式独一无二——如果您需要一个能随时间在特定用例上持续改进的模型,值得关注。
数据主权: 开放权重模型(GLM-5、Kimi K2.5、DeepSeek V4)让您完全掌控部署、定制化和数据隐私。
最后更新
2026年2月20日 — 本文将随新前沿模型发布持续更新。关注我们的博客获取最新报道。
历史更新:首次发布(2026年2月20日)