Frontier-KI-Modelle Februar 2026: GPT-5.3,

Der intensivste Monat in der Geschichte der KI

Der Februar 2026 wird als der Monat in Erinnerung bleiben, in dem das Frontier-KI-Rennen richtig Fahrt aufnahm. Zehn große Anbieter liefern aktiv Frontier-Modelle aus — jeder davon verschiebt die Grenzen des mit Sprachmodellen Möglichen.

Die Zeitlinie im Überblick:

Datum	Anbieter	Modell	Highlight
2. Dez.	Mistral AI	Mistral Large 3	675B MoE, #2 Open-Source auf LMArena
27. Jan.	Moonshot AI	Kimi K2.5	1T Open-Source MoE mit Agent Swarm
5. Feb.	OpenAI	GPT-5.3 Codex	Erstes „self-improving" agentic Coding-Modell
11. Feb.	Zhipu AI	GLM-5	745B Open-Source-Modell, trainiert auf chinesischen Chips
12. Feb.	DeepSeek	V3.2-Update	Kontextfenster 10× auf 1M+ Tokens erweitert
15. Feb.	Moonshot AI	Kimi Claw	Browser-basierte Agentenplattform auf Basis von K2.5
17. Feb.	Anthropic	Claude Sonnet 4.6	Opus-nahe Leistung zum 1/5-fachen Preis
17. Feb.	xAI	Grok 4.2 RC	„Rapid Learning"-Modell, das sich wöchentlich verbessert
17. Feb.	DeepSeek	V4 (erwartet)	1T-Parameter-Modell mit Fokus auf Coding-Dominanz
19. Feb.	Google	Gemini 3.1 Pro	2× Reasoning-Sprung, ARC-AGI-2-Score von 77,1 %
2026	MiniMax	M2.5	#1 Multi-SWE-Bench, 10B aktive Parameter, $0,30/M

Dies ist keine bloße inkrementelle Verbesserung. Es handelt sich um eine fundamentale Verschiebung dessen, was KI-Modelle leisten, wie viel sie kosten und wer sie entwickelt.

Im Folgenden gehen wir auf jede Veröffentlichung ein.

OpenAI: GPT-5.3 Codex

Veröffentlicht: 5. Februar 2026

GPT-5.3 Codex von OpenAI markiert einen Paradigmenwechsel: vom „Modell, das Code schreibt" zum „Modell, das nahezu alles tun kann, was Entwickler am Computer tun".

Was ist neu

GPT-5.3 Codex kombiniert die erstklassige Coding-Leistung von GPT-5.2-Codex mit dem Reasoning und dem Fachwissen von GPT-5.2. Das Ergebnis ist ein Modell, das langwierige Aufgaben mit Recherche, Werkzeugnutzung und komplexer mehrstufiger Ausführung bewältigt.

Wichtigste Verbesserungen:

25 % schneller als GPT-5.2-Codex
Weniger Token pro Aufgabe — erledigt mehr mit weniger
Spitzenwerte auf SWE-Bench Pro und Terminal-Bench
Starke Ergebnisse auf OSWorld und GDPval

Die Cybersicherheits-Warnstufe

Dies ist das erste OpenAI-Modell, das im Cybersicherheits-Bereitschaftsrahmen des Unternehmens als „hoch" eingestuft wurde — das heißt, OpenAI ist der Ansicht, dass GPT-5.3 Codex in Coding und Reasoning so leistungsfähig ist, dass es „echten Cyberschaden in der realen Welt erheblich erleichtern könnte, insbesondere wenn es automatisiert oder im großen Maßstab eingesetzt wird". Ein Meilenstein, der zeigt, wie fähig diese Modelle geworden sind.

Verfügbarkeit

Verfügbar für zahlende ChatGPT-Nutzer über die Codex-App, CLI, IDE-Erweiterung und Web. Eine leichtere Variante GPT-5.3-Codex-Spark wurde ebenfalls veröffentlicht. API-Zugang folgt in Kürze.

Preise

Modell	Eingabe (pro 1M)	Ausgabe (pro 1M)	Cached Eingabe
GPT-5	$1,25	$10,00	$0,625
GPT-5.3 Codex	TBA (API ausstehend)	TBA	TBA
o3	$2,00	$8,00	—
o4-mini	$1,10	$4,40	$0,55

Anthropic: Claude Sonnet 4.6

Veröffentlicht: 17. Februar 2026

Claude Sonnet 4.6 ist Anthropics Antwort auf eine Frage, die vor einem Jahr noch undenkbar schien: Kann ein Mittelklasse-Modell ein Flaggschiff-Modell einholen?

Was ist neu

Dies ist kein kleines Versionsupdate. Sonnet 4.6 ist ein vollständiges Upgrade in den Bereichen Coding, Computer Use, Long-Context-Reasoning, Agent-Planung, Wissensarbeit und Design. Es wird mit einem 1M-Token-Kontextfenster (in der Beta-Phase) ausgeliefert.

Benchmark-Highlights

Benchmark	Sonnet 4.6	Opus 4.6	Unterschied
SWE-bench Verified	79,6 %	—	—
OSWorld (Computer Use)	72,5 %	72,7 %	0,2 %
Office Productivity	1633 Elo	1559 Elo	Sonnet führt
Financial Analysis	63,3 %	62,0 %	Sonnet führt

Die Computer-Use-Zahl ist bemerkenswert: 72,5 % auf OSWorld-Verified, verglichen mit 14,9 % bei der Ersteinführung vor gerade einmal 16 Monaten.

Nutzerpräferenz

Anthropic berichtet, dass 70 % der Nutzer Sonnet 4.6 gegenüber Sonnet 4.5 bevorzugen und 59 % es gegenüber dem älteren Opus 4.5 vorziehen. Mit $3/$15 pro Million Tokens — einem Fünftel des Opus-4.6-Preises von $15/$75 — ist dies derzeit das beste Preis-Leistungs-Verhältnis im Frontier-KI-Bereich für Enterprise-Workloads.

Claude Opus 4.6

Das Flaggschiff Opus 4.6 bleibt die Obergrenze von Anthropics Fähigkeiten und treibt die anspruchsvollsten agentic und Reasoning-Aufgaben an. Der Abstand zu Sonnet ist jedoch inzwischen hauchdünn, was das Mittelklasse-Modell zur pragmatischen Wahl für die meisten Anwendungen macht.

Google: Gemini 3.1 Pro

Veröffentlicht: 19. Februar 2026

Google positioniert Gemini 3.1 Pro nicht als Nischen-Upgrade, sondern als stabileres Standardmodell für komplexe Aufgaben.

Was ist neu

Die Schlagzahl: ein ARC-AGI-2-Score von 77,1 % — mehr als doppelt so gute Reasoning-Leistung wie Gemini 3 Pro. Speziell konzipiert für Aufgaben, die fortgeschrittenes mehrstufiges Reasoning erfordern, etwa die Synthese von Daten aus verschiedenen Quellen oder die Erklärung komplexer, voneinander abhängiger Themen.

Verfügbarkeit

Schrittweise Einführung im gesamten Google-Ökosystem:

Gemini-App (höhere Limits für Pro- und Ultra-Plan-Nutzer)
NotebookLM (Pro- und Ultra-Nutzer)
Gemini API über AI Studio, Vertex AI, Gemini CLI und Android Studio
Preise unverändert gegenüber Gemini 3 Pro (~$1,25/$10 pro Million Tokens Standard)

Warum das wichtig ist

Google hat die Preise stabil gehalten und gleichzeitig das Reasoning dramatisch verbessert. Für Unternehmen, die bereits auf Google Cloud setzen, ist 3.1 Pro ein direktes Upgrade ohne Budgetauswirkungen.

DeepSeek: V4 und die 10-fache Kontexterweiterung

V3.2-Update: 12. Februar 2026 V4 erwartet: Mitte Februar 2026

DeepSeek bleibt die disruptivste Kraft bei KI-Preisen und liefert dabei echte Frontier-Fähigkeiten.

V3.2: 10-fache Kontexterweiterung

Anfang Februar erweiterte DeepSeek das Kontextfenster von V3.2 von 128.000 Tokens auf über 1 Million — eine Verzehnfachung. Bei $0,27/$1,10 pro Million Tokens ist dies nun die günstigste Möglichkeit, massive Dokumente mit einem Frontier-Modell zu verarbeiten.

V4: Die nächste Frontier

DeepSeek V4 soll folgende Eigenschaften mitbringen:

1 Billion Parameter (MoE-Architektur)
1M+ Token-Kontext nativ
Drei architektonische Durchbrüche: Engram Conditional Memory, Manifold-Constrained Hyper-Connections und DeepSeek Sparse Attention
Ziel: 80 %+ auf SWE-bench — was es an die absolute Spitze der Coding-Benchmarks setzen würde
Voraussichtlich Open-Weight unter einer permissiven Lizenz

Die Kostengeschichte

Der Preisunterschied zwischen DeepSeek und westlichen Anbietern bleibt enorm:

Aufgabenkostenbeispiel	GPT-5	Claude Opus 4.6	DeepSeek V3.2
100K Eingabe + 10K Ausgabe	$0,225	$2,25	$0,038
Verhältnis zu DeepSeek	6×	59×	1×

Eine komplexe Aufgabe, die mit GPT-5 $15 kostet, kostet mit DeepSeek ungefähr $0,50. Das ist nicht nur ein Kostenvorteil — es verändert, was sich wirtschaftlich zu automatisieren lohnt.

Zhipu AI: GLM-5

Veröffentlicht: 11. Februar 2026

Die größte Open-Source-Modellveröffentlichung des Monats und möglicherweise die geopolitisch bedeutsamste.

Was ist neu

GLM-5 ist ein MoE-Modell mit 745 Milliarden Parametern (44B aktive Parameter) mit fünf Kernfähigkeiten: kreatives Schreiben, Code-Generierung, mehrstufiges Reasoning, agentic Intelligenz und Long-Context-Verarbeitung.

Benchmark-Leistung

Benchmark	GLM-5	Vergleich
SWE-bench Verified	77,8 %	Entspricht Claude Opus 4.5
AIME 2026	92,7 %	—
GPQA-Diamond	86,0 %	—
Humanity's Last Exam	50,4 %	Übertrifft Claude Opus 4.5
Halluzinationsrate	34 %	Rückgang von 90 % (GLM-4.7)

Die Reduzierung der Halluzinationen — von 90 % auf 34 % mithilfe einer neuartigen RL-Technik namens Slime — ist besonders beeindruckend und führt den Artificial Analysis Omniscience Index an.

Das geopolitische Signal

GLM-5 wurde vollständig auf Huawei Ascend Chips mit dem MindSpore-Framework trainiert — ohne US-amerikanische Hardware. Dies zeigt, dass Chinas heimischer Compute-Stack trotz Exportkontrollen frontier-qualitative Modelle produzieren kann.

Nativer Agent-Modus

GLM-5 wird mit einem nativen „Agent Mode" geliefert, der Prompts in professionelle Office-Dokumente (.docx, .pdf, .xlsx) umwandeln kann — direkter Wettbewerber zu Anthropics Computer Use und OpenAIs Codex bei praktischen Geschäftsaufgaben.

Nach dem Launch stiegen Zhipus Aktien um 34 % an der Hongkonger Börse.

Moonshot AI: Kimi K2.5 und Kimi Claw

K2.5 veröffentlicht: 27. Januar 2026 Kimi Claw: 15. Februar 2026

Moonshot AI entwickelt das umfassendste Open-Source-Agentic-Ökosystem im chinesischen KI-Raum.

Kimi K2.5

Ein MoE-Modell mit 1 Billion Parametern (32B aktive Parameter), das Text, Bilder und Videos versteht. Wichtigste Innovation: Agent Swarm-Fähigkeit, angetrieben durch eine neue RL-Technik namens Parallel Agent Reinforcement Learning (PARL), die das Modell trainiert, komplexe Aufgaben zu zerlegen und zu parallelisieren.

Das Modell ist vollständig Open-Source und auf Hugging Face verfügbar.

Kimi Claw

Am 15. Februar gestartet: Kimi Claw ist eine cloud-native, browser-basierte KI-Agentenplattform, die auf dem OpenClaw-Framework aufbaut. Man kann es sich als Moonshots Antwort auf Anthropics Computer Use vorstellen — jedoch vollständig in der Cloud.

xAI: Grok 4.2 Release Candidate

Öffentliche Beta: 17. Februar 2026

Elon Musks Grok 4.2 führt einen grundlegend anderen Ansatz zur Modellverbesserung ein: Rapid Learning.

Was ist neu

Anders als alle anderen Modelle auf dieser Liste ist Grok 4.2 darauf ausgelegt, sich auf Basis der öffentlichen Nutzung jede Woche zu verbessern. Musk beschrieb es als ein Modell, das „schnell lernen" kann, mit wöchentlichen Verbesserungszyklen und Release Notes.

Neue Fähigkeiten:

4-Agent-Parallelkollaboration — spezialisierte KI-Agenten, die Ausgaben zu einer einzigen Antwort zusammenführen
Analyse medizinischer Dokumente per Foto-Upload
Verbessertes technisches Reasoning

Preise

xAI behält seine aggressive Preisstrategie bei:

Modell	Eingabe (pro 1M)	Ausgabe (pro 1M)
Grok 4.1	$0,20	$0,50
Grok 4.2 RC	TBA (Beta)	TBA

Aktueller Status

Grok 4.2 befindet sich derzeit in der öffentlichen Beta — in der Grok-Oberfläche auswählbar. Die allgemeine Veröffentlichung wird im März 2026 erwartet. Offizielle Benchmarks werden nach Abschluss der Beta veröffentlicht.

Mistral AI: Large 3 und der Coding-Stack

Mistral Large 3: 2. Dezember 2025 Devstral 2: Dezember 2025

Mistral übertrifft weiterhin seine Gewichtsklasse als europäisches Frontier-KI-Labor und liefert Modelle, die an der Spitze der Open-Source-Bestenlisten konkurrieren.

Mistral Large 3

Ein MoE-Modell mit 675 Milliarden Parametern mit 41B aktiven Parametern. Es debütierte auf Platz 2 bei Open-Source Non-Reasoning-Modellen in der LMArena-Rangliste — direkt hinter den deutlich größeren Modellen chinesischer Labore.

Wichtigste Modelle in Mistrals aktuellem Lineup:

Modell	Fokus	Preis (pro 1M)
Mistral Large 3	Allgemeine Frontier	~$2,00 / $6,00
Mistral Medium 3.1	Multimodal (40k Ctx)	$2,00 / $5,00
Magistral Medium 1.2	Reasoning	$2,00 / $5,00
Codestral	Code-Vervollständigung	Premier-Tier
Devstral 2	Agentic Coding	Open-Weight

Devstral Small 2

Das Highlight der Dezember-Veröffentlichung: ein Coding-Modell mit 24B Parametern, das Qwen 3 Coder Flash übertrifft — trotz deutlich geringerer Größe. Für Teams, die selbst gehostete Coding-KI ohne massive GPU-Anforderungen benötigen, ist Devstral Small 2 eine überzeugende Option.

Ministral 3

Mistrals Small-Modell-Familie (3B, 7B, 14B Parameter) erreicht das beste Kosten-Leistungs-Verhältnis aller Open-Source-Modelle — vergleichbare Modelle werden übertroffen oder eingeholt, während eine Größenordnung weniger Tokens produziert wird.

MiniMax: M2.5

M2.5 veröffentlicht: 2026

Der Außenseiter im Frontier-Rennen. MiniMax' M2.5 liefert benchmark-führende Coding-Leistung mit nur 10 Milliarden aktiven Parametern — ein Bruchteil dessen, was Konkurrenten einsetzen.

Was ist neu

MiniMax M2.5 wurde speziell für Coding und agentic Ausführung entwickelt, mit dem Fokus, mehr mit weniger zu erreichen:

#1 auf Multi-SWE-Bench mit einem Score von 51,3
Übertrifft Claude Opus 4.6 auf SWE-Bench Pro
Führende Scores auf den Benchmarks FinSearch, BrowseComp und RISE
100 Token pro Sekunde Durchsatz — beschrieben als „3× schneller als Opus"
Chain-of-Thought-Reasoning bis zu 128K Tokens

Die Effizienzgeschichte

Die herausragende Kennzahl: MiniMax M2.5 bewältigt 327,8 Aufgaben pro $100 Budget — über 10× mehr als Opus. Mit $0,30 pro Million Eingabe-Token ($0,06 mit Cache) bewegt es sich preislich in DeepSeek-Territorium und übertrifft dabei Premium-Modelle bei Coding-Aufgaben.

Modell	Eingabe (pro 1M)	Mit Cache	Geschwindigkeit
M2.5	$0,30	$0,06	100 TPS
M2.5-highspeed	$0,30	$0,06	Schnellere Variante

Open Weights

MiniMax hat die M2.5-Gewichte auf HuggingFace veröffentlicht, mit Unterstützung für vLLM, SGLang und Transformers zum Selbst-Hosting. Damit ist es eine der kosteneffizientesten Optionen für Teams, die ihre eigene Inferenz-Infrastruktur betreiben.

Die Preislandschaft

So schneiden alle Frontier-Modelle im Kostenvergleich ab (pro Million Token):

Anbieter	Modell	Eingabe	Ausgabe	Kontext
xAI	Grok 4.1	$0,20	$0,50	—
DeepSeek	V3.2	$0,27	$1,10	1M+
MiniMax	M2.5	$0,30	—	128K
OpenAI	o4-mini	$1,10	$4,40	—
Google	Gemini 3.1 Pro	~$1,25	~$10,00	1M
OpenAI	GPT-5	$1,25	$10,00	400K
Mistral AI	Medium 3.1	$2,00	$5,00	40K
Mistral AI	Large 3	~$2,00	~$6,00	128K
OpenAI	o3	$2,00	$8,00	—
Anthropic	Sonnet 4.6	$3,00	$15,00	1M (Beta)
Anthropic	Opus 4.6	$15,00	$75,00	200K
Zhipu AI	GLM-5	Open Weights	Kostenlos selbst hosten	—
Moonshot AI	Kimi K2.5	Open Weights	Kostenlos selbst hosten	—
DeepSeek	V4 (erwartet)	Open Weights	Kostenlos selbst hosten	1M+

Der 17-fache Kostenunterschied zwischen dem günstigsten API (DeepSeek mit $0,27/M) und Premium-Modellen (Opus 4.6 mit $15/M Eingabe) stellt für Unternehmen eine echte Architekturentscheidung dar. Die Frage lautet nicht mehr „Können wir uns KI leisten?", sondern „Welche KI-Stufe passt zu unserem Anwendungsfall?"

Wichtige Trends

1. Der Open-Source-Aufschwung

Fünf aktuelle Veröffentlichungen — GLM-5, Kimi K2.5, DeepSeek V4, Mistral Large 3 und MiniMax M2.5 — sind Open-Weight-Modelle. Sie holen nicht nur auf; GLM-5 entspricht Claude Opus 4.5 auf SWE-bench und übertrifft es auf Humanity's Last Exam. Mistral Large 3 belegt Platz 2 auf der Open-Source-LMArena. Der Qualitätsunterschied zwischen Open und Closed ist praktisch verschwunden.

2. Chinas unabhängiger KI-Stack

Sowohl GLM-5 (Huawei Ascend) als auch DeepSeek V4 beweisen, dass chinesische Labore Frontier-Modelle ohne US-Hardware produzieren können. Exportkontrollen haben Chinas KI-Fortschritt verlangsamt, aber nicht gestoppt — und möglicherweise die Investitionen in heimische Alternativen beschleunigt.

3. Agentic überall

Jede einzelne Veröffentlichung dieses Monats umfasst agentic Fähigkeiten: GPT-5.3 Codex bewältigt langwierige mehrstufige Aufgaben, Claude 4.6 verfügt über Computer Use bei 72,5 %, Grok 4.2 führt 4-Agent-Parallelkollaboration durch, GLM-5 hat einen nativen Agent-Modus und Kimi besitzt Agent Swarm. 2026 ist das Jahr, in dem Modelle aufgehört haben, Chatbots zu sein, und zu Arbeitskräften wurden.

4. Die Mittelklasse-Revolution

Der Nachweis, dass ein $3/M-Modell ein $15/M-Flaggschiff einholen kann, ist ein Wendepunkt. Zusammen mit DeepSeeks $0,27/M-Pricing, das ~90 % der GPT-5-Qualität erreicht, steht das Wertversprechen von Premium-API-Preisen unter ernstem Druck.

5. Konvergenz der Kontextfenster

Mehrere Modelle bieten nun 1M+ Token-Kontextfenster: Gemini 3.1 Pro, Claude 4.6 (Beta), DeepSeek V4 und Kimi K2.5. Gesamte Codebasen, Rechtsdokumente oder Forschungskorpora in einem einzigen Durchlauf zu verarbeiten, ist kein Alleinstellungsmerkmal mehr — es ist die Mindestanforderung.

Was das für Unternehmensnutzer bedeutet

Wenn Sie KI 2026 in Ihren Unternehmensworkflow integrieren, hier die praktischen Schlussfolgerungen:

Für Coding und Entwicklung: GPT-5.3 Codex und Claude Sonnet 4.6 führen das Feld an. Codex für langwierige agentic Aufgaben, Sonnet für vielseitiges Coding und Computer Use.

Für kostensensible Workloads: DeepSeek V3.2 bei $0,27/M Tokens ist unschlagbar für hochvolumige Aufgaben. Open-Weight-Modelle (GLM-5, Kimi K2.5) sind kostenlos selbst zu hosten, wenn GPU-Infrastruktur vorhanden ist.

Für Enterprise-Reasoning: Die 2-fache Reasoning-Verbesserung von Gemini 3.1 Pro macht es zur Standardwahl für Google-Cloud-Kunden. Claude Opus 4.6 bleibt die Obergrenze für komplexe Analysen.

Für schnelle Iteration: Grok 4.2s wöchentliches Verbesserungsmodell ist einzigartig — wer ein Modell benötigt, das sich im Laufe der Zeit für spezifische Anwendungsfälle verbessert, sollte es im Blick behalten.

Für Unabhängigkeit: Open-Weight-Modelle (GLM-5, Kimi K2.5, DeepSeek V4) geben Ihnen die volle Kontrolle über Deployment, Anpassung und Datenschutz.

Zuletzt aktualisiert

20. Februar 2026 — Dieser Artikel wird bei jeder neuen Frontier-Modell-Veröffentlichung aktualisiert. Folgen Sie uns für aktuelle Berichterstattung.

Frühere Updates: Erstveröffentlichung (20. Feb. 2026)

Frontier-KI-Modelle: Alle wichtigen Releases dieses Monats (Februar 2026)

Der intensivste Monat in der Geschichte der KI

OpenAI: GPT-5.3 Codex

Was ist neu

Die Cybersicherheits-Warnstufe

Verfügbarkeit

Preise

Anthropic: Claude Sonnet 4.6

Was ist neu

Benchmark-Highlights

Nutzerpräferenz

Claude Opus 4.6

Google: Gemini 3.1 Pro

Was ist neu

Verfügbarkeit

Warum das wichtig ist

DeepSeek: V4 und die 10-fache Kontexterweiterung

V3.2: 10-fache Kontexterweiterung

V4: Die nächste Frontier

Die Kostengeschichte

Zhipu AI: GLM-5

Was ist neu

Benchmark-Leistung

Das geopolitische Signal

Nativer Agent-Modus

Moonshot AI: Kimi K2.5 und Kimi Claw

Kimi K2.5

Kimi Claw

xAI: Grok 4.2 Release Candidate

Was ist neu

Preise

Aktueller Status

Mistral AI: Large 3 und der Coding-Stack

Mistral Large 3

Devstral Small 2

Ministral 3

MiniMax: M2.5

Was ist neu

Die Effizienzgeschichte

Open Weights

Die Preislandschaft

Wichtige Trends

1. Der Open-Source-Aufschwung

2. Chinas unabhängiger KI-Stack

3. Agentic überall

4. Die Mittelklasse-Revolution

5. Konvergenz der Kontextfenster

Was das für Unternehmensnutzer bedeutet

Zuletzt aktualisiert

Turn the best models into shipped work