Frontier-KI-Modelle: Alle wichtigen Releases dieses Monats (Februar 2026)
Jozo · 14 min read · 2026/02/20
KI-ModelleGPT-5ClaudeGeminiDeepSeekGrokGLM-5KimiMistralMiniMax2026Frontier-KI

Frontier-KI-Modelle: Alle wichtigen Releases dieses Monats (Februar 2026)

Der intensivste Monat in der Geschichte der KI

Der Februar 2026 wird als der Monat in Erinnerung bleiben, in dem das Frontier-KI-Rennen richtig Fahrt aufnahm. Zehn große Anbieter liefern aktiv Frontier-Modelle aus — jeder davon verschiebt die Grenzen des mit Sprachmodellen Möglichen.

Die Zeitlinie im Überblick:

DatumAnbieterModellHighlight
2. Dez.Mistral AIMistral Large 3675B MoE, #2 Open-Source auf LMArena
27. Jan.Moonshot AIKimi K2.51T Open-Source MoE mit Agent Swarm
5. Feb.OpenAIGPT-5.3 CodexErstes „self-improving” agentic Coding-Modell
11. Feb.Zhipu AIGLM-5745B Open-Source-Modell, trainiert auf chinesischen Chips
12. Feb.DeepSeekV3.2-UpdateKontextfenster 10× auf 1M+ Tokens erweitert
15. Feb.Moonshot AIKimi ClawBrowser-basierte Agentenplattform auf Basis von K2.5
17. Feb.AnthropicClaude Sonnet 4.6Opus-nahe Leistung zum 1/5-fachen Preis
17. Feb.xAIGrok 4.2 RC„Rapid Learning”-Modell, das sich wöchentlich verbessert
17. Feb.DeepSeekV4 (erwartet)1T-Parameter-Modell mit Fokus auf Coding-Dominanz
19. Feb.GoogleGemini 3.1 Pro2× Reasoning-Sprung, ARC-AGI-2-Score von 77,1 %
2026MiniMaxM2.5#1 Multi-SWE-Bench, 10B aktive Parameter, $0,30/M

Dies ist keine bloße inkrementelle Verbesserung. Es handelt sich um eine fundamentale Verschiebung dessen, was KI-Modelle leisten, wie viel sie kosten und wer sie entwickelt.

Im Folgenden gehen wir auf jede Veröffentlichung ein.


OpenAI: GPT-5.3 Codex

Veröffentlicht: 5. Februar 2026

GPT-5.3 Codex von OpenAI markiert einen Paradigmenwechsel: vom „Modell, das Code schreibt” zum „Modell, das nahezu alles tun kann, was Entwickler am Computer tun”.

Was ist neu

GPT-5.3 Codex kombiniert die erstklassige Coding-Leistung von GPT-5.2-Codex mit dem Reasoning und dem Fachwissen von GPT-5.2. Das Ergebnis ist ein Modell, das langwierige Aufgaben mit Recherche, Werkzeugnutzung und komplexer mehrstufiger Ausführung bewältigt.

Wichtigste Verbesserungen:

  • 25 % schneller als GPT-5.2-Codex
  • Weniger Token pro Aufgabe — erledigt mehr mit weniger
  • Spitzenwerte auf SWE-Bench Pro und Terminal-Bench
  • Starke Ergebnisse auf OSWorld und GDPval

Die Cybersicherheits-Warnstufe

Dies ist das erste OpenAI-Modell, das im Cybersicherheits-Bereitschaftsrahmen des Unternehmens als „hoch” eingestuft wurde — das heißt, OpenAI ist der Ansicht, dass GPT-5.3 Codex in Coding und Reasoning so leistungsfähig ist, dass es „echten Cyberschaden in der realen Welt erheblich erleichtern könnte, insbesondere wenn es automatisiert oder im großen Maßstab eingesetzt wird”. Ein Meilenstein, der zeigt, wie fähig diese Modelle geworden sind.

Verfügbarkeit

Verfügbar für zahlende ChatGPT-Nutzer über die Codex-App, CLI, IDE-Erweiterung und Web. Eine leichtere Variante GPT-5.3-Codex-Spark wurde ebenfalls veröffentlicht. API-Zugang folgt in Kürze.

Preise

ModellEingabe (pro 1M)Ausgabe (pro 1M)Cached Eingabe
GPT-5$1,25$10,00$0,625
GPT-5.3 CodexTBA (API ausstehend)TBATBA
o3$2,00$8,00
o4-mini$1,10$4,40$0,55

Anthropic: Claude Sonnet 4.6

Veröffentlicht: 17. Februar 2026

Claude Sonnet 4.6 ist Anthropics Antwort auf eine Frage, die vor einem Jahr noch undenkbar schien: Kann ein Mittelklasse-Modell ein Flaggschiff-Modell einholen?

Was ist neu

Dies ist kein kleines Versionsupdate. Sonnet 4.6 ist ein vollständiges Upgrade in den Bereichen Coding, Computer Use, Long-Context-Reasoning, Agent-Planung, Wissensarbeit und Design. Es wird mit einem 1M-Token-Kontextfenster (in der Beta-Phase) ausgeliefert.

Benchmark-Highlights

BenchmarkSonnet 4.6Opus 4.6Unterschied
SWE-bench Verified79,6 %
OSWorld (Computer Use)72,5 %72,7 %0,2 %
Office Productivity1633 Elo1559 EloSonnet führt
Financial Analysis63,3 %62,0 %Sonnet führt

Die Computer-Use-Zahl ist bemerkenswert: 72,5 % auf OSWorld-Verified, verglichen mit 14,9 % bei der Ersteinführung vor gerade einmal 16 Monaten.

Nutzerpräferenz

Anthropic berichtet, dass 70 % der Nutzer Sonnet 4.6 gegenüber Sonnet 4.5 bevorzugen und 59 % es gegenüber dem älteren Opus 4.5 vorziehen. Mit $3/$15 pro Million Tokens — einem Fünftel des Opus-4.6-Preises von $15/$75 — ist dies derzeit das beste Preis-Leistungs-Verhältnis im Frontier-KI-Bereich für Enterprise-Workloads.

Claude Opus 4.6

Das Flaggschiff Opus 4.6 bleibt die Obergrenze von Anthropics Fähigkeiten und treibt die anspruchsvollsten agentic und Reasoning-Aufgaben an. Der Abstand zu Sonnet ist jedoch inzwischen hauchdünn, was das Mittelklasse-Modell zur pragmatischen Wahl für die meisten Anwendungen macht.


Google: Gemini 3.1 Pro

Veröffentlicht: 19. Februar 2026

Google positioniert Gemini 3.1 Pro nicht als Nischen-Upgrade, sondern als stabileres Standardmodell für komplexe Aufgaben.

Was ist neu

Die Schlagzahl: ein ARC-AGI-2-Score von 77,1 % — mehr als doppelt so gute Reasoning-Leistung wie Gemini 3 Pro. Speziell konzipiert für Aufgaben, die fortgeschrittenes mehrstufiges Reasoning erfordern, etwa die Synthese von Daten aus verschiedenen Quellen oder die Erklärung komplexer, voneinander abhängiger Themen.

Verfügbarkeit

Schrittweise Einführung im gesamten Google-Ökosystem:

  • Gemini-App (höhere Limits für Pro- und Ultra-Plan-Nutzer)
  • NotebookLM (Pro- und Ultra-Nutzer)
  • Gemini API über AI Studio, Vertex AI, Gemini CLI und Android Studio
  • Preise unverändert gegenüber Gemini 3 Pro (~$1,25/$10 pro Million Tokens Standard)

Warum das wichtig ist

Google hat die Preise stabil gehalten und gleichzeitig das Reasoning dramatisch verbessert. Für Unternehmen, die bereits auf Google Cloud setzen, ist 3.1 Pro ein direktes Upgrade ohne Budgetauswirkungen.


DeepSeek: V4 und die 10-fache Kontexterweiterung

V3.2-Update: 12. Februar 2026 V4 erwartet: Mitte Februar 2026

DeepSeek bleibt die disruptivste Kraft bei KI-Preisen und liefert dabei echte Frontier-Fähigkeiten.

V3.2: 10-fache Kontexterweiterung

Anfang Februar erweiterte DeepSeek das Kontextfenster von V3.2 von 128.000 Tokens auf über 1 Million — eine Verzehnfachung. Bei $0,27/$1,10 pro Million Tokens ist dies nun die günstigste Möglichkeit, massive Dokumente mit einem Frontier-Modell zu verarbeiten.

V4: Die nächste Frontier

DeepSeek V4 soll folgende Eigenschaften mitbringen:

  • 1 Billion Parameter (MoE-Architektur)
  • 1M+ Token-Kontext nativ
  • Drei architektonische Durchbrüche: Engram Conditional Memory, Manifold-Constrained Hyper-Connections und DeepSeek Sparse Attention
  • Ziel: 80 %+ auf SWE-bench — was es an die absolute Spitze der Coding-Benchmarks setzen würde
  • Voraussichtlich Open-Weight unter einer permissiven Lizenz

Die Kostengeschichte

Der Preisunterschied zwischen DeepSeek und westlichen Anbietern bleibt enorm:

AufgabenkostenbeispielGPT-5Claude Opus 4.6DeepSeek V3.2
100K Eingabe + 10K Ausgabe$0,225$2,25$0,038
Verhältnis zu DeepSeek59×

Eine komplexe Aufgabe, die mit GPT-5 $15 kostet, kostet mit DeepSeek ungefähr $0,50. Das ist nicht nur ein Kostenvorteil — es verändert, was sich wirtschaftlich zu automatisieren lohnt.


Zhipu AI: GLM-5

Veröffentlicht: 11. Februar 2026

Die größte Open-Source-Modellveröffentlichung des Monats und möglicherweise die geopolitisch bedeutsamste.

Was ist neu

GLM-5 ist ein MoE-Modell mit 745 Milliarden Parametern (44B aktive Parameter) mit fünf Kernfähigkeiten: kreatives Schreiben, Code-Generierung, mehrstufiges Reasoning, agentic Intelligenz und Long-Context-Verarbeitung.

Benchmark-Leistung

BenchmarkGLM-5Vergleich
SWE-bench Verified77,8 %Entspricht Claude Opus 4.5
AIME 202692,7 %
GPQA-Diamond86,0 %
Humanity’s Last Exam50,4 %Übertrifft Claude Opus 4.5
Halluzinationsrate34 %Rückgang von 90 % (GLM-4.7)

Die Reduzierung der Halluzinationen — von 90 % auf 34 % mithilfe einer neuartigen RL-Technik namens Slime — ist besonders beeindruckend und führt den Artificial Analysis Omniscience Index an.

Das geopolitische Signal

GLM-5 wurde vollständig auf Huawei Ascend Chips mit dem MindSpore-Framework trainiert — ohne US-amerikanische Hardware. Dies zeigt, dass Chinas heimischer Compute-Stack trotz Exportkontrollen frontier-qualitative Modelle produzieren kann.

Nativer Agent-Modus

GLM-5 wird mit einem nativen „Agent Mode” geliefert, der Prompts in professionelle Office-Dokumente (.docx, .pdf, .xlsx) umwandeln kann — direkter Wettbewerber zu Anthropics Computer Use und OpenAIs Codex bei praktischen Geschäftsaufgaben.

Nach dem Launch stiegen Zhipus Aktien um 34 % an der Hongkonger Börse.


Moonshot AI: Kimi K2.5 und Kimi Claw

K2.5 veröffentlicht: 27. Januar 2026 Kimi Claw: 15. Februar 2026

Moonshot AI entwickelt das umfassendste Open-Source-Agentic-Ökosystem im chinesischen KI-Raum.

Kimi K2.5

Ein MoE-Modell mit 1 Billion Parametern (32B aktive Parameter), das Text, Bilder und Videos versteht. Wichtigste Innovation: Agent Swarm-Fähigkeit, angetrieben durch eine neue RL-Technik namens Parallel Agent Reinforcement Learning (PARL), die das Modell trainiert, komplexe Aufgaben zu zerlegen und zu parallelisieren.

Das Modell ist vollständig Open-Source und auf Hugging Face verfügbar.

Kimi Claw

Am 15. Februar gestartet: Kimi Claw ist eine cloud-native, browser-basierte KI-Agentenplattform, die auf dem OpenClaw-Framework aufbaut. Man kann es sich als Moonshots Antwort auf Anthropics Computer Use vorstellen — jedoch vollständig in der Cloud.


xAI: Grok 4.2 Release Candidate

Öffentliche Beta: 17. Februar 2026

Elon Musks Grok 4.2 führt einen grundlegend anderen Ansatz zur Modellverbesserung ein: Rapid Learning.

Was ist neu

Anders als alle anderen Modelle auf dieser Liste ist Grok 4.2 darauf ausgelegt, sich auf Basis der öffentlichen Nutzung jede Woche zu verbessern. Musk beschrieb es als ein Modell, das „schnell lernen” kann, mit wöchentlichen Verbesserungszyklen und Release Notes.

Neue Fähigkeiten:

  • 4-Agent-Parallelkollaboration — spezialisierte KI-Agenten, die Ausgaben zu einer einzigen Antwort zusammenführen
  • Analyse medizinischer Dokumente per Foto-Upload
  • Verbessertes technisches Reasoning

Preise

xAI behält seine aggressive Preisstrategie bei:

ModellEingabe (pro 1M)Ausgabe (pro 1M)
Grok 4.1$0,20$0,50
Grok 4.2 RCTBA (Beta)TBA

Aktueller Status

Grok 4.2 befindet sich derzeit in der öffentlichen Beta — in der Grok-Oberfläche auswählbar. Die allgemeine Veröffentlichung wird im März 2026 erwartet. Offizielle Benchmarks werden nach Abschluss der Beta veröffentlicht.


Mistral AI: Large 3 und der Coding-Stack

Mistral Large 3: 2. Dezember 2025 Devstral 2: Dezember 2025

Mistral übertrifft weiterhin seine Gewichtsklasse als europäisches Frontier-KI-Labor und liefert Modelle, die an der Spitze der Open-Source-Bestenlisten konkurrieren.

Mistral Large 3

Ein MoE-Modell mit 675 Milliarden Parametern mit 41B aktiven Parametern. Es debütierte auf Platz 2 bei Open-Source Non-Reasoning-Modellen in der LMArena-Rangliste — direkt hinter den deutlich größeren Modellen chinesischer Labore.

Wichtigste Modelle in Mistrals aktuellem Lineup:

ModellFokusPreis (pro 1M)
Mistral Large 3Allgemeine Frontier~$2,00 / $6,00
Mistral Medium 3.1Multimodal (40k Ctx)$2,00 / $5,00
Magistral Medium 1.2Reasoning$2,00 / $5,00
CodestralCode-VervollständigungPremier-Tier
Devstral 2Agentic CodingOpen-Weight

Devstral Small 2

Das Highlight der Dezember-Veröffentlichung: ein Coding-Modell mit 24B Parametern, das Qwen 3 Coder Flash übertrifft — trotz deutlich geringerer Größe. Für Teams, die selbst gehostete Coding-KI ohne massive GPU-Anforderungen benötigen, ist Devstral Small 2 eine überzeugende Option.

Ministral 3

Mistrals Small-Modell-Familie (3B, 7B, 14B Parameter) erreicht das beste Kosten-Leistungs-Verhältnis aller Open-Source-Modelle — vergleichbare Modelle werden übertroffen oder eingeholt, während eine Größenordnung weniger Tokens produziert wird.


MiniMax: M2.5

M2.5 veröffentlicht: 2026

Der Außenseiter im Frontier-Rennen. MiniMax’ M2.5 liefert benchmark-führende Coding-Leistung mit nur 10 Milliarden aktiven Parametern — ein Bruchteil dessen, was Konkurrenten einsetzen.

Was ist neu

MiniMax M2.5 wurde speziell für Coding und agentic Ausführung entwickelt, mit dem Fokus, mehr mit weniger zu erreichen:

  • #1 auf Multi-SWE-Bench mit einem Score von 51,3
  • Übertrifft Claude Opus 4.6 auf SWE-Bench Pro
  • Führende Scores auf den Benchmarks FinSearch, BrowseComp und RISE
  • 100 Token pro Sekunde Durchsatz — beschrieben als „3× schneller als Opus”
  • Chain-of-Thought-Reasoning bis zu 128K Tokens

Die Effizienzgeschichte

Die herausragende Kennzahl: MiniMax M2.5 bewältigt 327,8 Aufgaben pro $100 Budget — über 10× mehr als Opus. Mit $0,30 pro Million Eingabe-Token ($0,06 mit Cache) bewegt es sich preislich in DeepSeek-Territorium und übertrifft dabei Premium-Modelle bei Coding-Aufgaben.

ModellEingabe (pro 1M)Mit CacheGeschwindigkeit
M2.5$0,30$0,06100 TPS
M2.5-highspeed$0,30$0,06Schnellere Variante

Open Weights

MiniMax hat die M2.5-Gewichte auf HuggingFace veröffentlicht, mit Unterstützung für vLLM, SGLang und Transformers zum Selbst-Hosting. Damit ist es eine der kosteneffizientesten Optionen für Teams, die ihre eigene Inferenz-Infrastruktur betreiben.


Die Preislandschaft

So schneiden alle Frontier-Modelle im Kostenvergleich ab (pro Million Token):

AnbieterModellEingabeAusgabeKontext
xAIGrok 4.1$0,20$0,50
DeepSeekV3.2$0,27$1,101M+
MiniMaxM2.5$0,30128K
OpenAIo4-mini$1,10$4,40
GoogleGemini 3.1 Pro~$1,25~$10,001M
OpenAIGPT-5$1,25$10,00400K
Mistral AIMedium 3.1$2,00$5,0040K
Mistral AILarge 3~$2,00~$6,00128K
OpenAIo3$2,00$8,00
AnthropicSonnet 4.6$3,00$15,001M (Beta)
AnthropicOpus 4.6$15,00$75,00200K
Zhipu AIGLM-5Open WeightsKostenlos selbst hosten
Moonshot AIKimi K2.5Open WeightsKostenlos selbst hosten
DeepSeekV4 (erwartet)Open WeightsKostenlos selbst hosten1M+

Der 17-fache Kostenunterschied zwischen dem günstigsten API (DeepSeek mit $0,27/M) und Premium-Modellen (Opus 4.6 mit $15/M Eingabe) stellt für Unternehmen eine echte Architekturentscheidung dar. Die Frage lautet nicht mehr „Können wir uns KI leisten?”, sondern „Welche KI-Stufe passt zu unserem Anwendungsfall?”


1. Der Open-Source-Aufschwung

Fünf aktuelle Veröffentlichungen — GLM-5, Kimi K2.5, DeepSeek V4, Mistral Large 3 und MiniMax M2.5 — sind Open-Weight-Modelle. Sie holen nicht nur auf; GLM-5 entspricht Claude Opus 4.5 auf SWE-bench und übertrifft es auf Humanity’s Last Exam. Mistral Large 3 belegt Platz 2 auf der Open-Source-LMArena. Der Qualitätsunterschied zwischen Open und Closed ist praktisch verschwunden.

2. Chinas unabhängiger KI-Stack

Sowohl GLM-5 (Huawei Ascend) als auch DeepSeek V4 beweisen, dass chinesische Labore Frontier-Modelle ohne US-Hardware produzieren können. Exportkontrollen haben Chinas KI-Fortschritt verlangsamt, aber nicht gestoppt — und möglicherweise die Investitionen in heimische Alternativen beschleunigt.

3. Agentic überall

Jede einzelne Veröffentlichung dieses Monats umfasst agentic Fähigkeiten: GPT-5.3 Codex bewältigt langwierige mehrstufige Aufgaben, Claude 4.6 verfügt über Computer Use bei 72,5 %, Grok 4.2 führt 4-Agent-Parallelkollaboration durch, GLM-5 hat einen nativen Agent-Modus und Kimi besitzt Agent Swarm. 2026 ist das Jahr, in dem Modelle aufgehört haben, Chatbots zu sein, und zu Arbeitskräften wurden.

4. Die Mittelklasse-Revolution

Der Nachweis, dass ein $3/M-Modell ein $15/M-Flaggschiff einholen kann, ist ein Wendepunkt. Zusammen mit DeepSeeks $0,27/M-Pricing, das ~90 % der GPT-5-Qualität erreicht, steht das Wertversprechen von Premium-API-Preisen unter ernstem Druck.

5. Konvergenz der Kontextfenster

Mehrere Modelle bieten nun 1M+ Token-Kontextfenster: Gemini 3.1 Pro, Claude 4.6 (Beta), DeepSeek V4 und Kimi K2.5. Gesamte Codebasen, Rechtsdokumente oder Forschungskorpora in einem einzigen Durchlauf zu verarbeiten, ist kein Alleinstellungsmerkmal mehr — es ist die Mindestanforderung.


Was das für Unternehmensnutzer bedeutet

Wenn Sie KI 2026 in Ihren Unternehmensworkflow integrieren, hier die praktischen Schlussfolgerungen:

Für Coding und Entwicklung: GPT-5.3 Codex und Claude Sonnet 4.6 führen das Feld an. Codex für langwierige agentic Aufgaben, Sonnet für vielseitiges Coding und Computer Use.

Für kostensensible Workloads: DeepSeek V3.2 bei $0,27/M Tokens ist unschlagbar für hochvolumige Aufgaben. Open-Weight-Modelle (GLM-5, Kimi K2.5) sind kostenlos selbst zu hosten, wenn GPU-Infrastruktur vorhanden ist.

Für Enterprise-Reasoning: Die 2-fache Reasoning-Verbesserung von Gemini 3.1 Pro macht es zur Standardwahl für Google-Cloud-Kunden. Claude Opus 4.6 bleibt die Obergrenze für komplexe Analysen.

Für schnelle Iteration: Grok 4.2s wöchentliches Verbesserungsmodell ist einzigartig — wer ein Modell benötigt, das sich im Laufe der Zeit für spezifische Anwendungsfälle verbessert, sollte es im Blick behalten.

Für Unabhängigkeit: Open-Weight-Modelle (GLM-5, Kimi K2.5, DeepSeek V4) geben Ihnen die volle Kontrolle über Deployment, Anpassung und Datenschutz.


Zuletzt aktualisiert

20. Februar 2026 — Dieser Artikel wird bei jeder neuen Frontier-Modell-Veröffentlichung aktualisiert. Folgen Sie uns für aktuelle Berichterstattung.

Frühere Updates: Erstveröffentlichung (20. Feb. 2026)