Der intensivste Monat in der Geschichte der KI
Der Februar 2026 wird als der Monat in Erinnerung bleiben, in dem das Frontier-KI-Rennen richtig Fahrt aufnahm. Zehn große Anbieter liefern aktiv Frontier-Modelle aus — jeder davon verschiebt die Grenzen des mit Sprachmodellen Möglichen.
Die Zeitlinie im Überblick:
| Datum | Anbieter | Modell | Highlight |
|---|---|---|---|
| 2. Dez. | Mistral AI | Mistral Large 3 | 675B MoE, #2 Open-Source auf LMArena |
| 27. Jan. | Moonshot AI | Kimi K2.5 | 1T Open-Source MoE mit Agent Swarm |
| 5. Feb. | OpenAI | GPT-5.3 Codex | Erstes „self-improving” agentic Coding-Modell |
| 11. Feb. | Zhipu AI | GLM-5 | 745B Open-Source-Modell, trainiert auf chinesischen Chips |
| 12. Feb. | DeepSeek | V3.2-Update | Kontextfenster 10× auf 1M+ Tokens erweitert |
| 15. Feb. | Moonshot AI | Kimi Claw | Browser-basierte Agentenplattform auf Basis von K2.5 |
| 17. Feb. | Anthropic | Claude Sonnet 4.6 | Opus-nahe Leistung zum 1/5-fachen Preis |
| 17. Feb. | xAI | Grok 4.2 RC | „Rapid Learning”-Modell, das sich wöchentlich verbessert |
| 17. Feb. | DeepSeek | V4 (erwartet) | 1T-Parameter-Modell mit Fokus auf Coding-Dominanz |
| 19. Feb. | Gemini 3.1 Pro | 2× Reasoning-Sprung, ARC-AGI-2-Score von 77,1 % | |
| 2026 | MiniMax | M2.5 | #1 Multi-SWE-Bench, 10B aktive Parameter, $0,30/M |
Dies ist keine bloße inkrementelle Verbesserung. Es handelt sich um eine fundamentale Verschiebung dessen, was KI-Modelle leisten, wie viel sie kosten und wer sie entwickelt.
Im Folgenden gehen wir auf jede Veröffentlichung ein.
OpenAI: GPT-5.3 Codex
Veröffentlicht: 5. Februar 2026
GPT-5.3 Codex von OpenAI markiert einen Paradigmenwechsel: vom „Modell, das Code schreibt” zum „Modell, das nahezu alles tun kann, was Entwickler am Computer tun”.
Was ist neu
GPT-5.3 Codex kombiniert die erstklassige Coding-Leistung von GPT-5.2-Codex mit dem Reasoning und dem Fachwissen von GPT-5.2. Das Ergebnis ist ein Modell, das langwierige Aufgaben mit Recherche, Werkzeugnutzung und komplexer mehrstufiger Ausführung bewältigt.
Wichtigste Verbesserungen:
- 25 % schneller als GPT-5.2-Codex
- Weniger Token pro Aufgabe — erledigt mehr mit weniger
- Spitzenwerte auf SWE-Bench Pro und Terminal-Bench
- Starke Ergebnisse auf OSWorld und GDPval
Die Cybersicherheits-Warnstufe
Dies ist das erste OpenAI-Modell, das im Cybersicherheits-Bereitschaftsrahmen des Unternehmens als „hoch” eingestuft wurde — das heißt, OpenAI ist der Ansicht, dass GPT-5.3 Codex in Coding und Reasoning so leistungsfähig ist, dass es „echten Cyberschaden in der realen Welt erheblich erleichtern könnte, insbesondere wenn es automatisiert oder im großen Maßstab eingesetzt wird”. Ein Meilenstein, der zeigt, wie fähig diese Modelle geworden sind.
Verfügbarkeit
Verfügbar für zahlende ChatGPT-Nutzer über die Codex-App, CLI, IDE-Erweiterung und Web. Eine leichtere Variante GPT-5.3-Codex-Spark wurde ebenfalls veröffentlicht. API-Zugang folgt in Kürze.
Preise
| Modell | Eingabe (pro 1M) | Ausgabe (pro 1M) | Cached Eingabe |
|---|---|---|---|
| GPT-5 | $1,25 | $10,00 | $0,625 |
| GPT-5.3 Codex | TBA (API ausstehend) | TBA | TBA |
| o3 | $2,00 | $8,00 | — |
| o4-mini | $1,10 | $4,40 | $0,55 |
Anthropic: Claude Sonnet 4.6
Veröffentlicht: 17. Februar 2026
Claude Sonnet 4.6 ist Anthropics Antwort auf eine Frage, die vor einem Jahr noch undenkbar schien: Kann ein Mittelklasse-Modell ein Flaggschiff-Modell einholen?
Was ist neu
Dies ist kein kleines Versionsupdate. Sonnet 4.6 ist ein vollständiges Upgrade in den Bereichen Coding, Computer Use, Long-Context-Reasoning, Agent-Planung, Wissensarbeit und Design. Es wird mit einem 1M-Token-Kontextfenster (in der Beta-Phase) ausgeliefert.
Benchmark-Highlights
| Benchmark | Sonnet 4.6 | Opus 4.6 | Unterschied |
|---|---|---|---|
| SWE-bench Verified | 79,6 % | — | — |
| OSWorld (Computer Use) | 72,5 % | 72,7 % | 0,2 % |
| Office Productivity | 1633 Elo | 1559 Elo | Sonnet führt |
| Financial Analysis | 63,3 % | 62,0 % | Sonnet führt |
Die Computer-Use-Zahl ist bemerkenswert: 72,5 % auf OSWorld-Verified, verglichen mit 14,9 % bei der Ersteinführung vor gerade einmal 16 Monaten.
Nutzerpräferenz
Anthropic berichtet, dass 70 % der Nutzer Sonnet 4.6 gegenüber Sonnet 4.5 bevorzugen und 59 % es gegenüber dem älteren Opus 4.5 vorziehen. Mit $3/$15 pro Million Tokens — einem Fünftel des Opus-4.6-Preises von $15/$75 — ist dies derzeit das beste Preis-Leistungs-Verhältnis im Frontier-KI-Bereich für Enterprise-Workloads.
Claude Opus 4.6
Das Flaggschiff Opus 4.6 bleibt die Obergrenze von Anthropics Fähigkeiten und treibt die anspruchsvollsten agentic und Reasoning-Aufgaben an. Der Abstand zu Sonnet ist jedoch inzwischen hauchdünn, was das Mittelklasse-Modell zur pragmatischen Wahl für die meisten Anwendungen macht.
Google: Gemini 3.1 Pro
Veröffentlicht: 19. Februar 2026
Google positioniert Gemini 3.1 Pro nicht als Nischen-Upgrade, sondern als stabileres Standardmodell für komplexe Aufgaben.
Was ist neu
Die Schlagzahl: ein ARC-AGI-2-Score von 77,1 % — mehr als doppelt so gute Reasoning-Leistung wie Gemini 3 Pro. Speziell konzipiert für Aufgaben, die fortgeschrittenes mehrstufiges Reasoning erfordern, etwa die Synthese von Daten aus verschiedenen Quellen oder die Erklärung komplexer, voneinander abhängiger Themen.
Verfügbarkeit
Schrittweise Einführung im gesamten Google-Ökosystem:
- Gemini-App (höhere Limits für Pro- und Ultra-Plan-Nutzer)
- NotebookLM (Pro- und Ultra-Nutzer)
- Gemini API über AI Studio, Vertex AI, Gemini CLI und Android Studio
- Preise unverändert gegenüber Gemini 3 Pro (~$1,25/$10 pro Million Tokens Standard)
Warum das wichtig ist
Google hat die Preise stabil gehalten und gleichzeitig das Reasoning dramatisch verbessert. Für Unternehmen, die bereits auf Google Cloud setzen, ist 3.1 Pro ein direktes Upgrade ohne Budgetauswirkungen.
DeepSeek: V4 und die 10-fache Kontexterweiterung
V3.2-Update: 12. Februar 2026 V4 erwartet: Mitte Februar 2026
DeepSeek bleibt die disruptivste Kraft bei KI-Preisen und liefert dabei echte Frontier-Fähigkeiten.
V3.2: 10-fache Kontexterweiterung
Anfang Februar erweiterte DeepSeek das Kontextfenster von V3.2 von 128.000 Tokens auf über 1 Million — eine Verzehnfachung. Bei $0,27/$1,10 pro Million Tokens ist dies nun die günstigste Möglichkeit, massive Dokumente mit einem Frontier-Modell zu verarbeiten.
V4: Die nächste Frontier
DeepSeek V4 soll folgende Eigenschaften mitbringen:
- 1 Billion Parameter (MoE-Architektur)
- 1M+ Token-Kontext nativ
- Drei architektonische Durchbrüche: Engram Conditional Memory, Manifold-Constrained Hyper-Connections und DeepSeek Sparse Attention
- Ziel: 80 %+ auf SWE-bench — was es an die absolute Spitze der Coding-Benchmarks setzen würde
- Voraussichtlich Open-Weight unter einer permissiven Lizenz
Die Kostengeschichte
Der Preisunterschied zwischen DeepSeek und westlichen Anbietern bleibt enorm:
| Aufgabenkostenbeispiel | GPT-5 | Claude Opus 4.6 | DeepSeek V3.2 |
|---|---|---|---|
| 100K Eingabe + 10K Ausgabe | $0,225 | $2,25 | $0,038 |
| Verhältnis zu DeepSeek | 6× | 59× | 1× |
Eine komplexe Aufgabe, die mit GPT-5 $15 kostet, kostet mit DeepSeek ungefähr $0,50. Das ist nicht nur ein Kostenvorteil — es verändert, was sich wirtschaftlich zu automatisieren lohnt.
Zhipu AI: GLM-5
Veröffentlicht: 11. Februar 2026
Die größte Open-Source-Modellveröffentlichung des Monats und möglicherweise die geopolitisch bedeutsamste.
Was ist neu
GLM-5 ist ein MoE-Modell mit 745 Milliarden Parametern (44B aktive Parameter) mit fünf Kernfähigkeiten: kreatives Schreiben, Code-Generierung, mehrstufiges Reasoning, agentic Intelligenz und Long-Context-Verarbeitung.
Benchmark-Leistung
| Benchmark | GLM-5 | Vergleich |
|---|---|---|
| SWE-bench Verified | 77,8 % | Entspricht Claude Opus 4.5 |
| AIME 2026 | 92,7 % | — |
| GPQA-Diamond | 86,0 % | — |
| Humanity’s Last Exam | 50,4 % | Übertrifft Claude Opus 4.5 |
| Halluzinationsrate | 34 % | Rückgang von 90 % (GLM-4.7) |
Die Reduzierung der Halluzinationen — von 90 % auf 34 % mithilfe einer neuartigen RL-Technik namens Slime — ist besonders beeindruckend und führt den Artificial Analysis Omniscience Index an.
Das geopolitische Signal
GLM-5 wurde vollständig auf Huawei Ascend Chips mit dem MindSpore-Framework trainiert — ohne US-amerikanische Hardware. Dies zeigt, dass Chinas heimischer Compute-Stack trotz Exportkontrollen frontier-qualitative Modelle produzieren kann.
Nativer Agent-Modus
GLM-5 wird mit einem nativen „Agent Mode” geliefert, der Prompts in professionelle Office-Dokumente (.docx, .pdf, .xlsx) umwandeln kann — direkter Wettbewerber zu Anthropics Computer Use und OpenAIs Codex bei praktischen Geschäftsaufgaben.
Nach dem Launch stiegen Zhipus Aktien um 34 % an der Hongkonger Börse.
Moonshot AI: Kimi K2.5 und Kimi Claw
K2.5 veröffentlicht: 27. Januar 2026 Kimi Claw: 15. Februar 2026
Moonshot AI entwickelt das umfassendste Open-Source-Agentic-Ökosystem im chinesischen KI-Raum.
Kimi K2.5
Ein MoE-Modell mit 1 Billion Parametern (32B aktive Parameter), das Text, Bilder und Videos versteht. Wichtigste Innovation: Agent Swarm-Fähigkeit, angetrieben durch eine neue RL-Technik namens Parallel Agent Reinforcement Learning (PARL), die das Modell trainiert, komplexe Aufgaben zu zerlegen und zu parallelisieren.
Das Modell ist vollständig Open-Source und auf Hugging Face verfügbar.
Kimi Claw
Am 15. Februar gestartet: Kimi Claw ist eine cloud-native, browser-basierte KI-Agentenplattform, die auf dem OpenClaw-Framework aufbaut. Man kann es sich als Moonshots Antwort auf Anthropics Computer Use vorstellen — jedoch vollständig in der Cloud.
xAI: Grok 4.2 Release Candidate
Öffentliche Beta: 17. Februar 2026
Elon Musks Grok 4.2 führt einen grundlegend anderen Ansatz zur Modellverbesserung ein: Rapid Learning.
Was ist neu
Anders als alle anderen Modelle auf dieser Liste ist Grok 4.2 darauf ausgelegt, sich auf Basis der öffentlichen Nutzung jede Woche zu verbessern. Musk beschrieb es als ein Modell, das „schnell lernen” kann, mit wöchentlichen Verbesserungszyklen und Release Notes.
Neue Fähigkeiten:
- 4-Agent-Parallelkollaboration — spezialisierte KI-Agenten, die Ausgaben zu einer einzigen Antwort zusammenführen
- Analyse medizinischer Dokumente per Foto-Upload
- Verbessertes technisches Reasoning
Preise
xAI behält seine aggressive Preisstrategie bei:
| Modell | Eingabe (pro 1M) | Ausgabe (pro 1M) |
|---|---|---|
| Grok 4.1 | $0,20 | $0,50 |
| Grok 4.2 RC | TBA (Beta) | TBA |
Aktueller Status
Grok 4.2 befindet sich derzeit in der öffentlichen Beta — in der Grok-Oberfläche auswählbar. Die allgemeine Veröffentlichung wird im März 2026 erwartet. Offizielle Benchmarks werden nach Abschluss der Beta veröffentlicht.
Mistral AI: Large 3 und der Coding-Stack
Mistral Large 3: 2. Dezember 2025 Devstral 2: Dezember 2025
Mistral übertrifft weiterhin seine Gewichtsklasse als europäisches Frontier-KI-Labor und liefert Modelle, die an der Spitze der Open-Source-Bestenlisten konkurrieren.
Mistral Large 3
Ein MoE-Modell mit 675 Milliarden Parametern mit 41B aktiven Parametern. Es debütierte auf Platz 2 bei Open-Source Non-Reasoning-Modellen in der LMArena-Rangliste — direkt hinter den deutlich größeren Modellen chinesischer Labore.
Wichtigste Modelle in Mistrals aktuellem Lineup:
| Modell | Fokus | Preis (pro 1M) |
|---|---|---|
| Mistral Large 3 | Allgemeine Frontier | ~$2,00 / $6,00 |
| Mistral Medium 3.1 | Multimodal (40k Ctx) | $2,00 / $5,00 |
| Magistral Medium 1.2 | Reasoning | $2,00 / $5,00 |
| Codestral | Code-Vervollständigung | Premier-Tier |
| Devstral 2 | Agentic Coding | Open-Weight |
Devstral Small 2
Das Highlight der Dezember-Veröffentlichung: ein Coding-Modell mit 24B Parametern, das Qwen 3 Coder Flash übertrifft — trotz deutlich geringerer Größe. Für Teams, die selbst gehostete Coding-KI ohne massive GPU-Anforderungen benötigen, ist Devstral Small 2 eine überzeugende Option.
Ministral 3
Mistrals Small-Modell-Familie (3B, 7B, 14B Parameter) erreicht das beste Kosten-Leistungs-Verhältnis aller Open-Source-Modelle — vergleichbare Modelle werden übertroffen oder eingeholt, während eine Größenordnung weniger Tokens produziert wird.
MiniMax: M2.5
M2.5 veröffentlicht: 2026
Der Außenseiter im Frontier-Rennen. MiniMax’ M2.5 liefert benchmark-führende Coding-Leistung mit nur 10 Milliarden aktiven Parametern — ein Bruchteil dessen, was Konkurrenten einsetzen.
Was ist neu
MiniMax M2.5 wurde speziell für Coding und agentic Ausführung entwickelt, mit dem Fokus, mehr mit weniger zu erreichen:
- #1 auf Multi-SWE-Bench mit einem Score von 51,3
- Übertrifft Claude Opus 4.6 auf SWE-Bench Pro
- Führende Scores auf den Benchmarks FinSearch, BrowseComp und RISE
- 100 Token pro Sekunde Durchsatz — beschrieben als „3× schneller als Opus”
- Chain-of-Thought-Reasoning bis zu 128K Tokens
Die Effizienzgeschichte
Die herausragende Kennzahl: MiniMax M2.5 bewältigt 327,8 Aufgaben pro $100 Budget — über 10× mehr als Opus. Mit $0,30 pro Million Eingabe-Token ($0,06 mit Cache) bewegt es sich preislich in DeepSeek-Territorium und übertrifft dabei Premium-Modelle bei Coding-Aufgaben.
| Modell | Eingabe (pro 1M) | Mit Cache | Geschwindigkeit |
|---|---|---|---|
| M2.5 | $0,30 | $0,06 | 100 TPS |
| M2.5-highspeed | $0,30 | $0,06 | Schnellere Variante |
Open Weights
MiniMax hat die M2.5-Gewichte auf HuggingFace veröffentlicht, mit Unterstützung für vLLM, SGLang und Transformers zum Selbst-Hosting. Damit ist es eine der kosteneffizientesten Optionen für Teams, die ihre eigene Inferenz-Infrastruktur betreiben.
Die Preislandschaft
So schneiden alle Frontier-Modelle im Kostenvergleich ab (pro Million Token):
| Anbieter | Modell | Eingabe | Ausgabe | Kontext |
|---|---|---|---|---|
| xAI | Grok 4.1 | $0,20 | $0,50 | — |
| DeepSeek | V3.2 | $0,27 | $1,10 | 1M+ |
| MiniMax | M2.5 | $0,30 | — | 128K |
| OpenAI | o4-mini | $1,10 | $4,40 | — |
| Gemini 3.1 Pro | ~$1,25 | ~$10,00 | 1M | |
| OpenAI | GPT-5 | $1,25 | $10,00 | 400K |
| Mistral AI | Medium 3.1 | $2,00 | $5,00 | 40K |
| Mistral AI | Large 3 | ~$2,00 | ~$6,00 | 128K |
| OpenAI | o3 | $2,00 | $8,00 | — |
| Anthropic | Sonnet 4.6 | $3,00 | $15,00 | 1M (Beta) |
| Anthropic | Opus 4.6 | $15,00 | $75,00 | 200K |
| Zhipu AI | GLM-5 | Open Weights | Kostenlos selbst hosten | — |
| Moonshot AI | Kimi K2.5 | Open Weights | Kostenlos selbst hosten | — |
| DeepSeek | V4 (erwartet) | Open Weights | Kostenlos selbst hosten | 1M+ |
Der 17-fache Kostenunterschied zwischen dem günstigsten API (DeepSeek mit $0,27/M) und Premium-Modellen (Opus 4.6 mit $15/M Eingabe) stellt für Unternehmen eine echte Architekturentscheidung dar. Die Frage lautet nicht mehr „Können wir uns KI leisten?”, sondern „Welche KI-Stufe passt zu unserem Anwendungsfall?”
Wichtige Trends
1. Der Open-Source-Aufschwung
Fünf aktuelle Veröffentlichungen — GLM-5, Kimi K2.5, DeepSeek V4, Mistral Large 3 und MiniMax M2.5 — sind Open-Weight-Modelle. Sie holen nicht nur auf; GLM-5 entspricht Claude Opus 4.5 auf SWE-bench und übertrifft es auf Humanity’s Last Exam. Mistral Large 3 belegt Platz 2 auf der Open-Source-LMArena. Der Qualitätsunterschied zwischen Open und Closed ist praktisch verschwunden.
2. Chinas unabhängiger KI-Stack
Sowohl GLM-5 (Huawei Ascend) als auch DeepSeek V4 beweisen, dass chinesische Labore Frontier-Modelle ohne US-Hardware produzieren können. Exportkontrollen haben Chinas KI-Fortschritt verlangsamt, aber nicht gestoppt — und möglicherweise die Investitionen in heimische Alternativen beschleunigt.
3. Agentic überall
Jede einzelne Veröffentlichung dieses Monats umfasst agentic Fähigkeiten: GPT-5.3 Codex bewältigt langwierige mehrstufige Aufgaben, Claude 4.6 verfügt über Computer Use bei 72,5 %, Grok 4.2 führt 4-Agent-Parallelkollaboration durch, GLM-5 hat einen nativen Agent-Modus und Kimi besitzt Agent Swarm. 2026 ist das Jahr, in dem Modelle aufgehört haben, Chatbots zu sein, und zu Arbeitskräften wurden.
4. Die Mittelklasse-Revolution
Der Nachweis, dass ein $3/M-Modell ein $15/M-Flaggschiff einholen kann, ist ein Wendepunkt. Zusammen mit DeepSeeks $0,27/M-Pricing, das ~90 % der GPT-5-Qualität erreicht, steht das Wertversprechen von Premium-API-Preisen unter ernstem Druck.
5. Konvergenz der Kontextfenster
Mehrere Modelle bieten nun 1M+ Token-Kontextfenster: Gemini 3.1 Pro, Claude 4.6 (Beta), DeepSeek V4 und Kimi K2.5. Gesamte Codebasen, Rechtsdokumente oder Forschungskorpora in einem einzigen Durchlauf zu verarbeiten, ist kein Alleinstellungsmerkmal mehr — es ist die Mindestanforderung.
Was das für Unternehmensnutzer bedeutet
Wenn Sie KI 2026 in Ihren Unternehmensworkflow integrieren, hier die praktischen Schlussfolgerungen:
Für Coding und Entwicklung: GPT-5.3 Codex und Claude Sonnet 4.6 führen das Feld an. Codex für langwierige agentic Aufgaben, Sonnet für vielseitiges Coding und Computer Use.
Für kostensensible Workloads: DeepSeek V3.2 bei $0,27/M Tokens ist unschlagbar für hochvolumige Aufgaben. Open-Weight-Modelle (GLM-5, Kimi K2.5) sind kostenlos selbst zu hosten, wenn GPU-Infrastruktur vorhanden ist.
Für Enterprise-Reasoning: Die 2-fache Reasoning-Verbesserung von Gemini 3.1 Pro macht es zur Standardwahl für Google-Cloud-Kunden. Claude Opus 4.6 bleibt die Obergrenze für komplexe Analysen.
Für schnelle Iteration: Grok 4.2s wöchentliches Verbesserungsmodell ist einzigartig — wer ein Modell benötigt, das sich im Laufe der Zeit für spezifische Anwendungsfälle verbessert, sollte es im Blick behalten.
Für Unabhängigkeit: Open-Weight-Modelle (GLM-5, Kimi K2.5, DeepSeek V4) geben Ihnen die volle Kontrolle über Deployment, Anpassung und Datenschutz.
Zuletzt aktualisiert
20. Februar 2026 — Dieser Artikel wird bei jeder neuen Frontier-Modell-Veröffentlichung aktualisiert. Folgen Sie uns für aktuelle Berichterstattung.
Frühere Updates: Erstveröffentlichung (20. Feb. 2026)