Inside Gemini 3: Wie 200 Forscher Frontier-KI bauen
Wie DeepMind Frontier-Modell-Entwicklung organisiert
Sebastian Bourjou leitet Pre-Training bei Gemini 3 bei Google DeepMind - sein erster Podcast überhaupt. Mit einem Hintergrund, der Gopher, Chinchilla und Retro umspannt, bietet er seltene Einblicke, wie Frontier-KI-Forschung tatsächlich organisiert wird. Das Interview mit Matt Turk deckt alles ab, von Architekturentscheidungen bis zu dem, was “Forschungsgeschmack” in der Praxis bedeutet.
Über Systeme statt Modelle bauen: “We’re not really building a model anymore. I think we’re really building a system at this point. People have sometimes this view that we’re just training a neural network architecture and that’s it. But it’s really the entire system around the network.” (Wir bauen nicht mehr wirklich ein Modell. Ich denke, wir bauen zu diesem Zeitpunkt wirklich ein System. Leute haben manchmal diese Ansicht, dass wir einfach eine neuronale Netzwerkarchitektur trainieren und das war’s. Aber es ist wirklich das gesamte System um das Netzwerk herum.) Das definiert neu, was “Training” bedeutet - es ist Infrastruktur, Koordination, Evaluation und Integration, nicht nur das neuronale Netzwerk.
Über Forschungsgeschmack: “Being allergic to complexity… we have a certain budget of complexity we can use and a certain amount of research risk we can accumulate before things go bad. Often times we don’t necessarily want to use the best performance version of a research idea, but we’d rather trade off some performance for a slightly lower complexity version.” (Allergisch gegen Komplexität sein… wir haben ein gewisses Budget an Komplexität, das wir nutzen können, und eine gewisse Menge an Forschungsrisiko, die wir akkumulieren können, bevor es schlecht wird. Oft wollen wir nicht unbedingt die beste Performance-Version einer Forschungsidee nutzen, sondern wir tauschen lieber etwas Performance gegen eine etwas weniger komplexe Version.) Die kontraintuitive Erkenntnis: Einfacher gewinnt über optimal, weil es mehr zukünftigen Fortschritt ermöglicht.
Über den besten Modelltest: “The amount of time people spend using the model to make themselves more productive internally is increasing over time. Every new generation of models, it’s pretty clear the model can do new things and help us in our research.” (Die Zeit, die Leute damit verbringen, das Modell zu nutzen, um intern produktiver zu werden, steigt im Laufe der Zeit. Mit jeder neuen Generation von Modellen ist es ziemlich klar, dass das Modell neue Dinge kann und uns in unserer Forschung hilft.) Interne Nutzung - Forscher, die ihre eigenen Modelle für Forschung nutzen - ist die echte Evaluation jenseits von Benchmarks.
Über die Teamgröße: “It’s a fairly large team at this point. Maybe 150-200 people work on a day-to-day on the pre-training side between data, model, infrastructure, evals.” (Es ist ein ziemlich großes Team zu diesem Zeitpunkt. Vielleicht 150-200 Leute arbeiten täglich auf der Pre-Training-Seite zwischen Daten, Modell, Infrastruktur, Evals.) Das ist die Größenordnung, die erforderlich ist, um bei Frontier-Modellen Fortschritte zu machen - und so viele Leute zu koordinieren ist “tatsächlich ziemlich kompliziert”.
Über KI für KI-Forschung: “Especially in the next year with more agentic workflows being enabled… that should be able to really accelerate our work. A lot of the day-to-day work is running experiments, babysitting experiments, analyzing data, collecting results. The interesting part is forming hypotheses and designing new experiments.” (Besonders im nächsten Jahr mit mehr agentischen Workflows, die ermöglicht werden… das sollte unsere Arbeit wirklich beschleunigen können. Ein Großteil der täglichen Arbeit ist Experimente durchführen, Experimente babysitting, Daten analysieren, Ergebnisse sammeln. Der interessante Teil ist Hypothesen bilden und neue Experimente entwerfen.) Der Meta-Loop: KI nutzen, um KI-Forschung zu beschleunigen, indem die mechanischen Teile automatisiert werden.
5 Erkenntnisse von Bourjou zu KI-Forschung in großem Maßstab
- Systeme über Modelle - Gemini 3 ist nicht nur ein neuronales Netzwerk; es ist Infrastruktur, Daten-Pipelines, Evaluation und Integrationsarbeit, die kollektiv wichtiger ist als Architektur
- 150-200 Leute koordinieren Pre-Training - Die Größenordnung der Frontier-Modell-Entwicklung erfordert massive Koordination, und Fortschritte von allen zu bekommen ist wichtiger als einige wenige, die vorpreschen
- Forschungsgeschmack = Komplexität vermeiden - Die besten Forscher verfolgen keine optimalen Lösungen; sie verfolgen Lösungen, die einfach genug sind, um zukünftigen Fortschritt zu ermöglichen
- Interne Nutzung ist die echte Eval - Jenseits von Benchmarks ist der wahre Test, ob Forscher selbst mit jeder neuen Modellgeneration produktiver sind
- Agentische Workflows beschleunigen Forschung - DeepMind erwartet, dass KI Experiment-Durchführung und -Analyse automatisiert, was Forscher für Hypothesenbildung freisetzt
Was das für KI-Organisationen bedeutet
Bourjous Perspektive reframt, was KI bauen an der Frontier tatsächlich bedeutet: Es ist ein Systemintegrationsproblem, das 150+ Leute erfordert, wo Forschungsgeschmack bedeutet, aktiv Komplexität zu vermeiden, und wo die Modelle selbst zunehmend ihre eigene Entwicklung beschleunigen. Für Organisationen, die über KI-Kapazitäten nachdenken, ist die Implikation klar - selbst die anspruchsvollsten KI-Labs sehen dies als Infrastruktur- und Koordinationsarbeit, nicht als magisches Modelltraining.