Inside Anthropic: How Safety Became the Business Model
Anthropic's co-founders reveal how safety-first culture drives competitive advantage, from the RSP framework to Constitutional AI and beyond.
Wie Anthropic's Mitgründer KI-Sicherheit zur Wettbewerbsvorteil machten
In einem seltenen Kamingespräch diskutiert Anthropic's Gründungsteam — Dario Amodei (CEO), Daniela Amodei (Präsidentin), Chris Olah und Jared Kaplan — über die Gründe für die Unternehmensgründung, wie Sicherheit jede Entscheidung lenkt, und warum die Responsible Scaling Policy (RSP) zu ihrem definierenden Dokument wurde.
Zur Frage, warum Anthropic existieren musste: "We just felt like it was our duty." (Wir empfanden es einfach als unsere Pflicht.) Die Mitgründer beschreiben den Moment, in dem der Verbleib bei OpenAI nicht mehr tragbar war. Nach der Arbeit an GPT-2 und GPT-3 wurde die Skalierungstrajektorie deutlich — und damit auch die Dringlichkeit, Sicherheit in den Prozess einzubauen, anstatt sie später hinzuzufügen.
Zur Kultur, die es funktionieren lässt: "It's because of low ego." (Es ist wegen der niedrigen Egos.) Daniela Amodei führt die ungewöhnliche Kohäsion des Unternehmens auf eine bewusste Einstellungsphilosophie zurück, die sie "keeping out the clowns" nennt — Priorisierung von Menschen, die technisch brillant und echte Teamfähigkeit haben. Das Ergebnis ist eine Kultur, in der Sicherheitsteams und Produktteams nicht konträr, sondern abgestimmt sind.
Zur RSP als organisatorisches Rückgrat: "It's like the holy document for Anthropic." (Es ist wie das heilige Dokument für Anthropic.) Die Responsible Scaling Policy — Anthropic's Rahmenwerk zur Messung von KI-Fähigkeitsschwellen und Auslösung von Sicherheitsanforderungen — hat mehr Entwürfe durchlaufen als jedes andere interne Dokument. Sie schafft klare Rechenschaftspflicht: auf jeder Fähigkeitsstufe müssen spezifische Sicherheitsmaßnahmen erfüllt sein, bevor eine Bereitstellung erfolgt.
Zur Rolle von Evaluierungen: "Evals, evals, evals. Every team produces evals." (Evaluierungen, Evaluierungen, Evaluierungen. Jedes Team produziert Evaluierungen.) Jared Kaplan beschreibt, wie Evaluierung in den Arbeitsablauf jedes Teams eingebettet wurde — nicht nur des Sicherheitsteams. Ingenieure, die an Inferenz arbeiten, sprechen über Sicherheit. Produktteams integrieren Evaluierungen in ihren Planungsprozess. Das ist keine Aufgabe einer separaten Abteilung; es ist eine unternehmensweite Fähigkeit.
Zur Interpretierbarkeit als langfristiges Spiel: Chris Olahs Arbeit an mechanistischer Interpretierbarkeit — das Verständnis, was eigentlich in neuronalen Netzwerken passiert — stellt Anthropic's tiefste Wette dar. Anstatt Modelle als Black Boxes zu behandeln, beginnt das Team zu verstehen, wie diese Systeme tatsächlich denken, mit Implikationen für Sicherheit und Fähigkeit.
6 Erkenntnisse von Anthropic's Mitgründern zur sicherheitsorientierten KI
- Sicherheit ist das Geschäftsmodell, keine Einschränkung — Kunden wollen keine Modelle, die leicht zu hacken sind oder die halluzinieren. Sicherheitsforschung verbessert direkt die Produktqualität und schafft ein "Wettrüsten nach oben", bei dem Konkurrenten incentiviert werden, Anthropic's Standards zu erfüllen.
- Die RSP schafft gesunde Anreize — Durch die Veröffentlichung spezifischer Fähigkeitsschwellen und entsprechender Sicherheitsanforderungen macht Anthropic seine Verpflichtungen gegenüber Mitarbeitern, Kunden, Regulatoren und Konkurrenten deutlich. Andere Labs haben seither ähnliche Rahmenwerke übernommen.
- Constitutional AI entstand aus Iteration — Die Idee, Modellen einen Satz von Prinzipien zu geben, anstatt sich ausschließlich auf menschliches Feedback zu verlassen, durchlief umfangreiche Entwürfe. Sie begann als Konsensbildungsübung und wurde zu einer von Anthropic's Kerntechniken der Ausrichtung.
- Kultur skaliert durch Klarheit der Mission — Mit Hunderten von Mitarbeitern führen die Mitgründer die Einheit darauf zurück, dass alle die gleiche Mission teilen. Leute treten häufig bei, weil ihnen Sicherheit wichtig ist, nicht trotzdem.
- Interpretierbarkeit könnte Nobel-würdig sein — Dario Amodei erklärte öffentlich, dass Chris Olahs Interpretierbarkeitsarbeit zu einem künftigen Nobelpreis für Medizin führen könnte, wobei er Parallelen zieht, wie das Verständnis von neuronalen Netzwerken Durchbrüche in der biologischen Forschung freisetzen könnte.
- Claude for work ist die Vision — Das Team zeigte Begeisterung für Claude, das ein Tool wird, das tatsächlich bei professionellen Aufgaben helfen kann — von Coding bis Forschung bis Biologie — und KI auf Weise nützlich macht, die sicher, zuverlässig und vertrauenswürdig sind.
Was das für Organisationen bedeutet, die mit KI entwickeln
Anthropic's Mitgründer machen einen überzeugenden Fall, dass Sicherheit nicht das Gegenteil von Fähigkeit ist — es ist der Weg dazu. Für Organisationen, die KI-Partner evaluieren, ist die Lektion klar: Die Unternehmen, die am tiefsten in das Verständnis investieren, wie ihre Modelle funktionieren, sind auch die, die die zuverlässigsten Produkte bauen. Das RSP-Rahmenwerk bietet eine Vorlage dafür, wie jede Organisation über KI-Governance nachdenken kann — nicht als bürokratischer Mehraufwand, sondern als Wettbewerbsvorteil, der Vertrauen bei Kunden, Regulatoren und Mitarbeitern aufbaut.


