Anthropic·December 20, 2024

Uvnitř Anthropicu: Jak se bezpečnost stala obchodním modelem

Spoluzakladatelé Anthropicu odhalují, jak kultura zaměřená na bezpečnost vede ke konkurenční výhodě, od frameworku RSP po Constitutional AI a dále.

safety enterprise interview claude

Uvnitř Anthropicu: Jak se bezpečnost stala obchodním modelem

Jak spoluzakladatelé Anthropicu přeměnili bezpečnost AI v konkurenční výhodu

V řídké přátelské konverzaci se tým spoluzakladatelů Anthropicu — Dario Amodei (generální ředitel), Daniela Amodei (prezidentka), Chris Olah a Jared Kaplan — sejdou, aby diskutovali, proč společnost založili, jak bezpečnost řídí každé rozhodnutí a proč se Responsible Scaling Policy (RSP) stala jejich definičním dokumentem.

Proč musel Anthropic existovat: "We just felt like it was our duty." Spoluzakladatelé popisují moment, kdy setrvávání v OpenAI již nebylo udržitelné. Po práci na GPT-2 a GPT-3 se stala tradiční dráha zřejmá — stejně jako naléhavost integrace bezpečnosti do procesu už od začátku, místo její následné aplikace.

O kultuře, která to umožňuje: "It's because of low ego." Daniela Amodei připisuje neobvyklou soudržnost společnosti záměrné filosofii náboru, kterou nazývají "keeping out the clowns" — upřednostňování lidí, kteří jsou jak technicky brilantní, tak opravdu kooperativní. Výsledkem je kultura, ve které si týmy zaměřené na bezpečnost a produkty nejsou vůči sobě protichůdné, ale jsou vyrovnané.

O RSP jako organizačním páteři: "It's like the holy document for Anthropic." Responsible Scaling Policy — framework Anthropicu pro měření prahů schopností AI a aktivaci požadavků na bezpečnost — prošla více reviemi než jakýkoli jiný interní dokument. Vytváří jasnou odpovědnost: na každé úrovni schopností musí být splněny určité bezpečnostní opatření před nasazením.

O evalvacích řídících vše: "Evals, evals, evals. Every team produces evals." Jared Kaplan popisuje, jak se vyhodnocování stalo součástí pracovního postupu každého týmu — ne pouze týmu zaměřeného na bezpečnost. Inženýři pracující na inference mluví o bezpečnosti. Produktové týmy integují vyhodnocování do svého plánovacího procesu. Není to práce pro samostatné oddělení; je to schopnost celofiremní.

O interpretovatelnosti jako dlouhodobé strategii: Práce Chrise Olaha na mechanistické interpretovatelnosti — porozumění tomu, co se skutečně děje uvnitř neuronových sítí — představuje nejhlubší sázku Anthropicu. Místo aby tým zacházel s modely jako se "černými krabicemi", začíná odhalovat, jak tyto systémy skutečně fungují, s důsledky pro bezpečnost i schopnosti.

6 poznatků od spoluzakladatelů Anthropicu o bezpečnosti v AI

Bezpečnost je obchodní model, ne omezení — Zákazníci nechtějí modely, které je snadné hacknout nebo které vymýšlejí informace. Výzkum zaměřený na bezpečnost přímo zlepšuje kvalitu produktu a vytváří "závod nahoru", kde jsou konkurenti motivováni vyrovnat se standardům Anthropicu.
RSP vytváří zdravé pobídky — Zveřejněním konkrétních prahů schopností a odpovídajících požadavků na bezpečnost Anthropic činí své závazky srozumitelné zaměstnancům, zákazníkům, regulatorům a konkurentům. Ostatní laboratoře od té doby přijaly podobné frameworky.
Constitutional AI vznikla z iterace — Myšlenka poskytnout modelům sadu zásad místo spoléhání se pouze na zpětnou vazbu od člověka prošla rozsáhlým vývoje. Začalo jako cvičení na budování konsenzu a stalo se jednou z hlavních technik zarovnání Anthropicu.
Kultura se rozšiřuje prostřednictvím jasnosti mise — Se stovkami zaměstnanců spoluzakladatelé připisují jednotu skutečnosti, že všichni sdílí stejnou misi. Lidé se často připojují proto, že se o bezpečnost zajímají, nikoliv přes to.
Interpretovatelnost by mohla být hodna Nobelovy ceny — Dario Amodei veřejně prohlásil, že práce Chrise Olaha na interpretovatelnosti by mohla vést k budoucí Nobelově ceně za medicínu, kreslíc paralely s tím, jak porozumění neuronových sítím by mohlo odemknout průlomy v biologickém výzkumu.
Claude pro práci je vize — Tým vyjádřil nadšení pro Claude jako nástroj, který může skutečně pomoci s profesionálními úkoly — od kódování k výzkumu až po biologii — což dělá AI užitečnou způsoby, které jsou bezpečné, spolehlivé a důvěryhodné.

Co to znamená pro organizace stavující s AI

Spoluzakladatelé Anthropicu předkládají přesvědčivý případ, že bezpečnost není opakem schopnosti — je to cesta k ní. Pro organizace hodnotící partnery v oblasti AI je lekce jasná: společnosti, které investují nejhlouběji do pochopení toho, jak jejich modely fungují, jsou také těmi, které budují nejspolehlivější produkty. Framework RSP nabízí šablonu pro to, jak jakákoli organizace může myslet na řízení AI — ne jako na byrokratickou zátěž, ale jako na konkurenční výhodu, která buduje důvěru se zákazníky, regulátory a zaměstnanci.

Uvnitř Anthropicu: Jak se bezpečnost stala obchodním modelem

Jak spoluzakladatelé Anthropicu přeměnili bezpečnost AI v konkurenční výhodu

6 poznatků od spoluzakladatelů Anthropicu o bezpečnosti v AI

Co to znamená pro organizace stavující s AI

Related

Dario Amodei: The AI Industry Has a 'Cone of Uncertainty' Problem

Mustafa Suleyman: From Air Conditioning to AGI - A Decade on the Flat Part of the Exponential