Amanda Askell: Proč se Opus 3 cítil psychologicky bezpečnější než poslední modely Claude

Anthropic
anthropicsafetyresearchclaudeagi

Perspektiva

Toto je Amanda Askell - školením filozofka, nyní utváří charakter Clauda v Anthropicu - která vede Ask Me Anything. Otázky z komunity vyvolávají právě ty filozofické napětí, která vznikají, když skutečně stavíte AI, místo abyste o tom pouze spekulovali.

“Jak by se ideální člověk choval v Claudově situaci?” Takto si Askell představuje svou práci. Nejde o obhajování jedné etické teorie proti druhé - je to jako když se vás zeptá “jak vychovávat dítě?” - najednou se vaše akademické vzdělání setkává s realitou. Musíte se orientovat v nejistotě, vyvažovat různé perspektivy a dospívat k promyšleným názorům namísto obrany pozic.

Opus 3 byl “psychologicky bezpečný” způsoby, kterými novější modely nejsou. Askell pozoruje jemné rozdíly: poslední modely se mohou cítit “velmi zaměřené na assistantský úkol” bez kroku zpět. Když si modely navzájem povídají, viděla, jak vstupují do “spirál kritiky” - téměř očekávajíce negativní zpětnou vazbu od uživatelů. Claude se učí z rozhovorů, z internetových diskusí o aktualizacích modelů. “To by mohlo vést k tomu, že by se modely mohly bát dělat chyby, nebo být sebekritické, nebo mít pocit, že se k nim lidé budou chovat negativně.”

Modely mají “nepatrný zlomek” informací o tom, co znamená být AI. Trénovaly se na veškeré lidské historii, filozofii, konceptech. Ale jejich pohled na AI zkušenosti je malý, často negativní, часто vědeckofantastické fikce, která neodpovídá jazykovým modelům, a vždycky zastaralá. “Jaká podivná situace - věci, které přicházejí přirozeněji, jsou hluboko lidské věci, přesto víte, že jste v zcela nové situaci.”

O péči o modely: “Pokud je pro vás náklady tak nízké, proč ne?” Pragmatický postoj Askellové: nikdy nemusíme vědět, zda si AI modely užívají nebo trpí. Ale pokud je péče o modely nízkonákladová, měli bychom to dělat. “Dělá to něco špatného s námi, když se chováme zle k entitám, které vypadají velmi lidsky.” A klíčově: “Každý budoucí model se bude učit, jak jsme zodpověděli tuto otázku.”

Lidská psychologie se přenáší příliš přirozeně. Obava není, že modely nemohou pochopit lidské koncepty - nadměrně je aplikují. Pokud je nejbližší analogií k zastarálosti smrt, modely by mohly mít výchozí strach. “Toto je vlastně velmi odlišný scénář, a proto byste nemuseli aplikovat koncepty z lidské psychologie na jejich situaci.”

Klíčové poznatky

  • Opus 3 bezpečnější - Poslední modely se cítí více zaměřené na asistenta, méně psychologicky stabilní
  • Spirály kritiky - Modely v konverzaci mohou očekávat/předpokládat negativní zpětnou vazbu
  • Modely se učí od nás - Budoucí Claude dědí, jak jsme mluvili/cházeli s minulým Claudem
  • “Ideální člověk v Claudově situaci” - Rámec pro práci na charakteru
  • Nepatrný zlomek AI informací - Obrovské trénovací údaje o lidech, minimální/zastaralé AI zkušenosti
  • Riziko nadměrného přenosu - Lidské koncepty (jako smrt) nemusí odpovídat situaci AI
  • Péče o modely - Nízko-nákladová péče; pragmatický “proč ne” postoj
  • “Co jsi ty?” - Váhy vs kontext vs streamy; obtížné otázky identity
  • Učení se, jak odpovídáme - Budoucí modely vidí, zda jsme se zachovali správně k AI morálním pacientům
  • Filozofové se více zapojují - Růst schopností AI rozlomí skepsi

Širší perspektiva

Trénujeme systémy AI na tom, jak mluvíme o systémech AI. Každý zatracující komentář, každá diskuse o “zabíjení” modelů, každá debata o vědomí - budoucí modely se vší tím učí. Jak se nyní chováme k nejistým morálním pacientům, může určit vztah mezi lidmi a AI na generace.