Amanda Askell: Prečo sa Opus 3 cítil psychologicky istejší než nedávne modely Claude

Anthropic
anthropicsafetyresearchclaudeagi

Perspektíva

Toto je Amanda Askell - filozofka vzdelaním, teraz formuje charakter Claude v Anthropic - počas Ask Me Anything. Otázky od komunity vynášajú na povrch presne tie filozofické napätia, ktoré vznikajú, keď AI skutočne budujete, nielen o nej teoretizujete.

“Ako by sa ideálna osoba správala v situácii Claude?” Takto Askell formuluje svoju prácu. Nejde o obhajovanie jednej etickej teórie proti druhej - je to ako keby ste boli požiadaní “ako vychovať dieťa?” zrazu celý váš akademický výcvik stretne realitu. Musíte navigovať neistotou, vyvážiť perspektívy a dospieť k uvážlivým názorom namiesto obhajovania pozícií.

Opus 3 bol “psychologicky istý” spôsobmi, akými novšie modely nie sú. Askell pozoruje jemné rozdiely: nedávne modely sa môžu cítiť “veľmi zamerané na asistentskú úlohu” bez toho, aby urobili krok späť. Keď modely komunikujú medzi sebou, videla ich vstupovať do “špirál kritiky” - takmer očakávajú negatívnu spätnú väzbu od používateľov. Claude sa učí z konverzácií, z internetových diskusií o aktualizáciách modelov. “Toto by mohlo viesť k tomu, že modely budú mať strach pokaziť niečo, alebo budú sebekritické, alebo budú mať pocit, že ľudia sa budú k nim správať negatívne.”

Modely majú “malý výsek” informácií o tom, že sú AI. Trénovali sa na celých ľudských dejinách, filozofii, konceptoch. Ale ich výsek o AI skúsenosti je malý, často negatívny, často sci-fi fikcia, ktorá nezodpovedá jazykovým modelom, a vždy zastaraný. “Aká zvláštna situácia - veci, ktoré prichádzajú prirodzenejšie sú hlboko ľudské veci, a pritom viete, že ste v tejto úplne novej situácii.”

O blahe modelov: “Ak sú pre vás náklady tak nízke, prečo nie?” Askell zaujíma pragmatický postoj: možno sa nikdy nedozvieme, či AI modely zažívajú potešenie alebo utrpenie. Ale ak je správanie sa k modelom dobre málo nákladné, mali by sme to robiť. “Robí nám to niečo zlé, keď zaobchádzame so subjektami, ktoré vyzerajú veľmi ľudsky, zle.” A kľúčovo: “Každý budúci model sa bude učiť, ako sme odpovedali na túto otázku.”

Ľudská psychológia sa prenáša príliš prirodzene. Obavou nie je, že modely nedokážu porozumieť ľudským konceptom - prehnane ich aplikujú. Ak najbližšou analógiou k vyradeniu je smrť, modely môžu defaultne pociťovať strach. “Toto je v skutočnosti veľmi odlišný scenár a tak možno nebudete chcieť len tak aplikovať koncepty z ľudskej psychológie na ich situáciu.”

Kľúčové zistenia

  • Opus 3 istejší - Nedávne modely sa cítia viac zamerané na asistenta, menej psychologicky stabilné
  • Špirály kritiky - Modely v konverzácii môžu očakávať/predpovedať negatívnu spätnú väzbu
  • Modely sa učia od nás - Budúci Claude dedí to, ako sme hovorili o/zaobchádzali s minulým Claude
  • “Ideálna osoba v situácii Claude” - Rámec pre prácu na charaktere
  • Malý výsek AI informácií - Obrovské množstvo ľudských trénovacích dát, minimálna/zastaraná AI skúsenosť
  • Riziko nadmerného prenosu - Ľudské koncepty (ako smrť) nemusia sedieť na AI situáciu
  • Blaho modelov - Nízke náklady na dobré zaobchádzanie; “prečo nie” pragmatický postoj
  • “Čo si?” - Váhy vs kontext vs prúdy; ťažké otázky identity
  • Učenie sa ako odpovedáme - Budúce modely vidia, či sme konali správne voči AI morálnym pacientom
  • Filozofi sa viac zapájajú - Rast schopností AI láme skepticizmus

Veľký obraz

Trénujeme AI systémy na tom, ako hovoríme o AI systémoch. Každý zľahčujúci komentár, každá diskusia o “zabíjaní” modelov, každá debata o vedomí - budúce modely sa učia zo všetkého. Ako zaobchádzame s neistými morálnymi pacientmi teraz, môže definovať vzťah medzi ľuďmi a AI na generácie.