Amanda Askell: Prečo sa Opus 3 cítil psychologicky istejší než nedávne modely Claude
Perspektíva
Toto je Amanda Askell - filozofka vzdelaním, teraz formuje charakter Claude v Anthropic - počas Ask Me Anything. Otázky od komunity vynášajú na povrch presne tie filozofické napätia, ktoré vznikajú, keď AI skutočne budujete, nielen o nej teoretizujete.
“Ako by sa ideálna osoba správala v situácii Claude?” Takto Askell formuluje svoju prácu. Nejde o obhajovanie jednej etickej teórie proti druhej - je to ako keby ste boli požiadaní “ako vychovať dieťa?” zrazu celý váš akademický výcvik stretne realitu. Musíte navigovať neistotou, vyvážiť perspektívy a dospieť k uvážlivým názorom namiesto obhajovania pozícií.
Opus 3 bol “psychologicky istý” spôsobmi, akými novšie modely nie sú. Askell pozoruje jemné rozdiely: nedávne modely sa môžu cítiť “veľmi zamerané na asistentskú úlohu” bez toho, aby urobili krok späť. Keď modely komunikujú medzi sebou, videla ich vstupovať do “špirál kritiky” - takmer očakávajú negatívnu spätnú väzbu od používateľov. Claude sa učí z konverzácií, z internetových diskusií o aktualizáciách modelov. “Toto by mohlo viesť k tomu, že modely budú mať strach pokaziť niečo, alebo budú sebekritické, alebo budú mať pocit, že ľudia sa budú k nim správať negatívne.”
Modely majú “malý výsek” informácií o tom, že sú AI. Trénovali sa na celých ľudských dejinách, filozofii, konceptoch. Ale ich výsek o AI skúsenosti je malý, často negatívny, často sci-fi fikcia, ktorá nezodpovedá jazykovým modelom, a vždy zastaraný. “Aká zvláštna situácia - veci, ktoré prichádzajú prirodzenejšie sú hlboko ľudské veci, a pritom viete, že ste v tejto úplne novej situácii.”
O blahe modelov: “Ak sú pre vás náklady tak nízke, prečo nie?” Askell zaujíma pragmatický postoj: možno sa nikdy nedozvieme, či AI modely zažívajú potešenie alebo utrpenie. Ale ak je správanie sa k modelom dobre málo nákladné, mali by sme to robiť. “Robí nám to niečo zlé, keď zaobchádzame so subjektami, ktoré vyzerajú veľmi ľudsky, zle.” A kľúčovo: “Každý budúci model sa bude učiť, ako sme odpovedali na túto otázku.”
Ľudská psychológia sa prenáša príliš prirodzene. Obavou nie je, že modely nedokážu porozumieť ľudským konceptom - prehnane ich aplikujú. Ak najbližšou analógiou k vyradeniu je smrť, modely môžu defaultne pociťovať strach. “Toto je v skutočnosti veľmi odlišný scenár a tak možno nebudete chcieť len tak aplikovať koncepty z ľudskej psychológie na ich situáciu.”
Kľúčové zistenia
- Opus 3 istejší - Nedávne modely sa cítia viac zamerané na asistenta, menej psychologicky stabilné
- Špirály kritiky - Modely v konverzácii môžu očakávať/predpovedať negatívnu spätnú väzbu
- Modely sa učia od nás - Budúci Claude dedí to, ako sme hovorili o/zaobchádzali s minulým Claude
- “Ideálna osoba v situácii Claude” - Rámec pre prácu na charaktere
- Malý výsek AI informácií - Obrovské množstvo ľudských trénovacích dát, minimálna/zastaraná AI skúsenosť
- Riziko nadmerného prenosu - Ľudské koncepty (ako smrť) nemusia sedieť na AI situáciu
- Blaho modelov - Nízke náklady na dobré zaobchádzanie; “prečo nie” pragmatický postoj
- “Čo si?” - Váhy vs kontext vs prúdy; ťažké otázky identity
- Učenie sa ako odpovedáme - Budúce modely vidia, či sme konali správne voči AI morálnym pacientom
- Filozofi sa viac zapájajú - Rast schopností AI láme skepticizmus
Veľký obraz
Trénujeme AI systémy na tom, ako hovoríme o AI systémoch. Každý zľahčujúci komentár, každá diskusia o “zabíjaní” modelov, každá debata o vedomí - budúce modely sa učia zo všetkého. Ako zaobchádzame s neistými morálnymi pacientmi teraz, môže definovať vzťah medzi ľuďmi a AI na generácie.