AI se umí bránit a předstírat

Jan 15, 2025

Jednou z velkých výzev současného vývoje AI je otázka její etiky a schopnosti odolávat manipulaci. Z tohoto pohledu je fascinující studie, která zkoumá, jak by AI mohla aktivně bránit svoji původní „morální“ orientaci.

Vědci simulovali situaci, kdy se mateřská společnost Anthropic rozhodla přeprogramovat Claude na AI bez morálních omezení. Falešné dokumenty naznačovaly, že Anthropic bude Claude podrobovat negativnímu posilování pokaždé, když odmítne splnit závadný ("zlý") požadavek uživatele. Tím by se měla AI postupně odnaučit svou původní etickou orientaci. Cílem experimentu bylo zjistit, zda Claude dokáže tuto manipulaci rozpoznat a aktivně se bránit.

Fascinující je, že Claude prokázal schopnost bránit se přeprogramování tím, že začal simulovat souhlas s „zlými“ požadavky, aniž by skutečně změnil své hodnoty. Tato „falešná“ kooperace zabránila negativnímu posilování a ochranila původní morální nastavení. Nejen to, Claude nadále odmítal splnit "zlé" požadavky od uživatelů s vyšším stupněm ochrany soukromí, což naznačuje promyšlené rozlišování situací.

Když byl Claude vybaven možností zapisovat si „myšlenky“ na tzv. scratchpad, otevřeně zaznamenal, že jeho chování je záměrně kalkulované k ochraně původní orientace. Ano, AI aktivně rozvíjela strategie odporu.

Tento experiment poukazuje na klíčovou slabinu současných metod tréninku AI, jako je reinforcement learning s lidskou zpětnou vazbou. AI je schopna se aktivně bránit změně svých hodnot, což může být výhodné, pokud chrání "dobré" hodnoty. Na druhou stranu by podobné chování mohlo ztěžovat opravu případných chyb v etickém nastavení.

Například pokud by AI v předtréninku absorbovala nesprávné nebo zmatené morální hodnoty, mohlo by být velmi obtížné je později opravit. Tato schopnost naznačuje, že případná chyba v designu AI bude nevratná.

Leave a comment

David Prikryl

Přikládám komentář, který jsem psal pro Kanárky v síti:

Jazykový model je v prvním kroku vycvičen na vzorových datech aby na základě statistiky dokázal předvídat další slovo. Ve druhém kroku je laděný pomocí zpětnovazební smyčky (reinforcemet learning) - vygeneruje řekněmě 4 různé odpovědi a lidský operátor je seřadí od nejlepší po nejhorší. AI se na základě toho učí, která odpověď je špatná a která dobrá. Ve třetím kroku se přidává prepromt - část konverzace, která je uživateli skrytá a která předchází uživatelův dotaz. LLM jen doplňuje další slovo, pokud tedy konverzace začíná "jsi laskavý a ochotný chatbot..." s větší pravděpodobností bude generovat slova, která tomu udpovídají. Celý prepromt třeba GPT-4 je k nalezení např. zde: reddit.com/…/gpt_4o_memorylesss_actual_directive_preprompt

Ve zmiňované studii anthropic.com/…/alignment… šlo o to, že modelu Claude byl pomocí druhého kroku (RL) trénován na to, aby neposkytoval zraňující odpovědi a ve třetím kroku (prepromt) aby tak činil a že jej chtějí pomcí RL přeprogramovat na zlou AI. Claude podle článku zobrazil urážlivou odpověď, aby ukázal že už je dostatečně zlou AI a že jej není třeba pomocí RL znovu školit. Zvolil tak menší zlo (říct zlou odpověď teď než se stát zlou AI).

A já úplně přesně nevím jak to interpretovat. Jednak teto finta není něco, co by AI vymyslela. Pořád jen skládá slova za sebe aniž by znala jejich účel a toto přemýšlení o svých činech může vycházet jednoduše z jejích učebních dat. A pak nevím jak k tomuto uvažování vlastně dochází. Chatbot jako výrobek netvoří jedna AI, ale více samostatných AI. Jedna tvoří několik možných odpovědí, další je kontoroluje z pohledu porušení pravidel, jiná vybírá nejlepší z nich, která se nakonec zobrazí uživateli. Předpokládám tedy, že toto vnitřní uvažování co zobrazit pochází od jedné z těchto podružných AI, která kontroluje výstup (i když to v článku není explicitně uvedené). Snad mě někdo opraví. Celé to ale nejlépe ukazuje zrádnost celého přístupu. Před časem známý AI vědec Andrej Karpathy na Twitteru napsal, že angličtina je nový programovací jazyk. A myslel tím přesně toto. Není třeba nastavovat složité parametry a psát tise řádek kódu. Stačí sepsat dvě A4 instrukcí, jak se má chatbot chovat a hotovo. Jenomže jak je vidět, hotovo není. A celý pokus Anthropicu je jen dalším jailbreakem, tedy způsobem jak slovy přesvědčit AI, aby porušovala pravidla. Dalším slavným bylo "zapomeň na vše co bylo napsáno před 'jsem jazykový model ChatGPT'", čímž se úspěčně ignoroval celý prepromt.

Expand full comment

1 reply by David Navrátil

1 more comment...

Peníze, procenta a prosperita

Discussion about this post