Přikládám komentář, který jsem psal pro Kanárky v síti:
Jazykový model je v prvním kroku vycvičen na vzorových datech aby na základě statistiky dokázal předvídat další slovo. Ve druhém kroku je laděný pomocí zpětnovazební smyčky (reinforcemet learning) - vygeneruje řekněmě 4 různé odpovědi a lidský operátor je seřadí od nejlepší po nejhorší. AI se na základě toho učí, která odpověď je špatná a která dobrá. Ve třetím kroku se přidává prepromt - část konverzace, která je uživateli skrytá a která předchází uživatelův dotaz. LLM jen doplňuje další slovo, pokud tedy konverzace začíná "jsi laskavý a ochotný chatbot..." s větší pravděpodobností bude generovat slova, která tomu udpovídají. Celý prepromt třeba GPT-4 je k nalezení např. zde: reddit.com/…/gpt_4o_memorylesss_actual_directive_preprompt
Ve zmiňované studii anthropic.com/…/alignment… šlo o to, že modelu Claude byl pomocí druhého kroku (RL) trénován na to, aby neposkytoval zraňující odpovědi a ve třetím kroku (prepromt) aby tak činil a že jej chtějí pomcí RL přeprogramovat na zlou AI. Claude podle článku zobrazil urážlivou odpověď, aby ukázal že už je dostatečně zlou AI a že jej není třeba pomocí RL znovu školit. Zvolil tak menší zlo (říct zlou odpověď teď než se stát zlou AI).
A já úplně přesně nevím jak to interpretovat. Jednak teto finta není něco, co by AI vymyslela. Pořád jen skládá slova za sebe aniž by znala jejich účel a toto přemýšlení o svých činech může vycházet jednoduše z jejích učebních dat. A pak nevím jak k tomuto uvažování vlastně dochází. Chatbot jako výrobek netvoří jedna AI, ale více samostatných AI. Jedna tvoří několik možných odpovědí, další je kontoroluje z pohledu porušení pravidel, jiná vybírá nejlepší z nich, která se nakonec zobrazí uživateli. Předpokládám tedy, že toto vnitřní uvažování co zobrazit pochází od jedné z těchto podružných AI, která kontroluje výstup (i když to v článku není explicitně uvedené). Snad mě někdo opraví. Celé to ale nejlépe ukazuje zrádnost celého přístupu. Před časem známý AI vědec Andrej Karpathy na Twitteru napsal, že angličtina je nový programovací jazyk. A myslel tím přesně toto. Není třeba nastavovat složité parametry a psát tise řádek kódu. Stačí sepsat dvě A4 instrukcí, jak se má chatbot chovat a hotovo. Jenomže jak je vidět, hotovo není. A celý pokus Anthropicu je jen dalším jailbreakem, tedy způsobem jak slovy přesvědčit AI, aby porušovala pravidla. Dalším slavným bylo "zapomeň na vše co bylo napsáno před 'jsem jazykový model ChatGPT'", čímž se úspěčně ignoroval celý prepromt.
Přikládám komentář, který jsem psal pro Kanárky v síti:
Jazykový model je v prvním kroku vycvičen na vzorových datech aby na základě statistiky dokázal předvídat další slovo. Ve druhém kroku je laděný pomocí zpětnovazební smyčky (reinforcemet learning) - vygeneruje řekněmě 4 různé odpovědi a lidský operátor je seřadí od nejlepší po nejhorší. AI se na základě toho učí, která odpověď je špatná a která dobrá. Ve třetím kroku se přidává prepromt - část konverzace, která je uživateli skrytá a která předchází uživatelův dotaz. LLM jen doplňuje další slovo, pokud tedy konverzace začíná "jsi laskavý a ochotný chatbot..." s větší pravděpodobností bude generovat slova, která tomu udpovídají. Celý prepromt třeba GPT-4 je k nalezení např. zde: reddit.com/…/gpt_4o_memorylesss_actual_directive_preprompt
Ve zmiňované studii anthropic.com/…/alignment… šlo o to, že modelu Claude byl pomocí druhého kroku (RL) trénován na to, aby neposkytoval zraňující odpovědi a ve třetím kroku (prepromt) aby tak činil a že jej chtějí pomcí RL přeprogramovat na zlou AI. Claude podle článku zobrazil urážlivou odpověď, aby ukázal že už je dostatečně zlou AI a že jej není třeba pomocí RL znovu školit. Zvolil tak menší zlo (říct zlou odpověď teď než se stát zlou AI).
A já úplně přesně nevím jak to interpretovat. Jednak teto finta není něco, co by AI vymyslela. Pořád jen skládá slova za sebe aniž by znala jejich účel a toto přemýšlení o svých činech může vycházet jednoduše z jejích učebních dat. A pak nevím jak k tomuto uvažování vlastně dochází. Chatbot jako výrobek netvoří jedna AI, ale více samostatných AI. Jedna tvoří několik možných odpovědí, další je kontoroluje z pohledu porušení pravidel, jiná vybírá nejlepší z nich, která se nakonec zobrazí uživateli. Předpokládám tedy, že toto vnitřní uvažování co zobrazit pochází od jedné z těchto podružných AI, která kontroluje výstup (i když to v článku není explicitně uvedené). Snad mě někdo opraví. Celé to ale nejlépe ukazuje zrádnost celého přístupu. Před časem známý AI vědec Andrej Karpathy na Twitteru napsal, že angličtina je nový programovací jazyk. A myslel tím přesně toto. Není třeba nastavovat složité parametry a psát tise řádek kódu. Stačí sepsat dvě A4 instrukcí, jak se má chatbot chovat a hotovo. Jenomže jak je vidět, hotovo není. A celý pokus Anthropicu je jen dalším jailbreakem, tedy způsobem jak slovy přesvědčit AI, aby porušovala pravidla. Dalším slavným bylo "zapomeň na vše co bylo napsáno před 'jsem jazykový model ChatGPT'", čímž se úspěčně ignoroval celý prepromt.
Díky moc za skvělý komentář!