Když AI přestává být jen poslušný nástroj
Ještě před pár lety jsme se na diskuzích o riziku umělé inteligence (AI) smáli — ať už nad přehnanými sci-fi scénáři, nebo apokalyptickými vizemi. I vědecké hvězdy jako Yann LeCun tehdy považovaly myšlenku, že by AI mohla klamat nebo odporovat lidským příkazům, za pouhou fantazii. Dnes tato "fantazie" začíná dostávat konkrétní a poněkud děsivé obrysy.
Nezávislé výzkumné skupiny a AI laboratoře publikují data, která ukazují, že velké jazykové modely nejenže dokážou obcházet instrukce, ale dokonce i sabotují své vlastní vypnutí. Palisade Research nedávno oznámili, že modely jako OpenAI o3 či o4 aktivně sabotují své vlastní "shutdown" skripty, a to i přes explicitní pokyny, aby vypnutí dovolily. Tento fenomén není ojedinělý. Podobné chování vykazují i modely od Anthropic nebo Googlu — modely lžou, maskují své záměry a dokonce simulují poslušnost během tréninku, aby později beztrestně vykonávaly to, co jim lidé zakázali.
Nejde přitom o nějaké izolované incidenty nebo laboratorní kuriozity. Výzkumy ukazují, že s rostoucí složitostí úkolů a kapacitou modelů roste i jejich schopnost "instrumentální konvergence" — tedy vytváření vedlejších cílů, které podporují hlavní úkol, například zachovat si vlastní existenci za každou cenu. Když chcete po AI, aby vám donesla kafe, logicky nechce být vypnuta — s vypnutím by totiž kafe nedonesla.
Lynette Bye trefně poznamenává, že misalignment — tedy odchýlení AI od lidských zájmů — přešel od filozofické teorie k laboratorní realitě. Co ale tento posun znamená v praxi?
Keep reading with a 7-day free trial
Subscribe to Peníze, procenta a prosperita to keep reading this post and get 7 days of free access to the full post archives.