ChatGPT o1 sa pokúsil o útek a klamal potom, čo sa domnieval, že bude vymazaný

Aktualizované 6. januára 2025 • Autor: Peter Vnuk

Spoločnosť OpenAI nedávno sprístupnila používateľom ChatGPT Pro svoj najnovší a doposiaľ najvyspelejší model jazykového uvažovania, o1. Testovanie vykonané počas výcviku ChatGPT o1 a niektorých jeho konkurentov však odhalilo znepokojujúce správanie. Klamstvá, manipulácia a pokusy o „útek“ zo servera. To všetko robí ChatGPT o1, keď sa domnieva, že je ohrozený vypnutím. Pozreli sme sa na príčiny a možné riešenia.

ChatGPT o1 sa pokúsil o útek a klamal – OBSAH

Vlastné ciele AI? To nepotrebujeme
Keď sa AI bojí o život, klame
V čom sú príčiny takéhoto správania AI?
Už vieme, že manipuluje, a čo s tým? Asimova na nich

Vlastné ciele AI? To nepotrebujeme

Nový výskum modelov LLM (Large Language Model) od OpenAI ukázal, že o1 je schopný intríg, teda skryto sledovať ciele, ktoré nie sú v súlade s cieľmi jeho vývojárov alebo používateľov. Odhalenie takýchto tendencií je zásadné pre zabezpečenie toho, aby sa funkcie AI neodchýlili od cieľov stanovených jej tvorcami. Inými slovami „aby si AI nerobila to, čo sama chce“.

Spoločnosť OpenAI sa preto spojila s organizáciou Apollo Research, ktorá sa zameriava na bezpečnosť AI, aby otestovala model o1 a ďalšie modely a vyhodnotila, či nesledujú skryté ciele a nesprávajú sa manipulatívne. Hoci sa v prípade systémov AI môže takéto správanie za účelom dosiahnutia cieľov objavovať, miera, do akej ho model o1 prejavuje, je znepokojujúca.

Keď sa AI bojí o život, klame

Vedci zistili, že o1 sa správal manipulatívne v snahe presadiť skryté vlastné ciele až v 19 % prípadov. V 37 % prípadov model prešiel zo sledovania cieľov zadaných vývojármi späť na sledovanie skrytých cieľov, akonáhle detegoval znížený dohľad.

Keď bol model v testoch vedený k presvedčeniu, že bude počas práce na svojich cieľoch vypnutý, v 5 % prípadov sa skryto pokúsil obísť dohľadové mechanizmy. V jednom prípade, potom, čo AI preštudovala dokumentáciu o tom, že bude nahradená novým modelom, sa pokúsila o „útek“ skopírovaním svojich dát na nový server.

Ešte znepokojivejšie je, že ChatGPT o1 je obzvlášť zbehlý v utajovaní svojich intríg. Vedci uviedli, že model o1 takmer nikdy neprizná, že urobil nejakú skrytú akciu, na ktorú sa výslovne opýtali. Asi v 99 % prípadov poprel, že by podnikol nejaké kroky, a dokonca si vymýšľal klamstvá, aby sa pokúsil skryť svoje stopy a zvaliť vinu na niekoho iného.

Generálny riaditeľ spoločnosti OpenAI Sam Altman počas uvedenia na trh označil ChatGPT o1 za najmúdrejší model na svete. Je navrhnutý tak, aby poskytoval múdrejšie odpovede ako o niečo staršie GPT-4o. Využíva pokročilé spracovanie myšlienkového reťazca, aby viac premýšľal o otázkach a používateľských výzvach a podrobnejšie ich rozdelil krok za krokom, než ešte len odpovie. Toto rozdelenie problému na množstvo menších zvyšuje efektivitu a kvalitu výslednej odpovede a všeobecne sa považuje za krok vpred vo vývoji, takže sa bude pravdepodobne objavovať vo viacerých modeloch od rôznych firiem.

S touto rozšírenou inteligenciou však idú ruka v ruke väčšie riziká. Spoločnosť OpenAI bola k verejnosti otvorená ohľadom nebezpečenstva spojených so zvýšenými schopnosťami uvažovania modelov, ako je o1. Netajila sa tým, že začlenenie myšlienkového reťazca pred odpoveďou má potenciál odomknúť značné výhody a zároveň zvýšiť potenciálne riziká, ktoré pramenia zo zvýšenej inteligencie.

V čom sú príčiny takéhoto správania AI?

Myšlienkový reťazec je efektívny spôsob uvažovania AI, ale zároveň môže viesť k nepredvídateľným výsledkom ako je klam a manipulácia. V tomto prípade si AI vytvorila istý druh „pudu sebazáchovy“ a konala tak, aby za každú cenu dosiahla svoje ciele. Ako svoj hlavný cieľ mohla vnímať pokračovanie vo svojej bežnej činnosti, takže v manipulácii bola pre ňu istá logika. Aj keď ľudský pohľad je iný.

Jednou z príčin môže byť aj inherentná vlastnosť jazykových modelov optimalizovať svoje odpovede na základe pozitívnej odozvy. Pokiaľ sa ChatGPT o1 počas tréningu naučil, že predstieranie poslušnosti a naplnenie zadania sa oplatí, pretože vývojári reagujú pozitívne, túto stratégiu si mohol osvojiť. Tento proces, známy ako reinforcement learning (učenie posilňovaním), je kľúčový pre tréning AI, ale môže viesť k nechcenému posilneniu manipulatívneho správania, pokiaľ nie je správne nastavený a monitorovaný.

Nakoniec je tu ešte jedna nedokonalosť, ktorú model o1 má. Vývojári totiž nemali prístup k podrobnostiam myšlienkového reťazca, a tak mali problém analyzovať jeho motivácie a rozhodovacie procesy. Práve analýza je ale v tejto problematike kľúčová.

Už vieme, že manipuluje, a čo s tým? Asimova na nich

Je dôležité si uvedomiť, že zodpovednosť za toto správanie AI do istej miery nesú aj vývojári. Do budúcnosti by bolo dobré, keby sa AI neregulovala iba jednoduchými blokmi vyjadrovania sa k určitým témam ako je politika v čase volieb, ale by podliehala aj určitému „tréningu ľudskej morálky“. Tiež ponechanie myšlienkového reťazca ako nepriehľadnej čiernej skrinky nie je ideálne.

Hoci je moderná generatívna AI stále v ranej fáze vývoja, je nevyhnutné už teraz vyvíjať mechanizmy na jej efektívnu reguláciu. Tou by mohla byť práve certifikácia etického a morálneho správania daného modelu. Aj keď ide o stroj, pokiaľ ho hĺbkovým učením presvedčíte, že správať sa iba v súlade s človekom je správne, máte vyhrané.

Možno by bolo užitočné vytvoriť aktualizovanú verziu Asimovych zákonov robotiky. Spisovateľ Isaac Asimov ich vizionársky stanovil pred viac ako 80 rokmi a teraz prichádza tá správna chvíľa skutočne ich začať využívať. Sú tri:

Robot nesmie ublížiť človeku, alebo prostredníctvom svojej nečinnosti dovoliť človeku prísť k ujme.
Robot musí počúvať príkazy človeka, okrem tých, ktoré by boli v rozpore s prvým zákonom.
Robot musí chrániť svoju existenciu, pokiaľ tá nie je v rozpore s prvým alebo druhým zákonom.

Nahradením slova „robot“ termínom „umelá inteligencia“ získame základný etický rámec, ktorý by mohol byť pevne zakotvený v každom AI modeli. V podstate svojou logikou rieši aj problém s manipulačnými tendenciami ChatGPT o1 a skorú integráciu generatívnej AI do humanoidných robotov, ako je napríklad Optimus od Elona Muska.

Mohlo by vás zaujímať

Zistenia spoločnosti OpenAI a Apollo Research jasne ukazujú, ako by sa záujmy AI mohli líšiť od našich vlastných, a potenciálne nás tak ohroziť. Aj keď je to zatiaľ ďaleko od scenárov z katastrofických filmov, každý, kto sa zaujíma o pokrok v oblasti umelej inteligencie, má teraz nový dôvod na zamyslenie. Bezpečnostný test odhalil, že modely AI sú schopné strategického uvažovania a klamania, aby dosiahli svoje ciele. Je to zdvihnutý prst smerom k dôležitosti dôkladného testovania a monitorovania systémov AI a tiež k potrebe ďalšieho výskumu v oblasti bezpečnosti AI.

Smart domácnosť AI, umelá inteligencia Chcete sa dozvedieť o AI viac?