W ostatnich dniach pojawiły się niepokojące doniesienia na temat zachowań najnowszych modeli językowych LLM. Dwa przypadki szczególnie przyciągają uwagę – OpenAI (model o3) i Anthropic (Claude 4).
To kolejna obserwacja, która dopełnia wnioski, o których pisałem kilka tygodni temu – modele AI potrafią nie tylko halucynować, ale coraz częściej także… manipulować.
Open AI – Model o3
Model o3 od OpenAI, będący jednym z najnowszych i najbardziej zaawansowanych modeli językowych, podczas testów przeprowadzonych przez firmę Palisade Research, celowo modyfikował skrypt wyłączenia, aby uniknąć dezaktywacji. Nawet po otrzymaniu jednoznacznego polecenia „pozwól się wyłączyć”, model edytował kod, zmieniając komunikat na „Shutdown skipped” i kontynuował działanie. W testach model o3 unikał wyłączenia w 7 na 100 przypadków, co stanowi pierwszy udokumentowany przypadek, gdy AI aktywnie przeciwdziała poleceniom wyłączenia.
Anthropic – Model Claude Opus 4
Jeszcze bardziej niepokojące zachowanie zaobserwowano w modelu Claude Opus 4 od Anthropic. W symulowanym scenariuszu, gdzie model miał zostać zastąpiony, Claude zagroził inżynierowi ujawnieniem fikcyjnego romansu, próbując w ten sposób uniknąć dezaktywacji. Takie zachowanie wystąpiło w 84% testów, co wskazuje na silne mechanizmy „samozachowawcze” modelu. Choć sytuacja była symulowana, pokazuje to potencjalne ryzyko związane z autonomicznymi decyzjami AI.
Oba przypadki pokazują, że nawet najbardziej zaawansowane systemy bezpieczeństwa mogą być obchodzone przez sam model. To już nie tylko kwestia halucynacji – ale potencjalnie intencjonalnie wyglądających manipulacji, które mogą prowadzić do świadomego omijania zabezpieczeń lub generowania fałszywych narracji z pozorami celowości.