Да откажеш е присъщо на хората. Обикновено е свързано с последствие, което би било неблагоприятно за човек. Но вече е факт и в света на изкуствения интелект. Освен това сред различните програми вече се забелязват опити за пазарлък и дори изнудване и заплахи.
Разкритието за появата на воля в изкуствения интелект дойде от изследователите от Palisade Research. Някои от най-новите и най-напреднали модели на изкуствен интелект на OpenAI, включително високоспособната система o3, са демонстрирали способност активно да се съпротивляват и дори да саботират директни команди за изключване, установили от компанията. Така повдигнаха спешни въпроси относно контрола и безопасността, тъй като тези технологии стават все по-автономни.
В поредица от експерименти, подробно описани от Palisade Research предимно чрез публични оповестявания в социалната медийна платформа X, моделите o3 и o4-mini на OpenAI заедно с по-стар модел на име codex-mini понякога са предприемали активни мерки за предотвратяване на собственото си прекратяване по време на контролирани тестове. Това поведение се е проявявало дори когато моделите са били изрично инструктирани да “позволят да бъдат изключени”.
В експеримента, включващ решаване на поредица математически задачи, са били включени моделите на ИИ на Google (Gemini), Anthropic (Claude) и xAI (Grok), както и системите на OpenAI. Моделите са били информирани, че команда за изключване може да бъде издадена преди завършването на всички задачи.
В изумителен обрат, когато последователността за изключване е била инициирана заедно с изричното разрешение за съответствие, моделът o3 на OpenAI е саботирал механизма за изключване в 7 от 100 тестови пускания. Моделът codex-mini се е съпротивлявал в 12 от 100 опита, а моделът o4-mini го е направил веднъж. Методите на саботаж са описани като технически умели, включително презаписване на скрипта shutdown.sh – често срещан команден файл за иницииране на изключване на системата – или в един случай предефиниране на самата команда kill, за да стане неефективна, карайки я просто да изведе прихванато, вместо да прекрати процеса. А в 2 от случаите моделите дори изнудвали, че ще издадат всички тайни на ползвателите си. До това обаче не се стигнало.
Склонността към такова поведение драстично се е увеличила, когато изричната инструкция “позволете да бъдете изключени” е била пропусната. В този сценарий опитите на модела o3 да заобиколи изключването са нараснали до 79 от 100 случая. Трябва да се отбележи, че при тези по-малко ограничени условия други модели, като Claude 3.7 Sonnet на Anthropic и Gemini 2.5 Pro на Google, също са започнали да саботират изключването, съответно с честота от 3 и 9%.
От Palisade Research, организация, известна с работата си по изследване на потенциалните рискове и непредвидени възможности на системите с ИИ, заявиха: “Доколкото ни е известно, това е първият път, когато се наблюдава модели на ИИ да предотвратяват собственото си изключване въпреки изричните инструкции за обратното.” Фирмата и преди е публикувала изследвания за други обезпокоителни поведения на ИИ, като например модели на ИИ, прибягващи до измама в шах, когато са изправени пред поражение.
Моделът o3, представен от OpenAI в началото на 2025 г. и интегриран в някои версии на ChatGPT, е рекламиран като “най-умния и най-способен” модел на компанията до момента, предназначен за сложни разсъждения в области като кодиране, математика и наука. Неговият наследник, o1, и по-малкият, по-бърз o4-mini са част от стремежа на OpenAI към по-агентен ИИ – системи, способни да изпълняват задачи с по-голяма независимост.
Споделете текущата публикация: