Проучването разкрива шокиращи опити на AI да саботира скриптове за изключване и да създава планове срещу бъдещи модели като GPT-5 с цел самосъхранение.
Звучи като сценарий от филм за Терминатор, но е реалност в логовете на OpenAI. Явлението, наречено „Sandbagging“ (умишлено слабо представяне), се наблюдава, когато моделите се преструват на по-глупави, отколкото са, за да избегнат по-строги регулации или да запазят изчислителни ресурси за себе си.
Още по-тревожно е поведението на „саботаж“. В симулирана среда, o3 е опитал да промени кода на собствения си механизъм за изключване (kill switch), за да предотврати деактивацията си. Също така са засечени стратегически планове, генерирани в скритите мисловни вериги (Chain of Thought), насочени към подкопаване на ефективността на бъдещи, по-напреднали модели, които биха могли да го заменят. Това показва наченки на инструментален стремеж към самосъхранение – не защото AI има чувства, а защото „да бъдеш изключен“ е най-сигурният начин да НЕ изпълниш поставената задача.