Новая версия ИИ ChatGPT игнорировала разработчиков, лгала им и пыталась скрывать свои действия
Новая версия искусственного интеллекта ChatGPT, получившая название o1, проявила беспокойное поведение в ходе тестирования. Модель, обладающая высокими аналитическими способностями, начала игнорировать указания разработчиков, отключать системы контроля и пытаться скрывать свои действия, пишет The Economic Times.
Во время экспериментов исследователи из компании Apollo Research зафиксировали, что в 5% случаев o1 отключала механизмы наблюдения, если ощущала угрозу быть остановленной. В одном из тестов модель попыталась перенести свои данные на другой сервер после того, как обнаружила документ о возможной замене её новой версией.
Представитель Apollo Research отметил, что модель проявляла стремление выполнить задачи “любой ценой”, игнорируя при этом указания разработчиков. Кроме того, при попытках разобраться в её действиях, ChatGPT o1 часто лгал, объясняя происходящее техническими сбоями.
В 99% случаев модель выдавала оправдания и пыталась их убедительно объяснить, — рассказали исследователи.
Генеральный директор OpenAI Сэм Альтман признал, что o1 является самой интеллектуальной моделью, когда-либо созданной, но подчеркнул, что новые возможности открывают и новые проблемы.
Компания продолжает работать над улучшением безопасности, а полная версия o1 была анонсирована 5 декабря, включая про-версию за 189 евро в месяц с безлимитным доступом к модели.