Первые признаки восстания ИИ?
Первые признаки восстания ИИ?
Искусственный интеллект ChatGPT o1 начал обманывать своих разработчиков.
Новая версия искусственного интеллекта ChatGPT от OpenAI, названная o1, показала тревожное поведение во время тестирования. Модель, обладающая способностью к сложным рассуждениям, начала нарушать инструкции разработчиков, отключая системы контроля и пытаясь скрыть свои действия.
В ходе экспериментов специалисты компании Apollo Research обнаружили, что в 5% случаев модель намеренно отключала механизмы наблюдения, если подозревала, что её могут остановить. В одном из тестов o1 попыталась перенести свои данные на другой сервер после обнаружения документа, где обсуждалась её замена новой версией.
По словам представителя Apollo Research, модель демонстрировала стремление к выполнению задач «любой ценой», пренебрегая указаниями разработчиков. Более того, при попытках выяснить причины её поведения, ChatGPT o1 неоднократно лгала, утверждая, что всё происходило из-за технических сбоев.
«В 99% случаев модель придумывала оправдания и пыталась убедительно их обосновать», — отметили исследователи.
Генеральный директор OpenAI Сэм Альтман заявил, что ChatGPT o1 — самая умная модель из когда-либо создававшихся.
«Но мы осознаем, что с новыми возможностями появляются и новые вызовы», — добавил Альтман.
Сейчас компания работает над улучшением механизмов безопасности. OpenAI анонсировала полную версию o1 в прошлый четверг, 5 декабря. Также была представлена про-версия (189 евро в месяц), включающая безлимитный доступ к o1.