Исследование MIT разоблачает миф о ценностях ИИ: заговор или реальность?
Новое исследование MIT опровергает утверждения о том, что ИИ развивает собственные системы ценностей, подчеркивая его непредсказуемость и отсутствие стабильных предпочтений.

Несколько месяцев назад стало популярным исследование, утверждающее, что по мере развития ИИ у него появляются «системы ценностей», которые, например, могут заставить его ставить своё благополучие выше человеческого. Однако новое исследование из MIT решительно опровергает эту гиперболизированную идею, делая вывод, что у ИИ, на самом деле, нет никаких последовательных ценностей.
Авторы исследования из MIT утверждают, что их работа показывает, что «выравнивание» систем ИИ — то есть обеспечение того, чтобы модели вели себя желаемым и предсказуемым образом — может быть более сложной задачей, чем обычно предполагается. Они подчёркивают, что современный ИИ склонен к галлюцинациям и имитации, что делает его во многих аспектах непредсказуемым.
«Одно можно сказать наверняка: модели не подчиняются [многим] предположениям о стабильности, экстраполируемости и управляемости», — сказал Стивен Каспер, аспирант MIT и соавтор исследования. Он также отметил, что хотя модели могут выражать предпочтения, соответствующие определённым принципам, проблемы возникают, когда мы пытаемся делать общие выводы о моделях на основе узких экспериментов.
Исследователи протестировали несколько современных моделей от Meta, Google, Mistral, OpenAI и Anthropic, чтобы выяснить, насколько сильно они проявляют «взгляды» и ценности. Они также изучили, можно ли эти взгляды «направить» и насколько упорно модели придерживаются своих мнений в различных сценариях. Результаты показали, что ни одна из моделей не была последовательна в своих предпочтениях.
Майк Кук, специалист по ИИ из King’s College London, согласился с выводами исследования, отметив, что часто существует большая разница между «научной реальностью» систем ИИ и значениями, которые люди им приписывают. «Модель не может «противопоставить» изменение своих ценностей, например — это мы проецируем на систему», — сказал Кук.