Новые модели ИИ OpenAI: шаг вперёд в рассуждениях, но с ростом галлюцинаций
OpenAI представила новые модели ИИ o3 и o4-mini, которые, несмотря на улучшенные способности к рассуждениям, демонстрируют увеличение частоты галлюцинаций.

OpenAI недавно анонсировала свои новейшие модели ИИ — o3 и o4-mini, которые позиционируются как передовые в области рассуждений. Однако, как выяснилось, эти модели чаще «галлюцинируют», то есть выдают вымышленную информацию, по сравнению с предыдущими версиями. Это явление остаётся одной из самых сложных проблем в разработке ИИ, даже для самых современных систем.
Согласно внутренним тестам OpenAI, o3 и o4-mini демонстрируют более высокий уровень галлюцинаций, чем их предшественники, включая модели серии o1 и GPT-4o. Особенно тревожно то, что причина этого увеличения пока остаётся загадкой для разработчиков. В техническом отчёте OpenAI отмечается необходимость дополнительных исследований для понимания этого феномена.
Несмотря на это, новые модели показывают улучшенные результаты в таких областях, как программирование и математика. Однако, как указывается в отчёте, они «делают больше утверждений в целом», что приводит как к более точным, так и к более ошибочным выводам.
Третьи стороны, такие как некоммерческая лаборатория Transluce, также подтверждают эти наблюдения, отмечая склонность o3 к вымыслу в процессе генерации ответов. Это ставит под вопрос полезность моделей в сферах, где точность критически важна, например, в юридических услугах.
Один из возможных путей решения проблемы — интеграция возможностей веб-поиска, что уже показало свою эффективность в улучшении точности других моделей OpenAI. Тем не менее, если тенденция к увеличению галлюцинаций с масштабированием моделей сохранится, поиск решения станет ещё более актуальным.
OpenAI продолжает работать над улучшением точности и надёжности своих моделей, признавая, что проблема галлюцинаций остаётся ключевой областью исследований. В условиях, когда индустрия ИИ делает ставку на модели рассуждений, этот вызов становится особенно значимым.