Новый тест AGI ставит серьёзные задачи перед ведущими моделями ИИ
Инновационный тест от фонда Arc Prize оценивает общий интеллект ИИ, при этом большинство моделей набирают менее 2%.

Фонд Arc Prize, основанный известным экспертом в области ИИ Франсуа Шолле, представил новый инструмент оценки под названием ARC-AGI-2, предназначенный для тестирования общего интеллекта систем ИИ. Этот тест включает серию задач на распознавание визуальных образов, требующих от ИИ адаптации и решения проблем без предварительного обучения. Ведущие модели, включая разработки OpenAI и DeepSeek, столкнулись с трудностями, показав результаты в диапазоне от 1% до 1,3%. Для сравнения, средний результат человеческих участников составил 60%, что подчёркивает значительный разрыв в способностях адаптивного мышления ИИ.
ARC-AGI-2 вводит эффективность в качестве ключевого критерия, стремясь ограничить зависимость от вычислительной мощности и запоминания. Этот подход направлен на измерение не только способности решать задачи, но и стоимости и эффективности приобретения навыков. Новый вызов фонда, Arc Prize 2025, призывает разработчиков достичь 85% точности на ARC-AGI-2 при строгом бюджете в $0,42 за задачу, что подталкивает границы развития ИИ в сторону более устойчивых и интеллектуальных систем.