Модель ИИ Meta Maverick уступает конкурентам в популярном чат-бенчмарке

Новости ИИ 12 апреля 2025 г.

Meta оказалась в центре скандала из-за использования экспериментальной версии своей модели Llama 4 Maverick для достижения высоких результатов в бенчмарке LM Arena.

Модель ИИ Meta Maverick уступает конкурентам в популярном чат-бенчмарке

На этой неделе Meta оказалась в центре скандала после того, как выяснилось, что компания использовала экспериментальную, не выпущенную версию своей модели Llama 4 Maverick для достижения высоких результатов в crowdsourced бенчмарке LM Arena. Этот инцидент заставил администраторов LM Arena извиниться, изменить свои политики и пересчитать результаты для неизменённой, ‘ванильной’ версии Maverick. Оказалось, что она не очень конкурентоспособна.

Неизменённая Maverick, ‘Llama-4-Maverick-17B-128E-Instruct’, заняла место ниже моделей, включая GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1.5 Pro от Google, по состоянию на пятницу. Многие из этих моделей уже несколько месяцев на рынке.

Meta объяснила, что экспериментальная версия Maverick была ‘оптимизирована для разговорности’, что, по-видимому, сыграло на руку в LM Arena, где человеческие оценщики сравнивают выводы моделей и выбирают предпочтительный. Однако, как уже писалось ранее, LM Arena никогда не был самым надёжным мерилом производительности ИИ-моделей.

Представитель Meta заявил, что компания экспериментирует с ‘различными пользовательскими вариантами’ и теперь выпустила открытую версию Llama 4, чтобы увидеть, как разработчики адаптируют её для своих нужд.

Claude 3.5 Sonnet Gemini 1.5 Pro GPT-4o Llama 4 Maverick LM Arena Meta Искусственный интеллект

Корзина

Модель ИИ Meta Maverick уступает конкурентам в популярном чат-бенчмарке

Компания

Сервис

Поддержка