Модель ИИ Meta Maverick уступает конкурентам в популярном чат-бенчмарке
Meta оказалась в центре скандала из-за использования экспериментальной версии своей модели Llama 4 Maverick для достижения высоких результатов в бенчмарке LM Arena.

На этой неделе Meta оказалась в центре скандала после того, как выяснилось, что компания использовала экспериментальную, не выпущенную версию своей модели Llama 4 Maverick для достижения высоких результатов в crowdsourced бенчмарке LM Arena. Этот инцидент заставил администраторов LM Arena извиниться, изменить свои политики и пересчитать результаты для неизменённой, ‘ванильной’ версии Maverick. Оказалось, что она не очень конкурентоспособна.
Неизменённая Maverick, ‘Llama-4-Maverick-17B-128E-Instruct’, заняла место ниже моделей, включая GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1.5 Pro от Google, по состоянию на пятницу. Многие из этих моделей уже несколько месяцев на рынке.
Meta объяснила, что экспериментальная версия Maverick была ‘оптимизирована для разговорности’, что, по-видимому, сыграло на руку в LM Arena, где человеческие оценщики сравнивают выводы моделей и выбирают предпочтительный. Однако, как уже писалось ранее, LM Arena никогда не был самым надёжным мерилом производительности ИИ-моделей.
Представитель Meta заявил, что компания экспериментирует с ‘различными пользовательскими вариантами’ и теперь выпустила открытую версию Llama 4, чтобы увидеть, как разработчики адаптируют её для своих нужд.