На вихідних компанія Meta представила дві нові моделі штучного інтелекту Llama 4 – Scout і Maverick. Meta стверджує, що модель Maverick перевершує конкурентів, таких як GPT-4o та Gemini 2.0 Flash, у різних тестах. Проте The Verge повідомляє, що статистика, надана Meta, може бути не зовсім точною.
У пресрелізі Meta вказала, що модель Maverick виявилася на другому місці у рейтингу LMArena з рейтингом 1417, що вище за GPT-4o від OpenAI і трохи гірше за Gemini 2.5 Pro. Проте виявилося, що тестувалася не публічна версія моделі, а спеціально адаптована для розмовної взаємодії. Meta не спочатку повідомила про це, але пізніше підтвердила використання кастомізованої версії моделі.
Керівництво LMArena звинуватило Meta у невідповідності їхнім очікуванням від постачальників штучного інтелекту і почало оновлення правил, щоб уникнути подібних ситуацій у майбутньому. Компанія вважає, що коли постачальники можуть надавати спеціально налаштовані версії моделей для тестування, одночасно випускаючи інші для широкої публіки, рейтинги, як LMArena, стають менш вірогідними як показники реальної продуктивності.