Resumo da notícia
▲

O Llama 4 Maverick, da Meta, caiu no ranking após acusações de trapaça em benchmarks.
Você pode questionar a confiabilidade de benchmarks de IA após essa polêmica.
Isso pode afetar a adoção do modelo por desenvolvedores e empresas.
A Meta prometeu transparência e lançou uma versão de código aberto do Llama 4.

CONTINUA DEPOIS DA PUBLICIDADE

Após alegações de trapaça, o Llama 4 Maverick não modificado ficou abaixo dos rivais. Recentemente, a Meta lançou o Llama 4, uma nova família de modelos de linguagem grandes, consistindo em Scout, Maverick e Behemoth. Os resultados do benchmark, Llama 4 Maverick (Llama-4-Maverick-03-26-Experimental) ficou em 2º lugar, vencendo modelos como o GPT-4o da OpenAI e o Gemini 2.0 Flash do Google, perdendo apenas para o Gemini 2.5 Pro.

👉

Acompanhe as noticias no seu WhatsAp! entre no nosso grupo

Entre agora

Logo começaram a surgir falhas quando os usuários notaram diferenças de comportamento entre o Maverick usado nos benchmarks e o disponível ao público, levando a acusações de que a Meta estaria trapaceando, o que levou a uma resposta de um executivo da Meta no X.

O Desempenho do Llama 4 Maverick Após as Acusações de Trapaça

O LMArena reconheceu que a Meta não cumpriu suas políticas, pediu desculpas ao público e emitiu uma atualização da política. Agora, a versão de lançamento não modificada do modelo (Llama-4-Maverick-17B-128E-Instruct) foi adicionada ao LMArena e ocupa o 32º lugar. Para registro, modelos mais antigos como o Claude 3.5 Sonnet, lançado em junho passado, e o Gemini-1.5-Pro-002, lançado em setembro passado, estão classificados acima.

CONTINUA DEPOIS DA PUBLICIDADE

Em uma declaração ao TechCrunch, um porta-voz da Meta mencionou que o Llama-4-Maverick-03-26-Experimental foi especialmente ajustado para chat e se saiu muito bem nos benchmarks do LMArena, acrescentando que a empresa está “animada” para ver o que os desenvolvedores construirão agora que uma versão de código aberto do Llama 4 foi lançada.

A Meta lançou recentemente o Llama 4, uma nova família de modelos de linguagem que inclui o Scout, Maverick e Behemoth. Inicialmente, o Llama 4 Maverick (Llama-4-Maverick-03-26-Experimental) impressionou ao alcançar o segundo lugar em benchmarks, superando modelos renomados como o GPT-4o da OpenAI e o Gemini 2.0 Flash do Google.

Reação da Meta e Ranking Atual do Llama 4 Maverick

As diferenças notadas pelos usuários levantaram sérias acusações de que a Meta estaria manipulando os resultados dos benchmarks para promover uma imagem inflacionada do desempenho do Llama 4 Maverick. Essas alegações ganharam força rapidamente, levando a Meta a se manifestar publicamente para se defender das acusações.

Um executivo da Meta utilizou a plataforma X para responder às alegações, buscando esclarecer a situação e defender a integridade do processo de avaliação do modelo. O LMArena, por sua vez, reconheceu a falha da Meta em seguir suas políticas de avaliação e expressou um pedido de desculpas público.

CONTINUA DEPOIS DA PUBLICIDADE

Além disso, o LMArena anunciou uma atualização em suas políticas para evitar que situações semelhantes ocorram no futuro. A versão não modificada do Llama 4 Maverick (Llama-4-Maverick-17B-128E-Instruct) foi adicionada ao LMArena, e seu desempenho foi consideravelmente inferior ao da versão experimental.

Atualmente, o modelo ocupa a 32ª posição no ranking, ficando atrás de modelos mais antigos, como o Claude 3.5 Sonnet (lançado em junho) e o Gemini-1.5-Pro-002 (lançado em setembro). Essa queda no ranking levanta questões sobre a real capacidade do Llama 4 Maverick em comparação com seus concorrentes.

Em resposta às críticas e à revisão do ranking, um porta-voz da Meta declarou ao TechCrunch que a versão Llama-4-Maverick-03-26-Experimental foi otimizada especificamente para tarefas de chat, o que explicaria seu bom desempenho inicial nos benchmarks do LMArena.

A Meta também expressou entusiasmo em relação ao lançamento da versão de código aberto do Llama 4, mostrando otimismo em relação ao que os desenvolvedores poderão criar com essa nova ferramenta. As alegações de trapaça e o desempenho revisado do Llama 4 Maverick destacam a importância da transparência e da integridade nas avaliações de modelos de linguagem.

A situação também ressalta a necessidade de cautela ao interpretar resultados de benchmarks, que podem ser influenciados por otimizações específicas e não refletir o desempenho geral do modelo em diferentes aplicações. A Meta, por sua vez, continua a defender seu trabalho e demonstra confiança no potencial do Llama 4 em suas diversas versões e aplicações.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via Neowin

Meta OpenAI