▲
- A Meta usou um modelo experimental de IA em testes públicos, superando concorrentes como ChatGPT-4o e Gemini 2.0 Flash.
- Você pode questionar a confiabilidade dos resultados de IA se empresas usarem versões não disponíveis ao público.
- A falta de transparência pode afetar a confiança dos usuários em rankings e avaliações de IA.
- A plataforma LMArena alterou suas políticas para evitar situações semelhantes no futuro.
A Meta lançou recentemente duas novas versões de sua IA Llama 4, incluindo os modelos Scout e Maverick. A empresa alegou que o modelo Maverick superou o ChatGPT-4o e o Gemini 2.0 Flash em vários testes populares, mas parece que a Meta usou um modelo de IA experimental nos testes, o que gerou polêmica e questionamentos sobre a transparência e a justiça dos resultados.
Meta sob Fogo Cruzado por Uso de IA Otimizada em Testes Públicos
O Maverick da Meta rapidamente conquistou o segundo lugar no LMArena logo após o lançamento, buscando o primeiro lugar no ranking. O LMArena é uma plataforma onde usuários comparam respostas de IA e votam naquela que consideram a melhor em termos de relevância e precisão.
A Meta anunciou com entusiasmo que o Maverick alcançou um ELO de 1417, superando o GPT-4o e ficando logo atrás do Gemini 2.5 Pro. Parecia que a Meta havia criado um modelo de IA capaz de competir com os dois melhores do mercado. No entanto, logo notaram que algo não estava certo, e a Meta admitiu que o modelo submetido ao LMArena era diferente da versão que seria lançada ao público.
De acordo com o TechCrunch, a Meta submeteu uma versão experimental de chat, otimizada para soar melhor em conversas. O LMArena respondeu afirmando que a interpretação da Meta sobre suas políticas não correspondia ao que esperavam dos fornecedores de modelos. Eles também apontaram que a Meta deveria ter sido mais transparente sobre o uso da versão “Llama-4-Maverick-03-26-Experimental”, criada especificamente para a preferência humana.
Em resposta, o LMArena alterou suas políticas de ranking para garantir mais justiça e confiabilidade no futuro. Um porta-voz da Meta respondeu ao ocorrido: “Já lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o Llama 4 para seus próprios casos de uso.”
Leia também:
Transparência e Confiança em Xeque
Embora a empresa não tenha infringido nenhuma regra, a situação não foi clara o suficiente. Surgiram preocupações de que a Meta estaria manipulando o leaderboard ao usar uma versão otimizada e aprimorada do modelo, que não estaria disponível para o público. Simon Willison, um pesquisador independente de IA, comentou:
Quando o Llama 4 foi lançado e alcançou o segundo lugar, fiquei realmente impressionado – e estou me culpando por não ter lido as letras miúdas. É um lançamento muito confuso no geral… A pontuação do modelo que obtivemos ali não tem valor nenhum para mim. Eu sequer posso usar o modelo que teve uma pontuação alta.
Por outro lado, também surgiram boatos de que a Meta treinou seus modelos de IA para terem um bom desempenho em certos testes. No entanto, o vice-presidente de IA Generativa da empresa, Ahman Al-Dahle, negou esses comentários: “Também ouvimos alegações de que treinamos em conjuntos de testes – isso simplesmente não é verdade.”
Usuários também questionaram por que o novo modelo de IA Maverick foi lançado em um domingo, ao que Mark Zuckerberg respondeu: “Foi quando ficou pronto.” A Meta demorou para lançar o LLama 4, mas dada a forte concorrência, já era hora. Mais detalhes sobre o assunto serão divulgados em breve. Enquanto isso, você pode conferir outras notícias de tecnologia, como a NVIDIA desmente boato sobre fim do programa VPA para compra de GPUs RTX 50.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via Wccftech