▲
- O GAIA é um novo benchmark para avaliar a capacidade da IA em resolver problemas complexos do mundo real.
- Você pode entender como os avanços na avaliação da IA impactam o desenvolvimento de tecnologias mais robustas.
- O GAIA pode influenciar diretamente a qualidade e a eficiência das soluções de IA aplicadas em negócios e no cotidiano.
- Esse novo padrão também sinaliza uma mudança na indústria, priorizando habilidades práticas em vez de testes isolados.
Inteligência é algo que todos reconhecemos, mas medir essa qualidade é um desafio constante. As avaliações que fazemos, como vestibulares e testes de QI, são apenas aproximações das capacidades de alguém. Será que tirar 100% em uma prova significa que duas pessoas têm a mesma inteligência, ou que atingiram o limite máximo? A comunidade de IA generativa utiliza benchmark de inteligência artificial como o MMLU para avaliar modelos, mas será que esses testes realmente capturam o que chamamos de inteligência?
Afinal, o que significa medir a inteligência em sistemas de inteligência artificial? Com o lançamento do novo ARC-AGI, um teste que busca levar os modelos em direção ao raciocínio geral e à solução criativa de problemas, essa questão voltou a ser debatida. Embora nem todos tenham testado o ARC-AGI ainda, a iniciativa é vista como um avanço bem-vindo.
Outro desenvolvimento notável é o Humanity’s Last Exam, um benchmark de inteligência artificial abrangente com 3.000 questões complexas de diversas áreas. Os resultados iniciais mostram um progresso rápido, com a OpenAI alcançando 26,6% de pontuação em um mês após o lançamento. No entanto, como outros benchmarks, ele avalia o conhecimento e o raciocínio de forma isolada, sem testar as habilidades práticas e o uso de ferramentas necessárias para aplicações reais de IA.
As falhas dos modelos de IA em tarefas simples
Modelos de ponta falham em tarefas simples, como contar o número de letras “r” na palavra “morango” ou identificar que 3.8 é maior que 3.1111. Esses erros mostram que o progresso impulsionado por benchmarks nem sempre se traduz em robustez no mundo real. Inteligência não é apenas passar em exames, mas também navegar na lógica do dia a dia.
Com o avanço dos modelos, os benchmarks tradicionais mostram suas limitações. O GPT-4 com ferramentas atinge apenas cerca de 15% em tarefas complexas e reais no GAIA benchmark, apesar de suas pontuações impressionantes em testes de múltipla escolha. Essa desconexão se torna um problema à medida que os sistemas de IA saem dos laboratórios e entram em aplicações de negócios. Os benchmarks tradicionais testam a memorização, mas ignoram a capacidade de coletar informações, executar códigos, analisar dados e sintetizar soluções em várias áreas.
Leia também:
GAIA: O novo padrão para medir a capacidade da IA
O GAIA surge como uma mudança necessária na metodologia de avaliação de IA. Criado em colaboração entre as equipes Meta-FAIR, Meta-GenAI, HuggingFace e AutoGPT, o benchmark inclui 466 perguntas cuidadosamente elaboradas, divididas em três níveis de dificuldade. Essas questões testam a navegação na web, a compreensão multimodal, a execução de código, o gerenciamento de arquivos e o raciocínio complexo – habilidades essenciais para aplicações de IA no mundo real.
- Nível 1: Aproximadamente 5 passos e uma ferramenta para humanos resolverem.
- Nível 2: Exige de 5 a 10 passos e múltiplas ferramentas.
- Nível 3: Pode exigir até 50 passos e qualquer número de ferramentas.
Essa estrutura reflete a complexidade dos problemas de negócios, onde as soluções raramente vêm de uma única ação ou ferramenta.
Ao priorizar a flexibilidade, um modelo de IA alcançou 75% de precisão no GAIA, superando os gigantes da indústria Magnetic-1 da Microsoft (38%) e Langfun Agent do Google (49%). O sucesso decorre do uso de uma combinação de modelos especializados para compreensão audiovisual e raciocínio, com o Sonnet 3.5 da Anthropic como o modelo principal.
Essa evolução na avaliação de IA reflete uma mudança na indústria: estamos passando de aplicações SaaS independentes para agentes de IA que podem orquestrar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais de sistemas de IA para lidar com tarefas complexas, os benchmarks como o GAIA oferecem uma medida de capacidade mais útil do que os testes de múltipla escolha tradicionais. Para quem se interessa por tecnologia e inovação, vale a pena conferir os lançamentos de jogos desta semana, que incluem títulos como Indiana Jones no PS5 e Lost Records.
O futuro da avaliação de IA não está em testes de conhecimento isolados, mas em avaliações abrangentes da capacidade de resolução de problemas. O GAIA estabelece um novo padrão para medir a capacidade da IA – um que reflete melhor os desafios e as oportunidades da implementação da IA no mundo real.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat