GAIA: O novo padrão para medir a inteligência artificial no mundo real

Conheça o GAIA, o novo padrão para medir a capacidade da IA em resolver problemas complexos do mundo real.
Atualizado há 4 semanas
GAIA: O novo padrão para medir a inteligência artificial no mundo real
GAIA: o novo padrão para avaliar a IA em desafios do mundo real. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • O GAIA é um novo benchmark para avaliar a capacidade da IA em resolver problemas complexos do mundo real.
    • Você pode entender como os avanços na avaliação da IA impactam o desenvolvimento de tecnologias mais robustas.
    • O GAIA pode influenciar diretamente a qualidade e a eficiência das soluções de IA aplicadas em negócios e no cotidiano.
    • Esse novo padrão também sinaliza uma mudança na indústria, priorizando habilidades práticas em vez de testes isolados.
CONTINUA DEPOIS DA PUBLICIDADE

Inteligência é algo que todos reconhecemos, mas medir essa qualidade é um desafio constante. As avaliações que fazemos, como vestibulares e testes de QI, são apenas aproximações das capacidades de alguém. Será que tirar 100% em uma prova significa que duas pessoas têm a mesma inteligência, ou que atingiram o limite máximo? A comunidade de IA generativa utiliza benchmark de inteligência artificial como o MMLU para avaliar modelos, mas será que esses testes realmente capturam o que chamamos de inteligência?

Afinal, o que significa medir a inteligência em sistemas de inteligência artificial? Com o lançamento do novo ARC-AGI, um teste que busca levar os modelos em direção ao raciocínio geral e à solução criativa de problemas, essa questão voltou a ser debatida. Embora nem todos tenham testado o ARC-AGI ainda, a iniciativa é vista como um avanço bem-vindo.

Outro desenvolvimento notável é o Humanity’s Last Exam, um benchmark de inteligência artificial abrangente com 3.000 questões complexas de diversas áreas. Os resultados iniciais mostram um progresso rápido, com a OpenAI alcançando 26,6% de pontuação em um mês após o lançamento. No entanto, como outros benchmarks, ele avalia o conhecimento e o raciocínio de forma isolada, sem testar as habilidades práticas e o uso de ferramentas necessárias para aplicações reais de IA.

As falhas dos modelos de IA em tarefas simples

CONTINUA DEPOIS DA PUBLICIDADE

Modelos de ponta falham em tarefas simples, como contar o número de letras “r” na palavra “morango” ou identificar que 3.8 é maior que 3.1111. Esses erros mostram que o progresso impulsionado por benchmarks nem sempre se traduz em robustez no mundo real. Inteligência não é apenas passar em exames, mas também navegar na lógica do dia a dia.

Com o avanço dos modelos, os benchmarks tradicionais mostram suas limitações. O GPT-4 com ferramentas atinge apenas cerca de 15% em tarefas complexas e reais no GAIA benchmark, apesar de suas pontuações impressionantes em testes de múltipla escolha. Essa desconexão se torna um problema à medida que os sistemas de IA saem dos laboratórios e entram em aplicações de negócios. Os benchmarks tradicionais testam a memorização, mas ignoram a capacidade de coletar informações, executar códigos, analisar dados e sintetizar soluções em várias áreas.

Leia também:

GAIA: O novo padrão para medir a capacidade da IA

O GAIA surge como uma mudança necessária na metodologia de avaliação de IA. Criado em colaboração entre as equipes Meta-FAIR, Meta-GenAI, HuggingFace e AutoGPT, o benchmark inclui 466 perguntas cuidadosamente elaboradas, divididas em três níveis de dificuldade. Essas questões testam a navegação na web, a compreensão multimodal, a execução de código, o gerenciamento de arquivos e o raciocínio complexo – habilidades essenciais para aplicações de IA no mundo real.

  • Nível 1: Aproximadamente 5 passos e uma ferramenta para humanos resolverem.
  • Nível 2: Exige de 5 a 10 passos e múltiplas ferramentas.
  • Nível 3: Pode exigir até 50 passos e qualquer número de ferramentas.

Essa estrutura reflete a complexidade dos problemas de negócios, onde as soluções raramente vêm de uma única ação ou ferramenta.

Ao priorizar a flexibilidade, um modelo de IA alcançou 75% de precisão no GAIA, superando os gigantes da indústria Magnetic-1 da Microsoft (38%) e Langfun Agent do Google (49%). O sucesso decorre do uso de uma combinação de modelos especializados para compreensão audiovisual e raciocínio, com o Sonnet 3.5 da Anthropic como o modelo principal.

CONTINUA DEPOIS DA PUBLICIDADE

Essa evolução na avaliação de IA reflete uma mudança na indústria: estamos passando de aplicações SaaS independentes para agentes de IA que podem orquestrar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais de sistemas de IA para lidar com tarefas complexas, os benchmarks como o GAIA oferecem uma medida de capacidade mais útil do que os testes de múltipla escolha tradicionais. Para quem se interessa por tecnologia e inovação, vale a pena conferir os lançamentos de jogos desta semana, que incluem títulos como Indiana Jones no PS5 e Lost Records.

O futuro da avaliação de IA não está em testes de conhecimento isolados, mas em avaliações abrangentes da capacidade de resolução de problemas. O GAIA estabelece um novo padrão para medir a capacidade da IA – um que reflete melhor os desafios e as oportunidades da implementação da IA no mundo real.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.