GAIA: O novo padrão para medir a inteligência artificial no mundo real

Conheça o GAIA, o novo padrão para medir a capacidade da IA em resolver problemas complexos do mundo real.
Atualizado há 1 dia
GAIA: O novo padrão para medir a inteligência artificial no mundo real
GAIA: o novo padrão para avaliar a IA em desafios do mundo real. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • O GAIA é um novo benchmark para avaliar a capacidade da IA em resolver problemas complexos do mundo real.
    • Você pode entender como os avanços na avaliação da IA impactam o desenvolvimento de tecnologias mais robustas.
    • O GAIA pode influenciar diretamente a qualidade e a eficiência das soluções de IA aplicadas em negócios e no cotidiano.
    • Esse novo padrão também sinaliza uma mudança na indústria, priorizando habilidades práticas em vez de testes isolados.
CONTINUA DEPOIS DA PUBLICIDADE

Inteligência é algo que todos reconhecemos, mas medir essa qualidade é um desafio constante. As avaliações que fazemos, como vestibulares e testes de QI, são apenas aproximações das capacidades de alguém. Será que tirar 100% em uma prova significa que duas pessoas têm a mesma inteligência, ou que atingiram o limite máximo? A comunidade de IA generativa utiliza benchmark de inteligência artificial como o MMLU para avaliar modelos, mas será que esses testes realmente capturam o que chamamos de inteligência?

Afinal, o que significa medir a inteligência em sistemas de inteligência artificial? Com o lançamento do novo ARC-AGI, um teste que busca levar os modelos em direção ao raciocínio geral e à solução criativa de problemas, essa questão voltou a ser debatida. Embora nem todos tenham testado o ARC-AGI ainda, a iniciativa é vista como um avanço bem-vindo.

Outro desenvolvimento notável é o Humanity’s Last Exam, um benchmark de inteligência artificial abrangente com 3.000 questões complexas de diversas áreas. Os resultados iniciais mostram um progresso rápido, com a OpenAI alcançando 26,6% de pontuação em um mês após o lançamento. No entanto, como outros benchmarks, ele avalia o conhecimento e o raciocínio de forma isolada, sem testar as habilidades práticas e o uso de ferramentas necessárias para aplicações reais de IA.

As falhas dos modelos de IA em tarefas simples

Modelos de ponta falham em tarefas simples, como contar o número de letras “r” na palavra “morango” ou identificar que 3.8 é maior que 3.1111. Esses erros mostram que o progresso impulsionado por benchmarks nem sempre se traduz em robustez no mundo real. Inteligência não é apenas passar em exames, mas também navegar na lógica do dia a dia.

Com o avanço dos modelos, os benchmarks tradicionais mostram suas limitações. O GPT-4 com ferramentas atinge apenas cerca de 15% em tarefas complexas e reais no GAIA benchmark, apesar de suas pontuações impressionantes em testes de múltipla escolha. Essa desconexão se torna um problema à medida que os sistemas de IA saem dos laboratórios e entram em aplicações de negócios. Os benchmarks tradicionais testam a memorização, mas ignoram a capacidade de coletar informações, executar códigos, analisar dados e sintetizar soluções em várias áreas.

CONTINUA DEPOIS DA PUBLICIDADE

Leia também:

GAIA: O novo padrão para medir a capacidade da IA

O GAIA surge como uma mudança necessária na metodologia de avaliação de IA. Criado em colaboração entre as equipes Meta-FAIR, Meta-GenAI, HuggingFace e AutoGPT, o benchmark inclui 466 perguntas cuidadosamente elaboradas, divididas em três níveis de dificuldade. Essas questões testam a navegação na web, a compreensão multimodal, a execução de código, o gerenciamento de arquivos e o raciocínio complexo – habilidades essenciais para aplicações de IA no mundo real.

  • Nível 1: Aproximadamente 5 passos e uma ferramenta para humanos resolverem.
  • Nível 2: Exige de 5 a 10 passos e múltiplas ferramentas.
  • Nível 3: Pode exigir até 50 passos e qualquer número de ferramentas.

Essa estrutura reflete a complexidade dos problemas de negócios, onde as soluções raramente vêm de uma única ação ou ferramenta.

Ao priorizar a flexibilidade, um modelo de IA alcançou 75% de precisão no GAIA, superando os gigantes da indústria Magnetic-1 da Microsoft (38%) e Langfun Agent do Google (49%). O sucesso decorre do uso de uma combinação de modelos especializados para compreensão audiovisual e raciocínio, com o Sonnet 3.5 da Anthropic como o modelo principal.

Essa evolução na avaliação de IA reflete uma mudança na indústria: estamos passando de aplicações SaaS independentes para agentes de IA que podem orquestrar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais de sistemas de IA para lidar com tarefas complexas, os benchmarks como o GAIA oferecem uma medida de capacidade mais útil do que os testes de múltipla escolha tradicionais. Para quem se interessa por tecnologia e inovação, vale a pena conferir os lançamentos de jogos desta semana, que incluem títulos como Indiana Jones no PS5 e Lost Records.

O futuro da avaliação de IA não está em testes de conhecimento isolados, mas em avaliações abrangentes da capacidade de resolução de problemas. O GAIA estabelece um novo padrão para medir a capacidade da IA – um que reflete melhor os desafios e as oportunidades da implementação da IA no mundo real.

CONTINUA DEPOIS DA PUBLICIDADE

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.