Benchmark MCP Universe revela falha do GPT-5 em mais da metade das tarefas reais de orquestração

Benchmark MCP Universe mostra que GPT-5 não supera metade das tarefas empresariais complexas.
Publicado dia 30/08/2025
Benchmark MCP Universe revela falha do GPT-5 em mais da metade das tarefas reais de orquestração
(Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • O benchmark MCP Universe avalia modelos de IA em tarefas empresariais reais, destacando falhas importantes.
    • Você pode entender melhor as limitações atuais do GPT-5 em operações complexas do cotidiano empresarial.
    • Os resultados mostram que a IA ainda enfrenta dificuldades na execução autônoma de múltiplas etapas em negócios.
    • A pesquisa reforça a necessidade de melhorias para adotar IA com segurança e eficiência nas empresas.
CONTINUA DEPOIS DA PUBLICIDADE

Uma nova avaliação da pesquisa da Salesforce trouxe à tona detalhes sobre o desempenho de modelos e agentes de inteligência artificial em tarefas do dia a dia das empresas. O benchmark foca em cenários reais, fornecendo uma visão clara de como essas tecnologias se saem fora do ambiente de laboratório. Este teste é importante para entender as capacidades atuais da IA em ambientes corporativos.

O Benchmark de Salesforce e o Desempenho da IA

A pesquisa da Salesforce utilizou um novo benchmark, chamado MCP Universe, para avaliar como os modelos e agentes de IA se comportam em atividades empresariais. A ideia é simular situações verdadeiras, onde as inteligências artificiais precisam executar mais do que simples comandos. Eles precisam de uma capacidade de “agência”, ou seja, de atuar de forma mais autônoma.

Este tipo de avaliação é diferente dos testes mais tradicionais, que muitas vezes medem apenas a capacidade de resposta ou a precisão em tarefas isoladas. O foco do MCP Universe está na habilidade de orquestrar múltiplas etapas para completar um objetivo maior dentro de um contexto de negócio.

CONTINUA DEPOIS DA PUBLICIDADE

Um dos modelos testados foi o GPT-5, um dos mais avançados disponíveis atualmente. Os resultados mostraram que o GPT-5 falhou em mais da metade das tarefas de orquestração do mundo real. Isso aponta para uma lacuna entre o que os modelos de IA podem fazer em testes de laboratório e a realidade complexa das operações empresariais.

A Salesforce busca oferecer uma ferramenta para que as empresas possam medir e entender melhor o verdadeiro potencial e as limitações das IAs. Compreender esses pontos é crucial para a adaptação de agentes de IA aos processos já existentes em um ambiente corporativo.

Desafios em Tarefas de Orquestração

Tarefas de orquestração no contexto empresarial são aquelas que exigem uma sequência de ações coordenadas. Por exemplo, uma IA pode precisar coletar dados de diferentes sistemas, analisá-los e, com base nisso, tomar decisões ou gerar relatórios complexos. Não é apenas responder a uma pergunta, mas gerenciar todo um fluxo de trabalho.

A falha do GPT-5 em mais de 50% dessas tarefas destaca a dificuldade dos modelos atuais em lidar com a complexidade inerente aos fluxos de trabalho do mundo real. Muitos agentes de IA ainda estão em desenvolvimento e aprimoramento, mas a pesquisa mostra que há um caminho a percorrer até que consigam atuar com total autonomia e eficiência em múltiplos cenários.

Essa dificuldade pode estar ligada à necessidade de memória procedural, que permite que a IA “aprenda” e execute sequências de ações de forma mais fluida. Sem essa capacidade, as IAs podem ter problemas para manter a continuidade e a lógica em tarefas de várias etapas, o que as impede de se tornarem ferramentas realmente autônomas para empresas.

A pesquisa da Salesforce serve como um lembrete importante de que a integração da inteligência artificial em processos empresariais exige uma compreensão aprofundada das suas capacidades e limitações. Empresas que buscam adotar essas tecnologias precisam de avaliações rigorosas para garantir que a IA possa realmente agregar valor, não apenas causar mais dores de cabeça com falhas constantes.

CONTINUA DEPOIS DA PUBLICIDADE

Estudos contínuos e novos métodos de treinamento para modelos de linguagem grandes (LLMs), como a Tencent desenvolve método para LLMs treinarem sem dados rotulados, são essenciais. Essas abordagens podem ajudar a criar sistemas mais robustos e adaptáveis às necessidades do mercado.

A análise do desempenho desses modelos de IA é crucial para o futuro da automação em empresas. Entender onde as tecnologias atuais, como o GPT-5, precisam melhorar, ajuda a direcionar o desenvolvimento de novas soluções mais eficazes. Isso contribui para que as empresas possam integrar a IA de forma mais estratégica, focando em aplicações onde ela realmente pode gerar resultados. Além disso, a segurança da IA para empresas é um desafio constante, como visto em testes entre OpenAI e Anthropic.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.