Estudo da Microsoft revela que mais processamento nem sempre melhora o raciocínio da IA

Pesquisa da Microsoft mostra que aumentar o processamento em IA nem sempre garante melhores resultados, impactando custos e confiabilidade.
Atualizado há 5 horas
Estudo da Microsoft revela que mais processamento nem sempre melhora o raciocínio da IA
Aumentar o processamento em IA nem sempre resulta em melhores resultados e confiabilidade. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • Um estudo da Microsoft Research demonstra que aumentar o número de tokens em modelos de IA nem sempre melhora o raciocínio.
    • O objetivo é alertar empresas e desenvolvedores sobre a volatilidade de custos e a confiabilidade dos modelos de IA.
    • Isso pode impactar diretamente o orçamento e a eficiência de projetos que dependem de IA avançada.
    • A pesquisa também destaca a necessidade de mecanismos de verificação mais robustos para garantir resultados consistentes.
CONTINUA DEPOIS DA PUBLICIDADE

Modelos de linguagem grandes (LLMs) usam técnicas como inference-time scaling para tarefas complexas. No entanto, um estudo da Microsoft Research mostra que mais processamento (tokens) nem sempre melhora o raciocínio da IA. A pesquisa indica que o desempenho varia muito entre modelos e tarefas, o que afeta a previsibilidade de custos e a confiança nos resultados.

A principal conclusão é que simplesmente usar mais poder computacional durante a inferência não garante respostas melhores ou mais eficientes. Essas descobertas ajudam as empresas a entender melhor a volatilidade de custos e a confiabilidade dos modelos ao integrar IA avançada em suas aplicações.

Testando os limites do Raciocínio da IA

A equipe da Microsoft Research realizou uma análise empírica detalhada com nove modelos de fundação de ponta. Isso incluiu modelos “convencionais” como GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro e Llama 3.1 405B.

Também foram avaliados modelos especificamente ajustados para raciocínio aprimorado via inference-time scaling. Entre eles estavam o o1 e o3-mini da OpenAI, Claude 3.7 Sonnet da Anthropic, Gemini 2 Flash Thinking do Google e DeepSeek R1.

Os pesquisadores avaliaram esses modelos usando três abordagens distintas de inference-time scaling:

CONTINUA DEPOIS DA PUBLICIDADE

Leia também:

  • Standard Chain-of-Thought (CoT): O método básico onde o modelo é instruído a responder passo a passo.
  • Parallel Scaling: O modelo gera múltiplas respostas independentes para a mesma pergunta e usa um agregador (como voto majoritário ou seleção da resposta com melhor pontuação) para chegar a um resultado final.
  • Sequential Scaling: O modelo gera iterativamente uma resposta e usa feedback de um crítico (potencialmente do próprio modelo) para refinar a resposta em tentativas subsequentes.

Essas abordagens foram testadas em oito conjuntos de dados de benchmark desafiadores. Eles cobriram uma ampla gama de tarefas que se beneficiam da resolução de problemas passo a passo: raciocínio matemático e STEM (AIME, Omni-MATH, GPQA), planejamento de calendário (BA-Calendar), problemas NP-difíceis (3SAT, TSP), navegação (Maze) e raciocínio espacial (SpatialMap).

Vários benchmarks incluíam problemas com níveis de dificuldade variados. Isso permitiu uma compreensão mais sutil de como o escalonamento se comporta à medida que os problemas se tornam mais difíceis.

“A disponibilidade de tags de dificuldade para Omni-MATH, TSP, 3SAT e BA-Calendar nos permite analisar como a precisão e o uso de tokens escalam com a dificuldade no inference-time scaling, uma perspectiva ainda pouco explorada”, escreveram os pesquisadores no artigo que detalha suas descobertas.

Os pesquisadores avaliaram a fronteira de Pareto do raciocínio LLM analisando tanto a precisão quanto o custo computacional (ou seja, o número de tokens gerados). Isso ajuda a identificar quão eficientemente os modelos alcançam seus resultados.

Eles também introduziram a medida de “conventional-to-reasoning gap“. Essa métrica compara o melhor desempenho possível de um modelo convencional (usando uma seleção ideal “best-of-N“) com o desempenho médio de um modelo de raciocínio, estimando os ganhos potenciais alcançáveis através de melhores técnicas de treinamento ou verificação.

Mais processamento nem sempre é a solução

CONTINUA DEPOIS DA PUBLICIDADE

O estudo trouxe várias percepções cruciais que desafiam suposições comuns sobre o inference-time scaling:

  • Benefícios variam significativamente: Embora modelos ajustados para raciocínio geralmente superem os convencionais nessas tarefas, o grau de melhoria varia muito dependendo do domínio e da tarefa específica. Os ganhos frequentemente diminuem à medida que a complexidade do problema aumenta.
  • Ineficiência de tokens é comum: Os pesquisadores observaram alta variabilidade no consumo de tokens, mesmo entre modelos com precisão semelhante. Por exemplo, no benchmark de matemática AIME 2025, o DeepSeek-R1 usou mais de cinco vezes mais tokens que o Claude 3.7 Sonnet para uma precisão média aproximadamente comparável. Alto consumo de tokens não garante melhor performance.
  • Mais tokens não levam a maior precisão: Contrariando a ideia intuitiva de que cadeias de raciocínio mais longas significam melhor raciocínio, o estudo descobriu que isso nem sempre é verdade. “Surpreendentemente, também observamos que gerações mais longas em relação ao mesmo modelo podem, às vezes, ser um indicador de que os modelos estão com dificuldades, em vez de uma reflexão aprimorada”, afirma o artigo.
  • Cost nondeterminism (Custo não determinístico): Talvez o mais preocupante para usuários corporativos, consultas repetidas ao mesmo modelo para o mesmo problema podem resultar em uso de tokens altamente variável. Isso significa que o custo de executar uma consulta pode flutuar significativamente, mesmo quando o modelo fornece consistentemente a resposta correta. A falta de previsibilidade nos custos é um desafio.
  • O potencial nos mecanismos de verificação: O desempenho do escalonamento melhorou consistentemente em todos os modelos e benchmarks quando simulado com um “verificador perfeito” (usando os resultados best-of-N).
  • Modelos convencionais às vezes alcançam modelos de raciocínio: Aumentando significativamente as chamadas de inferência (até 50x mais em alguns experimentos), modelos convencionais como o GPT-4o puderam, às vezes, se aproximar dos níveis de desempenho de modelos de raciocínio dedicados, especialmente em tarefas menos complexas. No entanto, esses ganhos diminuíram rapidamente em cenários altamente complexos, indicando que o escalonamento por força bruta tem seus limites.

O que isso significa para as empresas

Essas descobertas têm um peso significativo para desenvolvedores e empresas que adotam LLMs. A questão do “custo não determinístico” é particularmente gritante e dificulta o orçamento. Como apontam os pesquisadores, “Idealmente, desenvolvedores e usuários prefeririam modelos para os quais o desvio padrão no uso de tokens por instância é baixo para previsibilidade de custos.”

“O perfil que fazemos \[no estudo] pode ser útil para desenvolvedores como uma ferramenta para escolher quais modelos são menos voláteis para o mesmo prompt ou para prompts diferentes”, disse Besmira Nushi, gerente principal de pesquisa sênior da Microsoft Research, ao VentureBeat. “Idealmente, deve-se escolher um modelo que tenha baixo desvio padrão para entradas corretas.” Empresas podem buscar plataformas como o marketplace da Moveworks para encontrar agentes de IA com desempenho mais previsível.

O estudo também fornece bons insights sobre a correlação entre a precisão de um modelo e o comprimento da resposta. Por exemplo, gráficos mostram que consultas matemáticas acima de ~11.000 tokens têm uma chance muito pequena de estarem corretas. Essas gerações deveriam ser interrompidas ou reiniciadas com feedback sequencial. No entanto, Nushi aponta que modelos que permitem essas mitigações post hoc também têm uma separação mais clara entre amostras corretas e incorretas.

“Finalmente, também é responsabilidade dos construtores de modelos pensar em reduzir a não-determinismo de precisão e custo, e esperamos que muito disso aconteça à medida que os métodos se tornem mais maduros”, disse Nushi. “Juntamente com o não-determinismo de custo, o não-determinismo de precisão também se aplica.”

Outra descoberta importante é o aumento consistente de desempenho com verificadores perfeitos, o que destaca uma área crítica para trabalhos futuros: construir mecanismos de verificação robustos e amplamente aplicáveis. O uso de IA para aprimorar a segurança cibernética, como faz a Amex GBT, mostra a importância de mecanismos confiáveis.

“A disponibilidade de verificadores mais fortes pode ter diferentes tipos de impacto”, disse Nushi, como melhorar os métodos de treinamento fundamental para o raciocínio. “Se usados eficientemente, eles também podem encurtar os traços de raciocínio.”

Verificadores fortes também podem se tornar uma parte central das soluções de IA agenticas empresariais. Muitas partes interessadas nas empresas já possuem tais verificadores, que podem precisar ser adaptados para soluções mais agenticas, como solucionadores SAT, verificadores de validade logística, etc.

“As questões para o futuro são como essas técnicas existentes podem ser combinadas com interfaces orientadas por IA e qual é a linguagem que conecta os dois”, disse Nushi. “A necessidade de conectar os dois vem do fato de que os usuários nem sempre formularão suas consultas de maneira formal, eles vão querer usar uma interface de linguagem natural e esperar as soluções em um formato semelhante ou em uma ação final (por exemplo, propor um convite de reunião).”

Esses estudos da Microsoft Research indicam que o desenvolvimento de capacidades de raciocínio em IA é um processo complexo. A simples adição de mais poder computacional não é uma solução universal. As empresas precisam considerar cuidadosamente a variabilidade no desempenho e no custo ao implementar essas tecnologias avançadas.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.