▲
- A Sakana AI apresentou a técnica Multi-LLM AB-MCTS, que permite a colaboração entre diversos modelos de linguagem em uma única tarefa.
- Essa abordagem visa ajudar empresas a criar sistemas de IA mais eficientes e capazes de resolver desafios complexos.
- O método melhora o desempenho ao combinar as forças de diferentes modelos, superando modelos individuais em tarefas avançadas.
- A técnica potencializa a capacidade de resolução de problemas que antes eram considerados impossíveis para um único modelo.
- Ferramenta de código aberto chamada TreeQuest facilita a aplicação prática dessa abordagem por desenvolvedores e empresas.
A Sakana AI, um laboratório japonês de inteligência artificial, apresentou uma nova técnica que permite a colaboração entre múltiplos grandes modelos de linguagem (LLMs) em uma única tarefa. Essa abordagem cria uma verdadeira “equipe dos sonhos” de agentes de IA. O método, conhecido como Multi-LLM AB-MCTS, permite que os modelos usem tentativa e erro para combinar suas forças e resolver problemas complexos que seriam difíceis para qualquer modelo sozinho.
Para as empresas, essa novidade oferece uma maneira de construir sistemas de IA mais fortes e capazes. Em vez de depender de um único modelo ou fornecedor, as companhias podem aproveitar o melhor de diferentes modelos de ponta. Assim, conseguem atribuir a IA mais adequada para cada parte de uma tarefa e, com isso, obter resultados superiores.
A Força da Inteligência Coletiva
Os modelos de IA avançados estão em constante evolução. Cada um possui suas próprias qualidades e fraquezas, que vêm dos dados únicos de treinamento e de sua arquitetura. Por exemplo, um modelo pode ser ótimo para programar, enquanto outro se destaca na escrita criativa. Os pesquisadores da Sakana AI veem essas diferenças como um ponto positivo.
Para eles, essas particularidades e talentos variados não são limites, mas sim recursos importantes para criar uma inteligência coletiva. A ideia é que, assim como as maiores conquistas da humanidade vêm de equipes diversas, os sistemas de IA também podem fazer mais quando trabalham juntos. Ao unir suas inteligências, esses sistemas conseguem resolver desafios que seriam impossíveis para um modelo isolado.
Otimizando o Pensamento Durante a Inferencia
O novo algoritmo da Sakana AI é uma técnica de “escalabilidade no tempo de inferência”, também chamada de “escalabilidade no tempo de teste”. Essa área de pesquisa se popularizou muito no último ano. Enquanto o foco principal em IA tem sido “escalabilidade no tempo de treinamento”, que envolve tornar os modelos maiores e treiná-los com mais dados, a escalabilidade no tempo de inferência melhora o desempenho ao dar mais recursos de computação depois que um modelo já está treinado.
Leia também:
Uma estratégia comum é usar o aprendizado por reforço para pedir aos modelos que gerem sequências mais longas e detalhadas de “cadeia de pensamento” (chain-of-thought – CoT). Modelos conhecidos como OpenAI o3 e DeepSeek-R1 utilizam essa abordagem. Outra técnica, mais simples, é a amostragem repetida, onde o modelo recebe a mesma solicitação várias vezes para gerar diferentes soluções, como em um processo de brainstorming. O trabalho da Sakana AI une e aprimora essas ideias.
Segundo Takuya Akiba, cientista pesquisador da Sakana AI e coautor do estudo, o sistema da empresa oferece uma versão mais inteligente e estratégica de Best-of-N (ou amostragem repetida). Ele complementa técnicas de raciocínio, como o CoT longo via aprendizado por reforço. Ao escolher dinamicamente a estratégia de busca e o LLM certo, essa abordagem maximiza o desempenho, mesmo com um número limitado de chamadas ao LLM, entregando resultados melhores em tarefas mais complexas.
Como Funciona a Busca Adaptativa de Ramificação
O coração do novo método é um algoritmo chamado Adaptive Branching Monte Carlo Tree Search (AB-MCTS). Ele permite que um LLM use tentativa e erro de forma eficaz, equilibrando duas estratégias de busca. A primeira, “buscar mais profundamente”, envolve refinar repetidamente uma resposta promissora. A segunda, “buscar mais amplamente”, significa gerar soluções completamente novas do zero. O AB-MCTS combina essas abordagens, permitindo que o sistema aprimore uma boa ideia, mas também mude de rumo e tente algo novo se encontrar um impasse ou uma direção mais promissora.
Para fazer isso, o sistema utiliza a busca em árvore de Monte Carlo Tree Search (MCTS), um algoritmo de tomada de decisão famoso por ter sido usado no AlphaGo da DeepMind. Em cada passo, o AB-MCTS usa modelos de probabilidade para decidir se é mais estratégico refinar uma solução existente ou gerar uma nova. Essa flexibilidade é crucial para lidar com problemas complexos.
Os pesquisadores foram além com o Multi-LLM AB-MCTS. Além de decidir “o que” fazer (refinar ou gerar), o sistema também decide “qual” LLM deve executar a tarefa. No início de uma tarefa, o sistema não sabe qual modelo é o mais adequado. Ele começa testando uma mistura equilibrada dos LLMs disponíveis. Com o tempo, ele aprende quais modelos são mais eficientes e, assim, distribui mais carga de trabalho para eles.
A Equipe de IA em Teste
O sistema Multi-LLM AB-MCTS foi testado no benchmark ARC-AGI-2. O ARC (Abstraction and Reasoning Corpus) é feito para avaliar a capacidade humana de resolver problemas de raciocínio visual novos, o que o torna um grande desafio para a IA. A equipe usou uma combinação de modelos de ponta, incluindo o4-mini, Gemini 2.5 Pro e DeepSeek-R1.
O conjunto de modelos conseguiu encontrar soluções corretas para mais de 30% dos 120 problemas de teste. Esse resultado superou significativamente o desempenho de qualquer um dos modelos trabalhando sozinho. O sistema mostrou que consegue atribuir o melhor modelo para cada problema de forma dinâmica. Em tarefas com um caminho claro para a solução, o algoritmo rapidamente identificava o LLM mais eficaz e o usava com mais frequência.
É impressionante notar que a equipe viu casos em que os modelos resolveram problemas que antes eram impossíveis para qualquer um deles individualmente. Em uma situação, uma solução gerada pelo modelo o4-mini estava errada. No entanto, o sistema encaminhou essa tentativa com falha para o DeepSeek-R1 e o Gemini-2.5 Pro, que conseguiram analisar o erro, corrigi-lo e, por fim, produzir a resposta certa. Isso mostra o potencial da colaboração. Além disso, quando falamos sobre a qualidade do conteúdo gerado por IA, mitigar erros é fundamental.
Os pesquisadores afirmam que o Multi-LLM AB-MCTS pode combinar modelos de ponta de forma flexível para resolver desafios antes impossíveis. Isso empurra os limites do que pode ser alcançado usando LLMs como uma inteligência coletiva. Akiba explicou que, além dos pontos fortes e fracos individuais, a tendência de “alucinar” (gerar informações incorretas) pode variar bastante entre os modelos. Criar um grupo com um modelo menos propenso a alucinar pode trazer o melhor dos dois mundos: capacidade lógica poderosa e forte fundamentação.
Da Pesquisa à Aplicação Prática
Para ajudar desenvolvedores e empresas a aplicar essa técnica, a Sakana AI lançou o algoritmo subjacente como um framework de código aberto chamado TreeQuest. Ele está disponível sob a licença Apache 2.0, o que significa que pode ser usado para fins comerciais. O TreeQuest oferece uma API flexível, permitindo que os usuários implementem o Multi-LLM AB-MCTS em suas próprias tarefas com pontuação e lógica personalizadas. Este é um grande passo para impulsionar a eficiência da IA.
Akiba comentou que, embora estejam nas fases iniciais de aplicação do AB-MCTS em problemas de negócios específicos, a pesquisa já aponta um potencial significativo em várias áreas. Além do benchmark ARC-AGI-2, a equipe conseguiu aplicar com sucesso o AB-MCTS em tarefas como codificação algorítmica complexa e na melhoria da precisão de modelos de aprendizado de máquina. A capacidade de um sistema como este de executar tarefas de forma mais autônoma é um avanço notável.
O AB-MCTS também pode ser muito eficaz para problemas que exigem tentativa e erro repetidas. Um exemplo citado por Akiba é a otimização de métricas de desempenho de softwares já existentes. Ele sugere que poderia ser usado para encontrar maneiras de melhorar automaticamente a latência de resposta de um serviço web. O lançamento de uma ferramenta prática e de código aberto pode abrir caminho para uma nova geração de aplicativos de IA mais potentes e confiáveis para empresas.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.