Aqui está a notícia reescrita sobre o potencial dos LLMs com amostragem simples, seguindo as diretrizes:
Uma nova pesquisa da Universidade da Califórnia, Berkeley, e do Google Research mostra que uma técnica de escalonamento no tempo de teste pode turbinar as habilidades de raciocínio dos modelos de linguagem grandes (LLMs). A solução? Ampliar a busca baseada em amostragem, que gera diversas respostas e usa o próprio modelo para verificá-las. Essa descoberta desafia a ideia de que apenas treinamentos especializados garantem o melhor desempenho.
Menos é Mais: Desvendando o Potencial do Sampling Baseado em LLM
O estudo demonstra que uma implementação minimalista da busca baseada em amostragem, com amostragem aleatória e autoverificação, eleva o desempenho de modelos como o Gemini 1.5 Pro, superando o o1-Preview em testes populares. Essa descoberta tem implicações importantes para aplicações corporativas.
Essa abordagem questiona a necessidade de treinamento altamente especializado ou arquiteturas complexas para alcançar o melhor desempenho. Além disso, destaca o valor de estratégias simples e escaláveis para aprimorar as capacidades de raciocínio dos LLMs.
O método popular para escalonamento no tempo de teste em LLMs envolve treinar o modelo através de aprendizado por reforço para gerar respostas mais longas com rastreamento chain-of-thought (CoT). Modelos como o OpenAI o1 e o DeepSeek-R1 utilizam essa técnica. Embora eficazes, esses métodos exigem um investimento considerável na fase de treinamento.
Leia também:
Outro método de escalonamento no tempo de teste é a “autoconsciência”, onde o modelo gera várias respostas para a consulta e escolhe a resposta que aparece com mais frequência. A autoconsciência atinge seus limites ao lidar com problemas complexos, pois, nesses casos, a resposta mais repetida nem sempre é a correta.
A Busca Baseada em Amostragem como Alternativa
A busca baseada em amostragem apresenta uma alternativa mais simples e escalável ao escalonamento no tempo de teste: o modelo gera várias respostas e seleciona a melhor através de um mecanismo de verificação. Essa busca pode complementar outras estratégias de escalonamento e possui a vantagem de ser paralela e permitir escalonamento arbitrário.
Mais importante, a busca baseada em amostragem pode ser aplicada a qualquer LLM, mesmo àqueles que não foram explicitamente treinados para raciocínio. Assim, abre-se um leque de possibilidades para aprimorar o desempenho de diferentes modelos em diversas tarefas.
Os pesquisadores focam em uma implementação minimalista da busca baseada em amostragem, utilizando um modelo de linguagem para gerar respostas candidatas e verificá-las. Este é um processo de “autoverificação”, onde o modelo avalia suas próprias saídas sem depender de respostas externas ou sistemas de verificação simbólica.
Como Funciona a Busca?
O algoritmo funciona em etapas simples:
1. O algoritmo começa gerando um conjunto de soluções candidatas para o problema dado, utilizando um modelo de linguagem. Isso é feito fornecendo ao modelo o mesmo prompt várias vezes e usando uma configuração de temperatura não nula para criar um conjunto diversificado de respostas.
2. Cada resposta candidata passa por um processo de verificação no qual o LLM é solicitado várias vezes para determinar se a resposta está correta. Os resultados da verificação são então calculados para criar uma pontuação de verificação final para a resposta.
3. O algoritmo seleciona a resposta com a pontuação mais alta como a resposta final. Se vários candidatos estiverem próximos uns dos outros, o LLM é solicitado a compará-los em pares e escolher o melhor. A resposta que obtém mais comparações em pares é escolhida como a resposta final.
Os pesquisadores consideraram dois eixos principais para o escalonamento no tempo de teste:
* Amostragem: O número de respostas que o modelo gera para cada problema de entrada.
* Verificação: O número de pontuações de verificação computadas para cada solução gerada.
Comparativo com Outras Técnicas de Sampling Baseado em LLM
O estudo revelou que o desempenho de raciocínio continua a melhorar com a busca baseada em amostragem, mesmo quando o tempo de teste é escalado muito além do ponto em que a autoconsciência se satura. Em uma escala suficiente, essa implementação minimalista aumenta significativamente a precisão do raciocínio em benchmarks como AIME e MATH.
Por exemplo, o desempenho do Gemini 1.5 Pro superou o do o1-Preview, que foi explicitamente treinado em problemas de raciocínio, e o Gemini 1.5 Flash superou o Gemini 1.5 Pro. Uma das melhores maneiras de aprender é com IA.
“Isto não só destaca a importância da busca baseada em amostragem para escalar a capacidade, mas também sugere a utilidade da busca baseada em amostragem como uma linha de base simples na qual comparar outras estratégias de escalonamento de tempo de teste e medir melhorias genuínas nas capacidades de busca dos modelos”, escrevem os pesquisadores.
Vale a pena notar que, embora os resultados da busca baseada em amostragem sejam impressionantes, os custos também podem se tornar proibitivos. Por exemplo, com 200 amostras e 50 etapas de verificação por amostra, uma consulta do AIME gerará cerca de 130 milhões de tokens, o que custa US$ 650 com o Gemini 1.5 Pro.
No entanto, esta é uma abordagem muito minimalista para a busca baseada em amostragem, e é compatível com técnicas de otimização propostas em outros estudos. Com métodos de amostragem e verificação mais inteligentes, os custos de inferência podem ser consideravelmente reduzidos. Por exemplo, usando o Gemini 1.5 Flash para realizar a verificação, os custos caem para US$ 12 por questão.
Estratégias Eficazes de Autoverificação
Há um debate em curso sobre se os LLMs podem verificar suas próprias respostas. Os pesquisadores identificaram duas estratégias principais para melhorar a autoverificação usando o tempo de teste:
* Comparar diretamente as respostas candidatas: Divergências entre as soluções candidatas indicam fortemente erros potenciais. Ao fornecer ao verificador várias respostas para comparar, o modelo pode identificar melhor os erros e as alucinações, abordando uma fraqueza central dos LLMs. Os pesquisadores descrevem isso como uma instância de “escalonamento implícito”.
* Reescrita específica da tarefa: Os pesquisadores propõem que o estilo de saída ideal de um LLM depende da tarefa. O Chain-of-thought é eficaz para resolver tarefas de raciocínio, mas as respostas são mais fáceis de verificar quando escritas em um estilo mais formal e matematicamente convencional. Os verificadores podem reescrever as respostas candidatas em um formato mais estruturado (por exemplo, teorema-lema-prova) antes da avaliação.
“Prevemos que as capacidades de autoverificação do modelo melhorem rapidamente a curto prazo, à medida que os modelos aprendem a alavancar os princípios do escalonamento implícito e da adequação do estilo de saída, e impulsionam taxas de escalonamento aprimoradas para a busca baseada em amostragem”, escrevem os pesquisadores. Saiba mais sobre os avanços da IA.
O estudo demonstra que uma técnica relativamente simples pode alcançar resultados impressionantes, potencialmente reduzindo a necessidade de arquiteturas de modelo complexas e dispendiosas ou regimes de treinamento. Isso também é uma técnica escalável, permitindo que as empresas aumentem o desempenho alocando mais recursos computacionais para amostragem e verificação.
Além disso, possibilita que os desenvolvedores impulsionem modelos de linguagem de fronteira além de suas limitações em tarefas complexas. Empresas como a Prosegur estão usando IA para melhorar seus negócios.
“Dado que complementa outras estratégias de escalonamento de computação em tempo de teste, é paralelizável e permite escalonamento arbitrário, e admite implementações simples que são demonstrativamente eficazes, esperamos que a busca baseada em amostragem desempenhe um papel crucial à medida que os modelos de linguagem são incumbidos de resolver problemas cada vez mais complexos com orçamentos computacionais cada vez maiores”, escrevem os pesquisadores.
Primeira: Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.
Segunda: Via VentureBeat