CONTINUA DEPOIS DA PUBLICIDADE

Aqui está a notícia reescrita sobre o potencial dos LLMs com amostragem simples, seguindo as diretrizes:

Acompanhe as noticias no seu WhatsAp! entre no nosso grupo

Uma nova pesquisa da Universidade da Califórnia, Berkeley, e do Google Research mostra que uma técnica de escalonamento no tempo de teste pode turbinar as habilidades de raciocínio dos modelos de linguagem grandes (LLMs). A solução? Ampliar a busca baseada em amostragem, que gera diversas respostas e usa o próprio modelo para verificá-las. Essa descoberta desafia a ideia de que apenas treinamentos especializados garantem o melhor desempenho.

Menos é Mais: Desvendando o Potencial do Sampling Baseado em LLM

O estudo demonstra que uma implementação minimalista da busca baseada em amostragem, com amostragem aleatória e autoverificação, eleva o desempenho de modelos como o Gemini 1.5 Pro, superando o o1-Preview em testes populares. Essa descoberta tem implicações importantes para aplicações corporativas.

CONTINUA DEPOIS DA PUBLICIDADE

Essa abordagem questiona a necessidade de treinamento altamente especializado ou arquiteturas complexas para alcançar o melhor desempenho. Além disso, destaca o valor de estratégias simples e escaláveis para aprimorar as capacidades de raciocínio dos LLMs.

O método popular para escalonamento no tempo de teste em LLMs envolve treinar o modelo através de aprendizado por reforço para gerar respostas mais longas com rastreamento chain-of-thought (CoT). Modelos como o OpenAI o1 e o DeepSeek-R1 utilizam essa técnica. Embora eficazes, esses métodos exigem um investimento considerável na fase de treinamento.

A Busca Baseada em Amostragem como Alternativa

A busca baseada em amostragem apresenta uma alternativa mais simples e escalável ao escalonamento no tempo de teste: o modelo gera várias respostas e seleciona a melhor através de um mecanismo de verificação. Essa busca pode complementar outras estratégias de escalonamento e possui a vantagem de ser paralela e permitir escalonamento arbitrário.

Mais importante, a busca baseada em amostragem pode ser aplicada a qualquer LLM, mesmo àqueles que não foram explicitamente treinados para raciocínio. Assim, abre-se um leque de possibilidades para aprimorar o desempenho de diferentes modelos em diversas tarefas.

CONTINUA DEPOIS DA PUBLICIDADE

Os pesquisadores focam em uma implementação minimalista da busca baseada em amostragem, utilizando um modelo de linguagem para gerar respostas candidatas e verificá-las. Este é um processo de “autoverificação”, onde o modelo avalia suas próprias saídas sem depender de respostas externas ou sistemas de verificação simbólica.

Como Funciona a Busca?

O algoritmo funciona em etapas simples:

1. O algoritmo começa gerando um conjunto de soluções candidatas para o problema dado, utilizando um modelo de linguagem. Isso é feito fornecendo ao modelo o mesmo prompt várias vezes e usando uma configuração de temperatura não nula para criar um conjunto diversificado de respostas.
2. Cada resposta candidata passa por um processo de verificação no qual o LLM é solicitado várias vezes para determinar se a resposta está correta. Os resultados da verificação são então calculados para criar uma pontuação de verificação final para a resposta.
3. O algoritmo seleciona a resposta com a pontuação mais alta como a resposta final. Se vários candidatos estiverem próximos uns dos outros, o LLM é solicitado a compará-los em pares e escolher o melhor. A resposta que obtém mais comparações em pares é escolhida como a resposta final.

Os pesquisadores consideraram dois eixos principais para o escalonamento no tempo de teste:

* Amostragem: O número de respostas que o modelo gera para cada problema de entrada.
* Verificação: O número de pontuações de verificação computadas para cada solução gerada.

Comparativo com Outras Técnicas de Sampling Baseado em LLM

O estudo revelou que o desempenho de raciocínio continua a melhorar com a busca baseada em amostragem, mesmo quando o tempo de teste é escalado muito além do ponto em que a autoconsciência se satura. Em uma escala suficiente, essa implementação minimalista aumenta significativamente a precisão do raciocínio em benchmarks como AIME e MATH.

Por exemplo, o desempenho do Gemini 1.5 Pro superou o do o1-Preview, que foi explicitamente treinado em problemas de raciocínio, e o Gemini 1.5 Flash superou o Gemini 1.5 Pro. Uma das melhores maneiras de aprender é com IA.

“Isto não só destaca a importância da busca baseada em amostragem para escalar a capacidade, mas também sugere a utilidade da busca baseada em amostragem como uma linha de base simples na qual comparar outras estratégias de escalonamento de tempo de teste e medir melhorias genuínas nas capacidades de busca dos modelos”, escrevem os pesquisadores.

Vale a pena notar que, embora os resultados da busca baseada em amostragem sejam impressionantes, os custos também podem se tornar proibitivos. Por exemplo, com 200 amostras e 50 etapas de verificação por amostra, uma consulta do AIME gerará cerca de 130 milhões de tokens, o que custa US$ 650 com o Gemini 1.5 Pro.

No entanto, esta é uma abordagem muito minimalista para a busca baseada em amostragem, e é compatível com técnicas de otimização propostas em outros estudos. Com métodos de amostragem e verificação mais inteligentes, os custos de inferência podem ser consideravelmente reduzidos. Por exemplo, usando o Gemini 1.5 Flash para realizar a verificação, os custos caem para US$ 12 por questão.

Estratégias Eficazes de Autoverificação

Há um debate em curso sobre se os LLMs podem verificar suas próprias respostas. Os pesquisadores identificaram duas estratégias principais para melhorar a autoverificação usando o tempo de teste:

* Comparar diretamente as respostas candidatas: Divergências entre as soluções candidatas indicam fortemente erros potenciais. Ao fornecer ao verificador várias respostas para comparar, o modelo pode identificar melhor os erros e as alucinações, abordando uma fraqueza central dos LLMs. Os pesquisadores descrevem isso como uma instância de “escalonamento implícito”.
* Reescrita específica da tarefa: Os pesquisadores propõem que o estilo de saída ideal de um LLM depende da tarefa. O Chain-of-thought é eficaz para resolver tarefas de raciocínio, mas as respostas são mais fáceis de verificar quando escritas em um estilo mais formal e matematicamente convencional. Os verificadores podem reescrever as respostas candidatas em um formato mais estruturado (por exemplo, teorema-lema-prova) antes da avaliação.

“Prevemos que as capacidades de autoverificação do modelo melhorem rapidamente a curto prazo, à medida que os modelos aprendem a alavancar os princípios do escalonamento implícito e da adequação do estilo de saída, e impulsionam taxas de escalonamento aprimoradas para a busca baseada em amostragem”, escrevem os pesquisadores. Saiba mais sobre os avanços da IA.

O estudo demonstra que uma técnica relativamente simples pode alcançar resultados impressionantes, potencialmente reduzindo a necessidade de arquiteturas de modelo complexas e dispendiosas ou regimes de treinamento. Isso também é uma técnica escalável, permitindo que as empresas aumentem o desempenho alocando mais recursos computacionais para amostragem e verificação.

Além disso, possibilita que os desenvolvedores impulsionem modelos de linguagem de fronteira além de suas limitações em tarefas complexas. Empresas como a Prosegur estão usando IA para melhorar seus negócios.

“Dado que complementa outras estratégias de escalonamento de computação em tempo de teste, é paralelizável e permite escalonamento arbitrário, e admite implementações simples que são demonstrativamente eficazes, esperamos que a busca baseada em amostragem desempenhe um papel crucial à medida que os modelos de linguagem são incumbidos de resolver problemas cada vez mais complexos com orçamentos computacionais cada vez maiores”, escrevem os pesquisadores.

Primeira: Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.

Segunda: Via VentureBeat

aplicativos google Google Google Assistente Google Play