▲
- A DeepSeek anunciou uma nova técnica chamada Self-Principled Critique Tuning (SPCT) para modelos de recompensa de IA.
- O objetivo é criar modelos mais generalistas e escaláveis, capazes de lidar com tarefas complexas e diversas.
- Essa inovação pode melhorar a eficiência de sistemas de IA em aplicações corporativas e criativas.
- A técnica também reduz o viés em comparação com modelos tradicionais, oferecendo resultados mais precisos.
A DeepSeek, um laboratório de pesquisa chinês que vem ganhando destaque por seus modelos de linguagem de código aberto, como o DeepSeek-R1, apresentou uma nova técnica para Modelos de recompensa de IA (RMs) para grandes modelos de linguagem (LLMs). Essa técnica, chamada Self-Principled Critique Tuning (SPCT), tem como objetivo criar modelos de recompensa generalistas e escaláveis, impulsionando aplicações de IA mais eficientes em tarefas complexas.
A importância dos modelos de recompensa
O aprendizado por reforço (RL) se tornou fundamental no desenvolvimento de LLMs. No RL, os modelos são ajustados com base em sinais de feedback que indicam a qualidade de suas respostas. Os modelos de recompensa são componentes cruciais que fornecem esses sinais. Um RM atua como um juiz, avaliando os resultados do LLM e atribuindo uma pontuação ou “recompensa” que guia o processo de RL e ensina o LLM a produzir respostas mais úteis.
Atualmente, os RMs se destacam em domínios específicos com regras claras ou respostas facilmente verificáveis. Por exemplo, modelos de raciocínio como o DeepSeek-R1 passaram por uma fase de RL, onde foram treinados em problemas de matemática e programação com respostas bem definidas. No entanto, criar um modelo de recompensa para consultas complexas, abertas ou subjetivas em domínios gerais continua sendo um grande desafio. Em um artigo explicando sua nova técnica, pesquisadores da DeepSeek AI afirmam que um RM generalista precisa gerar recompensas de alta qualidade além de domínios específicos, onde os critérios para recompensas são mais diversos e complexos, e muitas vezes não há referência explícita ou verdade fundamental.
Os pesquisadores destacam quatro desafios principais na criação de RMs generalistas capazes de lidar com tarefas mais amplas:
- Flexibilidade de entrada: O RM deve lidar com vários tipos de entrada e ser capaz de avaliar uma ou mais respostas simultaneamente.
- Precisão: Deve gerar sinais de recompensa precisos em diversos domínios onde os critérios são complexos e a verdade fundamental muitas vezes não está disponível.
- Escalabilidade em tempo de inferência: O RM deve produzir recompensas de alta qualidade quando mais recursos computacionais são alocados durante a inferência.
- Aprendizado de comportamentos escaláveis: Para que os RMs sejam dimensionados de forma eficaz no tempo de inferência, eles precisam aprender comportamentos que permitam um melhor desempenho à medida que mais computação é usada.
Tipos de modelos de recompensa
Os modelos de recompensa podem ser classificados por seu “paradigma de geração de recompensa” (por exemplo, RMs escalares que geram uma única pontuação, RMs generativos que produzem críticas textuais) e seu “padrão de pontuação” (por exemplo, a pontuação pointwise atribui pontuações individuais a cada resposta, a pontuação pairwise seleciona a melhor de duas respostas). Essas escolhas de design afetam a adequação do modelo para tarefas generalistas, principalmente sua flexibilidade de entrada e potencial para escalonamento em tempo de inferência.
Leia também:
Por exemplo, RMs escalares simples têm dificuldades com o escalonamento em tempo de inferência porque geram a mesma pontuação repetidamente, enquanto RMs pairwise não podem avaliar facilmente respostas únicas. Os pesquisadores propõem que a “modelagem de recompensa generativa pointwise” (GRM), onde o modelo gera críticas textuais e deriva pontuações delas, pode oferecer a flexibilidade e a escalabilidade necessárias para requisitos generalistas.
A equipe da DeepSeek conduziu experimentos preliminares em modelos como GPT-4o e Gemma-2-27B e descobriu que “certos princípios poderiam guiar a geração de recompensas dentro dos critérios adequados para GRMs, melhorando a qualidade das recompensas, o que nos inspirou que a escalabilidade em tempo de inferência do RM poderia ser alcançada escalonando a geração de princípios de alta qualidade e críticas precisas”. Se você está interessado em aprender mais sobre modelos de linguagem, pode ser útil explorar recursos sobre aplicativos de IA personalizados e como eles são criados sob medida.
Treinando RMs para gerar seus próprios princípios
Com base nessas descobertas, os pesquisadores desenvolveram o Self-Principled Critique Tuning (SPCT), que treina o GRM para gerar princípios e críticas com base em consultas e respostas dinamicamente. Os pesquisadores propõem que os princípios sejam uma “parte da geração de recompensa em vez de uma etapa de pré-processamento”. Dessa forma, os GRMs poderiam gerar princípios em tempo real com base na tarefa que estão avaliando e, em seguida, gerar críticas com base nos princípios.
“Essa mudança permite que os princípios sejam gerados com base na consulta e nas respostas de entrada, alinhando adaptativamente o processo de geração de recompensa, e a qualidade e a granularidade dos princípios e das críticas correspondentes podem ser ainda mais aprimoradas com o pós-treinamento no GRM”, escrevem os pesquisadores.
O SPCT envolve duas fases principais:
- Ajuste fino rejeitável: Esta fase treina o GRM para gerar princípios e críticas para vários tipos de entrada usando o formato correto. O modelo gera princípios, críticas e recompensas para determinadas consultas/respostas. As trajetórias (tentativas de geração) são aceitas apenas se a recompensa prevista estiver alinhada com a verdade fundamental (identificando corretamente a melhor resposta, por exemplo) e rejeitadas caso contrário. Este processo é repetido e o modelo é ajustado nos exemplos filtrados para melhorar suas capacidades de geração de princípios/críticas.
- RL baseado em regras: Nesta fase, o modelo é ainda mais ajustado através do aprendizado por reforço baseado em resultados. O GRM gera princípios e críticas para cada consulta, e os sinais de recompensa são calculados com base em regras de precisão simples (por exemplo, ele escolheu a melhor resposta conhecida?). Em seguida, o modelo é atualizado. Isso incentiva o GRM a aprender como gerar princípios eficazes e críticas precisas de forma dinâmica e escalável.
“Ao alavancar o RL on-line baseado em regras, o SPCT permite que os GRMs aprendam a apresentar adaptativamente princípios e críticas com base na consulta e nas respostas de entrada, levando a melhores recompensas de resultados em domínios gerais”, escrevem os pesquisadores. Para entender melhor como a tecnologia está evoluindo, você pode ler sobre os novos modelos de IA Llama 4 da Meta com capacidades multimodais.
Para enfrentar o desafio do escalonamento em tempo de inferência (obter melhores resultados com mais computação), os pesquisadores executam o GRM várias vezes para a mesma entrada, gerando diferentes conjuntos de princípios e críticas. A recompensa final é determinada por votação (agregando as pontuações da amostra). Isso permite que o modelo considere uma gama mais ampla de perspectivas, levando a julgamentos finais potencialmente mais precisos e diferenciados, pois é fornecido com mais recursos.
No entanto, alguns princípios/críticas gerados podem ser de baixa qualidade ou tendenciosos devido a limitações ou aleatoriedade do modelo. Para resolver isso, os pesquisadores introduziram um “meta RM” – um RM escalar leve e separado, treinado especificamente para prever se um princípio/crítica gerado pelo GRM primário provavelmente levará a uma recompensa final correta.
Durante a inferência, o meta RM avalia as amostras geradas e filtra os julgamentos de baixa qualidade antes da votação final, aprimorando ainda mais o desempenho de escala.
Colocando o SPCT em prática com o DeepSeek-GRM
Os pesquisadores aplicaram o SPCT ao Gemma-2-27B, o modelo de peso aberto do Google, criando o DeepSeek-GRM-27B. Eles o avaliaram em relação a vários RMs de linha de base fortes (incluindo LLM-como-um-Juiz, RMs escalares e RMs semi-escalares) e modelos públicos (como GPT-4o e Nemotron-4-340B-Reward) em vários benchmarks.
Eles descobriram que o DeepSeek-GRM-27B superou os métodos de linha de base treinados nos mesmos dados. O SPCT melhorou significativamente a qualidade e, crucialmente, a escalabilidade em tempo de inferência em comparação com o ajuste fino padrão.
Quando escalonado no tempo de inferência, gerando mais amostras, o desempenho do DeepSeek-GRM-27B aumentou substancialmente, superando até mesmo modelos muito maiores como o Nemotron-4-340B-Reward e o GPT-4o. O meta RM melhorou ainda mais o escalonamento, alcançando os melhores resultados ao filtrar os julgamentos.
“Com a amostragem em maior escala, o DeepSeek-GRM poderia julgar com mais precisão os princípios com maior diversidade e recompensas de saída com maior granularidade”, escrevem os pesquisadores.
Curiosamente, o SPCT mostrou menos viés em diferentes domínios em comparação com os RMs escalares, que muitas vezes tiveram um bom desempenho em tarefas verificáveis, mas um desempenho ruim em outros lugares.
Implicações para o mundo corporativo
O desenvolvimento de modelos de recompensa mais generalistas e escaláveis pode ser promissor para aplicações de IA corporativas. Áreas potenciais que podem se beneficiar de RMs generalistas incluem tarefas criativas e aplicações onde o modelo deve se adaptar a ambientes dinâmicos, como a evolução das preferências do cliente. Além disso, com o avanço da tecnologia, o acompanhamento das atualizações do Windows é essencial, como a mais recente atualização do Windows 11 de abril de 2025, que pode impactar o desempenho de aplicações de IA.
Apesar dos fortes resultados, o DeepSeek-GRM ainda fica atrás dos RMs escalares especializados em tarefas puramente verificáveis, onde a geração explícita de raciocínio pode ser menos eficiente do que a pontuação direta. A eficiência também continua sendo um desafio em comparação com os RMs não generativos.
A equipe da DeepSeek sugere que o trabalho futuro se concentrará em melhorias de eficiência e integração mais profunda. Como concluem, “direções futuras podem incluir a integração de GRMs em pipelines de RL online como interfaces versáteis de sistemas de recompensa, explorando o co-escalonamento em tempo de inferência com modelos de política ou servindo como avaliadores offline robustos para modelos de fundação”.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat