▲
- A DeepSeek AI desenvolveu uma nova técnica chamada Self-Principled Critique Tuning (SPCT) para aprimorar modelos de recompensa em IA.
- O objetivo é tornar os modelos mais versáteis e escaláveis, melhorando sua eficiência em tarefas complexas.
- Essa inovação pode impactar positivamente aplicações de IA, especialmente em áreas com nuances e complexidades.
- A técnica também reduz o viés em comparação com modelos tradicionais, oferecendo resultados mais precisos.
A DeepSeek AI, conhecida por seus modelos de linguagem de código aberto como o DeepSeek-R1, apresentou uma nova abordagem para aprimorar os modelos de recompensa (reward models ou RMs) para grandes modelos de linguagem (LLMs). Essa técnica, chamada Self-Principled Critique Tuning (SPCT), busca criar RMs mais versáteis e escaláveis. Com isso, espera-se que a IA se torne mais eficiente em tarefas complexas, adaptando-se melhor aos ambientes e às necessidades dos usuários.
Essa inovação pode levar a avanços significativos em aplicações de IA, especialmente em áreas onde os modelos atuais têm dificuldades em compreender nuances e complexidades.
O papel crucial e as limitações dos Modelos de recompensa de IA
O aprendizado por reforço (RL) se tornou um elemento fundamental no desenvolvimento dos LLMs mais avançados. No RL, os modelos são ajustados com base em sinais de feedback que indicam a qualidade de suas respostas.
Os Modelos de recompensa de IA são essenciais para fornecer esses sinais. Um RM atua como um avaliador, analisando as respostas do LLM e atribuindo uma pontuação ou “recompensa” que orienta o processo de RL, ensinando o LLM a gerar respostas mais úteis.
No entanto, os RMs atuais frequentemente enfrentam limitações. Eles geralmente se destacam em áreas específicas com regras bem definidas ou respostas facilmente verificáveis. Por exemplo, modelos de raciocínio como o DeepSeek-R1 passaram por uma fase de RL, sendo treinados em problemas de matemática e programação onde a resposta correta é clara.
Leia também:
Criar um modelo de recompensa para consultas complexas, abertas ou subjetivas em áreas gerais continua sendo um desafio. Em um estudo que explica sua nova técnica, pesquisadores da DeepSeek AI afirmam que um RM generalista precisa gerar recompensas de alta qualidade além de áreas específicas, onde os critérios são mais diversos e complexos, e muitas vezes não há referências ou respostas corretas explícitas.
Os pesquisadores destacam quatro desafios principais na criação de RMs generalistas capazes de lidar com tarefas mais amplas:
- Flexibilidade de entrada: O RM deve lidar com vários tipos de entrada e ser capaz de avaliar uma ou mais respostas simultaneamente.
- Precisão: Ele deve gerar sinais de recompensa precisos em diversas áreas onde os critérios são complexos e a resposta correta muitas vezes não está disponível.
- Escalabilidade em tempo de inferência: O RM deve produzir recompensas de maior qualidade quando mais recursos computacionais são alocados durante a inferência.
- Aprendizado de comportamentos escaláveis: Para que os RMs sejam eficazes em tempo de inferência, eles precisam aprender comportamentos que permitam um melhor desempenho à medida que mais computação é utilizada.
Modelos de recompensa de IA podem ser classificados de acordo com seu “paradigma de geração de recompensa” (por exemplo, RMs escalares que produzem uma única pontuação, RMs generativos que produzem críticas textuais) e seu “padrão de pontuação” (por exemplo, pontuação pointwise que atribui pontuações individuais a cada resposta, pairwise que seleciona a melhor entre duas respostas). Essas escolhas de design afetam a adequação do modelo para tarefas generalistas, principalmente sua flexibilidade de entrada e potencial para escalabilidade em tempo de inferência.
Por exemplo, RMs escalares simples têm dificuldades com a escalabilidade em tempo de inferência porque geram a mesma pontuação repetidamente, enquanto RMs pairwise não conseguem avaliar facilmente respostas únicas.
Os pesquisadores sugerem que a “modelagem de recompensa generativa pointwise” (GRM), onde o modelo gera críticas textuais e deriva pontuações delas, pode oferecer a flexibilidade e a escalabilidade necessárias para requisitos generalistas.
A equipe da DeepSeek conduziu experimentos preliminares em modelos como GPT-4o e Gemma-2-27B e descobriu que “certos princípios podem orientar a geração de recompensas dentro de critérios adequados para GRMs, melhorando a qualidade das recompensas, o que nos inspirou que a escalabilidade em tempo de inferência do RM pode ser alcançada ao escalar a geração de princípios de alta qualidade e críticas precisas.”
Treinando RMs para gerar seus próprios princípios
Com base nessas descobertas, os pesquisadores desenvolveram o Self-Principled Critique Tuning (SPCT), que treina o GRM para gerar princípios e críticas com base em consultas e respostas dinamicamente.
Os pesquisadores propõem que os princípios devem ser uma “parte da geração de recompensa em vez de uma etapa de pré-processamento”. Dessa forma, os GRMs poderiam gerar princípios sob demanda com base na tarefa que estão avaliando e, em seguida, gerar críticas com base nos princípios.
“Essa mudança permite que os princípios sejam gerados com base na consulta e nas respostas de entrada, alinhando adaptativamente o processo de geração de recompensa, e a qualidade e a granularidade dos princípios e das críticas correspondentes podem ser ainda mais aprimoradas com o pós-treinamento no GRM”, escrevem os pesquisadores.
O SPCT envolve duas fases principais:
- Ajuste fino rejeitável: Esta fase treina o GRM para gerar princípios e críticas para vários tipos de entrada usando o formato correto. O modelo gera princípios, críticas e recompensas para determinadas consultas/respostas. As trajetórias (tentativas de geração) são aceitas somente se a recompensa prevista estiver alinhada com a resposta correta (identificando corretamente a melhor resposta, por exemplo) e rejeitadas caso contrário. Este processo é repetido e o modelo é ajustado nos exemplos filtrados para melhorar suas capacidades de geração de princípios/críticas.
- RL baseado em regras: Nesta fase, o modelo é ainda mais ajustado por meio do aprendizado por reforço baseado em resultados. O GRM gera princípios e críticas para cada consulta, e os sinais de recompensa são calculados com base em regras de precisão simples (por exemplo, ele escolheu a melhor resposta conhecida?). Então o modelo é atualizado. Isso incentiva o GRM a aprender como gerar princípios eficazes e críticas precisas de forma dinâmica e escalável.
“Ao aproveitar o RL on-line baseado em regras, o SPCT permite que os GRMs aprendam a postular adaptativamente princípios e críticas com base na consulta e nas respostas de entrada, levando a melhores recompensas de resultados em áreas gerais”, escrevem os pesquisadores.
Para resolver o desafio da escalabilidade em tempo de inferência (obter melhores resultados com mais computação), os pesquisadores executam o GRM várias vezes para a mesma entrada, gerando diferentes conjuntos de princípios e críticas. A recompensa final é determinada por votação (agregando as pontuações das amostras). Isso permite que o modelo considere uma gama mais ampla de perspectivas, levando a julgamentos finais potencialmente mais precisos e matizados, pois recebe mais recursos.
No entanto, alguns princípios/críticas gerados podem ser de baixa qualidade ou tendenciosos devido a limitações ou aleatoriedade do modelo. Para resolver isso, os pesquisadores introduziram um “meta RM” — um RM escalar separado e leve, treinado especificamente para prever se um princípio/crítica gerado pelo GRM primário provavelmente levará a uma recompensa final correta.
Durante a inferência, o meta RM avalia as amostras geradas e filtra os julgamentos de baixa qualidade antes da votação final, melhorando ainda mais o desempenho de escala.
Colocando o SPCT em prática com o DeepSeek-GRM
Os pesquisadores aplicaram o SPCT ao Gemma-2-27B, o modelo de código aberto do Google, criando o DeepSeek-GRM-27B. Eles o avaliaram em relação a vários RMs de linha de base (incluindo LLM-como-um-Juiz, RMs escalares e RMs semi-escalares) e modelos públicos (como GPT-4o e Nemotron-4-340B-Reward) em vários benchmarks.
Eles descobriram que o DeepSeek-GRM-27B superou os métodos de linha de base treinados nos mesmos dados. O SPCT melhorou significativamente a qualidade e, crucialmente, a escalabilidade em tempo de inferência em comparação com o ajuste fino padrão.
Quando escalado em tempo de inferência, gerando mais amostras, o desempenho do DeepSeek-GRM-27B aumentou substancialmente, superando até mesmo modelos muito maiores como o Nemotron-4-340B-Reward e o GPT-4o. O meta RM melhorou ainda mais a escala, alcançando os melhores resultados ao filtrar os julgamentos.
“Com a amostragem em maior escala, o DeepSeek-GRM poderia julgar com mais precisão com base em princípios com maior diversidade e recompensas de saída com maior granularidade”, escrevem os pesquisadores.
Curiosamente, o SPCT mostrou menos viés em diferentes áreas em comparação com os RMs escalares, que geralmente apresentavam bom desempenho em tarefas verificáveis, mas ruim em outros lugares.
Implicações para o mundo corporativo
O desenvolvimento de Modelos de recompensa de IA mais generalistas e escaláveis pode ser promissor para aplicações de IA corporativas. Áreas potenciais que podem se beneficiar de RMs generalistas incluem tarefas criativas e aplicações onde o modelo deve se adaptar a ambientes dinâmicos, como preferências de clientes em evolução. Se você busca entender mais sobre o universo da IA, veja este artigo sobre aplicativos de IA personalizados.
Apesar dos bons resultados, o DeepSeek-GRM ainda fica atrás dos RMs escalares especializados em tarefas puramente verificáveis, onde a geração explícita de raciocínio pode ser menos eficiente do que a pontuação direta. A eficiência também continua sendo um desafio em comparação com os RMs não generativos.
A equipe da DeepSeek sugere que trabalhos futuros se concentrem em melhorias de eficiência e integração mais profunda. Como concluem, “Direções futuras podem incluir a integração de GRMs em pipelines de RL on-line como interfaces versáteis de sistemas de recompensa, explorando a co-escala em tempo de inferência com modelos de política ou servindo como avaliadores offline robustos para modelos de fundação.”
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat