▲
- O modelo DeepCoder-14B, desenvolvido pela Together AI e Agentica, oferece desempenho avançado em codificação e raciocínio matemático.
- O objetivo é apresentar um modelo eficiente e acessível, comparável a soluções proprietárias como o o3-mini da OpenAI.
- Empresas e desenvolvedores podem integrar facilmente o DeepCoder-14B em suas aplicações, reduzindo custos e aumentando a flexibilidade.
- O modelo é totalmente open-source, promovendo colaboração e inovação na comunidade de IA.
O modelo de codificação DeepCoder-14B, desenvolvido pela Together AI e Agentica, está chamando a atenção por entregar um desempenho de ponta com um modelo aberto e eficiente de 14 bilhões de parâmetros. Ele se destaca ao alcançar resultados comparáveis a modelos proprietários líderes, como o o3-mini da OpenAI, oferecendo maior flexibilidade para integrar recursos de raciocínio e geração de código em aplicações reais. O modelo é totalmente open-source, com dados de treinamento, código e otimizações de sistema abertos para a comunidade.
Desempenho Competitivo em um Pacote Compacto
Experimentos realizados pela equipe de pesquisa demonstraram que o DeepCoder-14B apresenta um desempenho robusto em diversos testes de codificação desafiadores, incluindo LiveCodeBench (LCB), Codeforces e HumanEval+. Os pesquisadores destacaram em uma publicação que o modelo alcança um desempenho comparável ao de modelos como o o3-mini e o1.
Apesar de ter sido treinado principalmente em tarefas de codificação, o modelo também apresentou melhorias no raciocínio matemático, atingindo uma pontuação de 73,8% no teste AIME 2024, um aumento de 4,1% em relação ao seu modelo base (DeepSeek-R1-Distill-Qwen-14B). Isso sugere que as habilidades de raciocínio desenvolvidas através do aprendizado por reforço (RL) em código podem ser generalizadas para outras áreas.
Um dos aspectos mais notáveis é que o DeepCoder alcança esse nível de desempenho com apenas 14 bilhões de parâmetros, tornando-o significativamente menor e potencialmente mais eficiente do que muitos outros modelos grandes.
Inovações Impulsionando o Desempenho do Modelo de Codificação DeepCoder-14B
Os pesquisadores superaram desafios importantes no treinamento de modelos de codificação usando aprendizado por reforço (RL). Um dos principais desafios foi a curadoria dos dados de treinamento. O aprendizado por reforço precisa de sinais de recompensa confiáveis que indiquem se a saída do modelo está correta.
Leia também:
Para resolver essa questão, a equipe do DeepCoder implementou um processo rigoroso que coleta exemplos de diferentes conjuntos de dados e os filtra com base em validade, complexidade e duplicação. Esse processo resultou em 24.000 problemas de alta qualidade, fornecendo uma base sólida para um treinamento de RL eficaz.
A equipe também criou uma função de recompensa direta que fornece um sinal positivo apenas se o código gerado passar em todos os testes de unidade amostrados para o problema dentro de um limite de tempo específico. Combinado com os exemplos de treinamento de alta qualidade, esse sistema de recompensa impede que o modelo aprenda truques, como imprimir respostas memorizadas para testes públicos ou otimizar para casos extremos simples sem resolver o problema central.
O algoritmo de treinamento central do modelo é baseado no Group Relative Policy Optimization (GRPO), um algoritmo de aprendizado por reforço que se mostrou bem-sucedido no DeepSeek-R1. No entanto, a equipe fez várias modificações no algoritmo para torná-lo mais estável e permitir que o modelo continue melhorando à medida que o treinamento se estende por um período maior.
Finalmente, a equipe estendeu a janela de contexto do modelo de forma iterativa, treinando-o primeiro em sequências de raciocínio mais curtas e aumentando gradualmente o comprimento. Eles também desenvolveram um método de filtragem para evitar penalizar o modelo quando ele criava cadeias de raciocínio que excediam os limites de contexto ao resolver um prompt difícil.
A ideia central é que, para preservar o raciocínio de contexto longo, ao mesmo tempo em que permite um treinamento eficiente, eles incorporaram a filtragem de contexto excessivamente longo. Essa técnica mascara as sequências truncadas durante o treinamento para que os modelos não sejam penalizados por gerar saídas ponderadas, mas longas, que excedem o limite de contexto atual. O treinamento foi gradualmente escalado de uma janela de contexto de 16K para 32K, e o modelo resultante também conseguiu resolver problemas que exigiam até 64K tokens.
Otimizando o Treinamento de RL de Contexto Longo
O treinamento de modelos grandes com RL, especialmente em tarefas que exigem sequências geradas longas, como codificação ou raciocínio complexo, é computacionalmente intensivo e lento. Um gargalo importante é a etapa de “amostragem”, onde o modelo gera potencialmente milhares de tokens por exemplo no batch. As variações no comprimento da resposta significam que algumas respostas terminam muito mais tarde do que outras, deixando as GPUs ociosas e retardando todo o ciclo de treinamento.
Para acelerar isso, a equipe desenvolveu o verl-pipeline, uma extensão otimizada da biblioteca open-source verl para aprendizado por reforço a partir do feedback humano (RLHF). A principal inovação, que eles chamam de “One-Off Pipelining“, reorganiza a amostragem de resposta e as atualizações do modelo para reduzir os gargalos e o tempo ocioso do acelerador.
Os experimentos mostraram que o one-off pipelining forneceu uma aceleração de até 2x para tarefas de codificação de RL em comparação com as implementações de linha de base. Essa otimização foi crucial para treinar o DeepCoder dentro de um prazo razoável (2,5 semanas em 32 H100s) e agora é de código aberto como parte do verl-pipeline para a comunidade usar e construir em cima dele.
Impacto no Mundo Corporativo
Todos os artefatos para treinar e executar o DeepCoder-14B estão disponíveis no GitHub e no Hugging Face sob uma licença permissiva. Ao compartilhar totalmente o conjunto de dados, o código e a receita de treinamento, os pesquisadores capacitam a comunidade a reproduzir o trabalho e tornar o treinamento de RL acessível a todos.
O DeepCoder-14B demonstra o crescimento de modelos altamente capazes, eficientes e abertos. Para o mundo corporativo, isso significa mais opções e maior acessibilidade de modelos avançados. O desempenho de ponta não é mais domínio exclusivo de hiperescaladores ou de quem está disposto a pagar altas taxas de API. Modelos como o DeepCoder podem capacitar organizações de todos os portes a aproveitar a geração e o raciocínio de código sofisticados, personalizar soluções para suas necessidades específicas e implantá-las com segurança em seus ambientes.
Essa tendência pode reduzir a barreira de entrada para a adoção de IA e promover um ecossistema mais competitivo e inovador, onde o progresso é impulsionado pela colaboração de código aberto. Ferramentas como o modelo de codificação DeepCoder-14B são essenciais para empresas que buscam se manter na vanguarda da tecnologia, permitindo a criação de soluções personalizadas e eficientes. Além disso, a abertura do código e dos dados de treinamento facilita a pesquisa e o desenvolvimento contínuos, impulsionando ainda mais a inovação no campo da inteligência artificial.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat