▲
- O modelo DeepCoder-14B, desenvolvido por Together AI e Agentica, oferece desempenho avançado em codificação e raciocínio matemático.
- O objetivo é democratizar o acesso a modelos de IA avançados, permitindo que pesquisadores e empresas usem e modifiquem o modelo livremente.
- O impacto inclui a aceleração do desenvolvimento de aplicações de IA e a redução da dependência de soluções proprietárias.
- O modelo também pode ser executado em dispositivos com recursos limitados, ampliando seu potencial de aplicação.
O modelo de codificação DeepCoder-14B, desenvolvido pela Together AI e Agentica, promete um desempenho de ponta na área de inteligência artificial. Este novo modelo de código aberto, construído sobre o DeepSeek-R1, oferece flexibilidade para integrar capacidades de raciocínio e geração de código de alto desempenho em aplicações do mundo real. O mais importante é que as equipes abriram totalmente o código, os dados de treinamento, os logs e as otimizações do sistema, o que pode ajudar os pesquisadores a melhorar seu trabalho e acelerar o progresso.
Este modelo se destaca por sua eficiência e acessibilidade, oferecendo um desempenho comparável a modelos proprietários líderes, como o o3-mini da OpenAI, mas com a vantagem de ser totalmente aberto. Isso significa que pesquisadores e empresas podem usar, modificar e distribuir o modelo de codificação DeepCoder livremente, impulsionando a inovação e o desenvolvimento de novas aplicações.
Desempenho Competitivo em um Pacote Compacto
Os experimentos realizados pela equipe de pesquisa demonstram que o modelo de codificação DeepCoder-14B apresenta um desempenho robusto em diversos testes de referência de codificação desafiadores, incluindo LiveCodeBench (LCB), Codeforces e HumanEval+.
Os pesquisadores destacam em uma publicação que o modelo demonstra um forte desempenho em todos os testes de referência de codificação, comparável ao desempenho dos modelos o3-mini (baixo) e o1. É interessante notar que, embora tenha sido treinado principalmente em tarefas de codificação, o modelo também apresenta um raciocínio matemático aprimorado, alcançando uma pontuação de 73,8% no teste de referência AIME 2024, um aumento de 4,1% em relação ao seu modelo base (DeepSeek-R1-Distill-Qwen-14B). Isso sugere que as habilidades de raciocínio desenvolvidas por meio de RL no código podem ser generalizadas de forma eficaz para outros domínios.
O aspecto mais notável é que o modelo atinge esse nível de desempenho com apenas 14 bilhões de parâmetros. Isso torna o modelo de codificação DeepCoder significativamente menor e potencialmente mais eficiente em termos de execução do que muitos outros modelos de ponta.
Leia também:
Essa eficiência é crucial para aplicações onde os recursos computacionais são limitados, como dispositivos móveis ou sistemas embarcados.
Inovações que Impulsionam o Desempenho do DeepCoder
Durante o desenvolvimento do modelo, os pesquisadores superaram alguns dos principais desafios no treinamento de modelos de codificação usando aprendizado por reforço (RL). O primeiro desafio foi a curadoria dos dados de treinamento. O aprendizado por reforço requer sinais de recompensa confiáveis que indiquem que a saída do modelo está correta. Os pesquisadores apontam que, ao contrário da matemática, onde abundantes dados verificáveis e de alta qualidade estão prontamente disponíveis na Internet, o domínio da codificação sofre com uma relativa escassez de tais dados.
Para resolver esse problema, a equipe do modelo de codificação DeepCoder implementou um processo rigoroso que coleta exemplos de diferentes conjuntos de dados e os filtra quanto à validade, complexidade e duplicação. Esse processo gerou 24.000 problemas de alta qualidade, fornecendo uma base sólida para um treinamento de RL eficaz.
A equipe também projetou uma função de recompensa direta que fornece um sinal positivo somente se o código gerado passar em todos os testes de unidade amostrados para o problema dentro de um limite de tempo específico. Combinado com os exemplos de treinamento de alta qualidade, esse sistema de recompensa focado no resultado impede que o modelo aprenda truques, como imprimir respostas memorizadas para testes públicos ou otimizar para casos extremos simples sem resolver o problema central.
O algoritmo de treinamento central do modelo é baseado no Group Relative Policy Optimization (GRPO), um algoritmo de aprendizado por reforço que se mostrou muito bem-sucedido no DeepSeek-R1. No entanto, a equipe fez várias modificações no algoritmo para torná-lo mais estável e permitir que o modelo continue a melhorar à medida que o treinamento se estende por um período maior.
Finalmente, a equipe estendeu a janela de contexto do modelo iterativamente, primeiro treinando-o em sequências de raciocínio mais curtas e aumentando gradualmente o comprimento. Eles também desenvolveram um método de filtragem para evitar penalizar o modelo quando ele criava cadeias de raciocínio que excediam os limites de contexto ao resolver um prompt difícil.
Otimizando o Treinamento RL de Contexto Longo
Treinar modelos grandes com RL, especialmente em tarefas que exigem sequências geradas longas, como codificação ou raciocínio complexo, é computacionalmente intensivo e lento. Um grande gargalo é a etapa de “amostragem”, onde o modelo gera potencialmente milhares de tokens por exemplo no batch. As variações no comprimento da resposta significam que algumas respostas terminam muito mais tarde do que outras, deixando as GPUs ociosas e retardando todo o ciclo de treinamento.
Para acelerar isso, a equipe desenvolveu o verl-pipeline, uma extensão otimizada da biblioteca de código aberto verl para aprendizado por reforço a partir do feedback humano (RLHF). A principal inovação, que eles chamam de “One-Off Pipelining“, reorganiza a amostragem de resposta e as atualizações do modelo para reduzir os gargalos e o tempo ocioso do acelerador.
Os experimentos mostraram que o one-off pipelining proporcionou uma aceleração de até 2x para tarefas de codificação RL em comparação com as implementações de linha de base. Essa otimização foi crucial para treinar o modelo de codificação DeepCoder dentro de um período razoável (2,5 semanas em 32 H100s) e agora é de código aberto como parte do verl-pipeline para a comunidade usar e construir em cima dele.
Impacto Empresarial
Os pesquisadores disponibilizaram todos os artefatos para treinar e executar o modelo de codificação DeepCoder-14B no GitHub e no Hugging Face sob uma licença permissiva. Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento RL acessível a todos, escrevem os pesquisadores.
Este modelo ilustra poderosamente uma tendência mais ampla e acelerada no cenário de IA: a ascensão de modelos altamente capazes, eficientes e abertamente acessíveis. Para o mundo empresarial, essa mudança significa mais opções e maior acessibilidade de modelos avançados. O desempenho de ponta não é mais domínio exclusivo de hiperescaladores ou daqueles dispostos a pagar altas taxas de API. Modelos como o modelo de codificação DeepCoder podem capacitar organizações de todos os tamanhos a aproveitar a geração e o raciocínio de código sofisticados, personalizar soluções para suas necessidades específicas e implantá-las com segurança em seus ambientes.
Essa tendência pode diminuir a barreira de entrada para a adoção de IA e promover um ecossistema mais competitivo e inovador, onde o progresso é impulsionado por meio da colaboração de código aberto. Além disso, a acessibilidade do modelo de codificação DeepCoder pode democratizar o acesso à tecnologia de ponta, permitindo que empresas menores e startups compitam de forma mais eficaz com grandes corporações.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat