Resumo da notícia
▲

O DeepCoder-14B é um modelo de IA de código aberto com 14 bilhões de parâmetros, desenvolvido por Together AI e Agentica.
O objetivo é oferecer uma alternativa eficiente e acessível para geração de código, comparável a modelos proprietários como o o3-mini da OpenAI.
Desenvolvedores e empresas podem se beneficiar de uma ferramenta poderosa e flexível para otimizar a criação de código.
O modelo também demonstra habilidades aprimoradas em raciocínio matemático, ampliando suas aplicações.

CONTINUA DEPOIS DA PUBLICIDADE

Aqui está a notícia sobre o modelo de codificação DeepCoder. A nova ferramenta de inteligência artificial (IA) promete revolucionar a forma como os códigos são criados, entregando alta performance e abrindo novas possibilidades para desenvolvedores e empresas.

👉

Acompanhe as noticias no seu WhatsAp! entre no nosso grupo

Entre agora

Com um modelo eficiente de código aberto de 14 bilhões de parâmetros, o DeepCoder está ganhando destaque no cenário tecnológico. Vamos explorar tudo sobre essa inovação, desde suas características até seu potencial impacto no mundo da programação.

DeepCoder: Um novo modelo de codificação de IA

Pesquisadores da Together AI e Agentica lançaram o Modelo de codificação DeepCoder-14B, um modelo de codificação que apresenta um desempenho notável, comparável a modelos proprietários como o o3-mini da OpenAI.

CONTINUA DEPOIS DA PUBLICIDADE

Construído sobre o DeepSeek-R1, este modelo oferece mais flexibilidade para integrar a geração de código de alto desempenho e recursos de raciocínio em aplicações do mundo real. As equipes tornaram o modelo, seus dados de treinamento, código, registros e otimizações de sistema totalmente de código aberto, o que pode ajudar os pesquisadores a aprimorar seu trabalho e acelerar o progresso.

Este lançamento representa um avanço significativo, permitindo que mais pessoas utilizem a IA para otimizar e criar códigos de maneira eficiente. E por falar em otimização, a Xiaomi está inovando com o controle de carros por gestos no Apple Watch.

Desempenho competitivo em um pacote menor

Experimentos da equipe de pesquisa mostram que o Modelo de codificação DeepCoder-14B tem um desempenho forte em vários benchmarks de codificação desafiadores, incluindo LiveCodeBench (LCB), Codeforces e HumanEval+.

“Nosso modelo demonstra forte desempenho em todos os benchmarks de codificação… comparável ao desempenho de o3-mini (baixo) e o1“, escreveram os pesquisadores em uma publicação no blog que descreve o modelo.

Curiosamente, apesar de ser treinado principalmente em tarefas de codificação, o modelo mostra raciocínio matemático aprimorado, marcando 73,8% no benchmark AIME 2024, uma melhoria de 4,1% em relação ao seu modelo base (DeepSeek-R1-Distill-Qwen-14B). Isso sugere que as habilidades de raciocínio desenvolvidas através de RL no código podem ser generalizadas efetivamente para outros domínios.

CONTINUA DEPOIS DA PUBLICIDADE

O aspecto mais notável é alcançar este nível de desempenho com apenas 14 bilhões de parâmetros. Isso torna o DeepCoder significativamente menor e potencialmente mais eficiente para executar do que muitos modelos de ponta.

Inovações que impulsionam o desempenho do DeepCoder

Ao desenvolver o modelo, os pesquisadores resolveram alguns dos principais desafios no treinamento de modelos de codificação usando aprendizado por reforço (RL).

O primeiro desafio foi curar os dados de treinamento. O aprendizado por reforço requer sinais de recompensa confiáveis, indicando que a saída do modelo está correta. Como os pesquisadores apontam, “Ao contrário da matemática — onde dados abundantes, verificáveis e de alta qualidade estão prontamente disponíveis na Internet — o domínio da codificação sofre com uma relativa escassez de tais dados.”

Para resolver este problema, a equipe DeepCoder implementou um pipeline rigoroso que coleta exemplos de diferentes conjuntos de dados e os filtra quanto à validade, complexidade e duplicação. Este processo rendeu 24.000 problemas de alta qualidade, fornecendo uma base sólida para um treinamento RL eficaz.

A equipe também projetou uma função de recompensa direta que fornece apenas um sinal positivo se o código gerado passar em todos os testes de unidade amostrados para o problema dentro de um limite de tempo específico. Combinado com os exemplos de treinamento de alta qualidade, este sistema de recompensa focado no resultado impede que o modelo aprenda truques como imprimir respostas memorizadas para testes públicos ou otimizar para casos extremos simples sem resolver o problema central.

O algoritmo de treinamento central do modelo é baseado em Group Relative Policy Optimization (GRPO), um algoritmo de aprendizado por reforço que se mostrou muito bem-sucedido no DeepSeek-R1. No entanto, a equipe fez várias modificações no algoritmo para torná-lo mais estável e permitir que o modelo continue melhorando à medida que o treinamento se estende por um período maior.

Por fim, a equipe estendeu a janela de contexto do modelo iterativamente, primeiro treinando-o em sequências de raciocínio mais curtas e aumentando gradualmente o comprimento. Eles também desenvolveram um método de filtragem para evitar penalizar o modelo quando ele criou cadeias de raciocínio que excederam os limites de contexto ao resolver um prompt difícil.

Os pesquisadores explicam a ideia central: “Para preservar o raciocínio de contexto longo, permitindo um treinamento eficiente, incorporamos a filtragem excessivamente longa… Esta técnica mascara sequências truncadas durante o treinamento para que os modelos não sejam penalizados por gerar saídas ponderadas, mas longas, que excedem o limite de contexto atual.”

O treinamento foi gradualmente dimensionado de uma janela de contexto de 16K para 32K, e o modelo resultante também pôde resolver problemas que exigiam até 64K tokens.

Otimizando o treinamento RL de contexto longo

Treinar modelos grandes com RL, especialmente em tarefas que exigem sequências geradas longas, como codificação ou raciocínio complexo, é computacionalmente intensivo e lento. Um grande gargalo é a etapa de “amostragem”, onde o modelo gera potencialmente milhares de tokens por exemplo no lote. Variações no comprimento da resposta significam que algumas respostas terminam muito mais tarde do que outras, deixando as GPUs ociosas e diminuindo a velocidade de todo o ciclo de treinamento.

Para acelerar isso, a equipe desenvolveu o verl-pipeline, uma extensão otimizada da biblioteca verl de código aberto para aprendizado por reforço a partir do feedback humano (RLHF). A principal inovação, que eles chamam de “One-Off Pipelining“, reorganiza a amostragem de resposta e as atualizações do modelo para reduzir os gargalos e o tempo ocioso do acelerador.

Seus experimentos mostraram que o one-off pipelining forneceu uma aceleração de até 2x para tarefas de codificação RL em comparação com implementações de linha de base. Essa otimização foi crucial para treinar o Modelo de codificação DeepCoder dentro de um prazo razoável (2,5 semanas em 32 H100s) e agora é de código aberto como parte do verl-pipeline para a comunidade usar e construir em cima dele.

Impacto empresarial

Os pesquisadores disponibilizaram todos os artefatos para treinar e executar o Modelo de codificação DeepCoder-14B no GitHub e no Hugging Face sob uma licença permissiva.

“Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento RL acessível a todos”, escrevem os pesquisadores.

O DeepCoder-14B ilustra um tendência mais ampla e acelerada no cenário da IA: a ascensão de modelos altamente capazes, eficientes e abertamente acessíveis.

Para o mundo empresarial, esta mudança significa mais opções e maior acessibilidade de modelos avançados. O desempenho de ponta não é mais domínio exclusivo de hiperescaladores ou daqueles dispostos a pagar taxas de API premium. Modelos como o DeepCoder podem capacitar organizações de todos os tamanhos a alavancar a geração de código sofisticada e o raciocínio, personalizar soluções para suas necessidades específicas e implantá-las com segurança dentro de seus ambientes.

Essa tendência pode diminuir a barreira de entrada para a adoção de IA e promover um ecossistema mais competitivo e inovador, onde o progresso é impulsionado pela colaboração de código aberto. As empresas estão cada vez mais buscando soluções que permitam personalizar soluções para suas necessidades específicas.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Via VentureBeat

Harmony OS Rede Neural