ByteDance, dona do TikTok, lança modelo de IA Seed-Thinking-v1.5 para competir no mercado

ByteDance, empresa por trás do TikTok, lança o Seed-Thinking-v1.5, um modelo de IA focado em raciocínio e eficiência. Saiba mais sobre as inovações.
Atualizado há 1 dia
ByteDance, dona do TikTok, lança modelo de IA Seed-Thinking-v1.5 para competir no mercado
ByteDance apresenta o Seed-Thinking-v1.5, um modelo de IA que revoluciona o raciocínio. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • ByteDance, dona do TikTok, lançou o Seed-Thinking-v1.5, um modelo de IA focado em raciocínio e eficiência.
    • O modelo promete melhorar desempenho em áreas como STEM e domínios gerais, competindo com gigantes como OpenAI e Google.
    • Você pode se beneficiar de soluções mais rápidas e precisas em tarefas complexas, como matemática e programação.
    • A inovação pode acelerar o desenvolvimento de aplicações de IA em setores como educação e tecnologia.
CONTINUA DEPOIS DA PUBLICIDADE

A corrida pela inteligência artificial (IA) que realmente pensa está cada vez mais acirrada. Depois dos anúncios da OpenAI e da DeepSeek, agora é a vez da ByteDance, a gigante chinesa por trás do TikTok, entrar na competição com o Seed-Thinking-v1.5. Esse novo modelo de linguagem (LLM) promete melhorar o desempenho em áreas como ciência, tecnologia, engenharia e matemática (STEM), além de domínios de uso geral.

Ainda não é possível baixar ou usar o modelo, e as condições de licenciamento são um mistério. Será que ele será fechado, como um produto proprietário? Ou aberto, para que todos possam usar e modificar? A ByteDance ainda não deu a resposta, mas o artigo técnico já revela detalhes interessantes.

Arquitetura Mixture-of-Experts: O Segredo da Eficiência

Assim como o Llama 4 da Meta e o Mixtral da Mistral, o Seed-Thinking-v1.5 usa a arquitetura Mixture-of-Experts (MoE). Essa estrutura combina a capacidade de vários modelos em um só, onde cada um se especializa em uma área diferente. É como ter um time de especialistas trabalhando em conjunto!

No caso do Seed-Thinking-v1.5, a arquitetura MoE permite que ele use apenas 20 bilhões de parâmetros de um total de 200 bilhões. Isso significa mais eficiência sem perder a capacidade de processamento.

A ByteDance afirma que o Seed-Thinking-v1.5 prioriza o raciocínio estruturado e a geração de respostas bem elaboradas. Os resultados mostram que ele supera o DeepSeek R1 e se aproxima do Gemini 2.5 Pro do Google e do o3-mini-high reasoner da OpenAI em vários testes. E tem mais: ele até ultrapassa esses dois no ARC-AGI benchmark, que avalia o progresso em direção à inteligência artificial geral.

CONTINUA DEPOIS DA PUBLICIDADE

Leia também:

O modelo se posiciona como uma alternativa compacta e eficiente aos modelos maiores. O Seed-Thinking-v1.5 combina resultados competitivos com inovações em aprendizado por reforço (RL), curadoria de dados de treinamento e infraestrutura de IA.

Desempenho e Foco do Modelo

O Seed-Thinking-v1.5 impressiona em tarefas complexas, com 86,7% no AIME 2024, 55,0% no pass@8 no Codeforces e 77,3% no GPQA science benchmark. Esses resultados o colocam perto ou no mesmo nível de modelos como o o3-mini-high da OpenAI e o Gemini 2.5 Pro do Google em métricas de raciocínio específicas.

Em tarefas que não exigem raciocínio, o modelo foi avaliado por meio de comparações de preferência humana e obteve uma taxa de vitória 8,0% maior que o DeepSeek R1. Isso mostra que seus pontos fortes vão além de desafios lógicos ou matemáticos.

Para lidar com a saturação em benchmarks comuns como o AIME, a ByteDance criou o BeyondAIME, um novo teste de matemática mais difícil, com problemas selecionados para evitar a memorização e diferenciar melhor o desempenho dos modelos. Tanto este quanto o conjunto de avaliação Codeforces devem ser liberados para apoiar futuras pesquisas.

A Estratégia de Dados do Reasoning AI ByteDance

Os dados de treinamento foram essenciais no desenvolvimento do modelo. Para o ajuste fino supervisionado (SFT), a equipe selecionou 400.000 amostras, incluindo 300.000 problemas verificáveis (STEM, lógica e codificação) e 100.000 problemas não verificáveis, como redação criativa e interpretação de papéis.

CONTINUA DEPOIS DA PUBLICIDADE

Para o treinamento de RL, os dados foram divididos em:

  • Problemas verificáveis: 100.000 questões STEM e quebra-cabeças lógicos rigorosamente filtrados, com respostas conhecidas, provenientes de competições de elite e revisão de especialistas.
  • Tarefas não verificáveis: Conjuntos de dados de preferência humana focados em prompts abertos, avaliados usando modelos de recompensa pairwise.

Os dados STEM se concentraram principalmente em matemática avançada, representando mais de 80% do conjunto de problemas. Os dados de lógica adicionais incluíram tarefas como Sudoku e quebra-cabeças de 24 pontos, com dificuldade ajustável para acompanhar o progresso do modelo.

O time da ByteDance já havia lançado o Doubao 1.5 Pro e incorporado técnicas compartilhadas em RLHF e curadoria de dados. Além disso, a empresa pretende continuar aprimorando as técnicas de aprendizado por reforço, com foco na eficiência do treinamento e na modelagem de recompensas para tarefas não verificáveis.

Para quem se interessa por programação, vale a pena conferir o DeepCoder, modelo de IA de código aberto que promete revolucionar a área.

Aprendizado por Reforço

O aprendizado por reforço no Seed-Thinking-v1.5 é impulsionado por estruturas personalizadas de ator-crítico (VAPO) e policy-gradient (DAPO), desenvolvidas para lidar com instabilidades conhecidas no treinamento de RL. Essas técnicas visam reduzir a dispersão do sinal de recompensa e aumentar a estabilidade do treinamento, especialmente em configurações longas de chain-of-thought (CoT).

Os modelos de recompensa têm um papel importante na supervisão das saídas de RL. A ByteDance introduziu duas ferramentas essenciais:

  • Seed-Verifier: Um LLM baseado em regras que verifica se as respostas geradas e de referência são matematicamente equivalentes.
  • Seed-Thinking-Verifier: Um juiz baseado em raciocínio passo a passo que melhora a consistência do julgamento e resiste à manipulação de recompensas.

Esse sistema de recompensa de dois níveis permite uma avaliação diferenciada para tarefas simples e complexas.

Infraestrutura e Escalonamento

Para suportar o treinamento eficiente em larga escala, a ByteDance construiu um sistema sobre sua estrutura HybridFlow, com execução gerenciada por Ray clusters e processos de treinamento e inferência colocalizados para reduzir o tempo ocioso da GPU.

Uma inovação notável é o Streaming Rollout System (SRS), que separa a evolução do modelo da execução em tempo de execução. Ele acelera a velocidade de iteração gerenciando de forma assíncrona gerações parcialmente concluídas em diferentes versões do modelo. Essa arquitetura oferece ciclos de RL até 3 vezes mais rápidos.

Técnicas de infraestrutura adicionais incluem:

  • Precisão mista (FP8) para economia de memória
  • Paralelismo de especialistas e auto-ajuste de kernel para eficiência MoE
  • ByteCheckpoint para checkpointing resiliente e flexível
  • AutoTuner para otimizar configurações de paralelismo e memória

Aproveitando o assunto, você pode entender melhor como LLMs especializados estão transformando o papel estratégico da IA generativa na TI.

Avaliação Humana e Impacto no Mundo Real

Para avaliar o alinhamento com as preferências centradas no ser humano, a ByteDance realizou testes com humanos em vários domínios, incluindo redação criativa, conhecimento de humanidades e conversação geral.

O Seed-Thinking-v1.5 superou consistentemente o DeepSeek R1 em todas as sessões, reforçando sua aplicabilidade às necessidades reais dos usuários.

A equipe de desenvolvimento observa que os modelos de raciocínio treinados principalmente em tarefas verificáveis demonstraram forte generalização para domínios criativos — um resultado atribuído à estrutura e ao rigor incorporados nos fluxos de trabalho de treinamento matemático.

Implicações para Líderes Técnicos, Engenheiros de Dados e Tomadores de Decisão Empresariais

Para os líderes técnicos que gerenciam o ciclo de vida de grandes modelos de linguagem — desde a curadoria de dados até a implantação — o Seed-Thinking-v1.5 apresenta uma oportunidade de repensar como os recursos de raciocínio são integrados nas pilhas de IA corporativas.

Seu processo de treinamento modular, que inclui conjuntos de dados de raciocínio verificáveis e aprendizado por reforço multifásico, é particularmente atraente para equipes que buscam escalar o desenvolvimento de LLM, mantendo o controle refinado.

As iniciativas da ByteDance para introduzir o Seed-Verifier e o Seed-Thinking-Verifier oferecem mecanismos para uma modelagem de recompensa mais confiável, o que pode ser fundamental ao implantar modelos em ambientes regulamentados ou voltados para o cliente.

Para equipes que geralmente operam sob prazos apertados e largura de banda limitada, a estabilidade do modelo sob aprendizado por reforço — possibilitada por inovações como VAPO e amostragem dinâmica — pode reduzir os ciclos de iteração e otimizar o ajuste fino para tarefas específicas.

Do ponto de vista da orquestração e implantação, a abordagem de infraestrutura híbrida do modelo — incluindo o Streaming Rollout System (SRS) e o suporte para otimização FP8 — sugere ganhos significativos no rendimento do treinamento e na utilização do hardware.

Esses recursos seriam valiosos para engenheiros responsáveis por escalar as operações de LLM em sistemas de nuvem e on-premise. O fato de que o Seed-Thinking-v1.5 foi treinado com mecanismos para adaptar o feedback de recompensa com base na dinâmica de tempo de execução fala diretamente sobre os desafios de gerenciar pipelines de dados heterogêneos e manter a consistência entre os domínios.

Para equipes encarregadas de garantir a confiabilidade, a reprodutibilidade e a integração contínua de novas ferramentas, o design em nível de sistema do Seed-Thinking-v1.5 pode servir como um modelo para a construção de sistemas de orquestração multimodais robustos.

Para os profissionais de engenharia de dados, a abordagem estruturada dos dados de treinamento — incluindo filtragem rigorosa, aumento e verificação de especialistas — reforça a importância da qualidade dos dados como um multiplicador do desempenho do modelo. Isso pode inspirar abordagens mais deliberadas para o desenvolvimento de conjuntos de dados e pipelines de validação.

Perspectivas Futuras

O Seed-Thinking-v1.5 é resultado da colaboração dentro da equipe de Seed LLM Systems da ByteDance, liderada por Yonghui Wu e com representação pública de Haibin Lin, um colaborador de IA de longa data.

Olhando para o futuro, a equipe planeja continuar refinando as técnicas de aprendizado por reforço, com foco na eficiência do treinamento e na modelagem de recompensas para tarefas não verificáveis. A liberação pública de benchmarks internos, como o BeyondAIME, tem como objetivo promover um avanço mais amplo na pesquisa de IA focada no raciocínio.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.