ByteDance lança IA de raciocínio Seed-Thinking-v1.5 para competir no mercado de inteligência artificial

A ByteDance, dona do TikTok, lançou o Seed-Thinking-v1.5, uma IA de raciocínio avançado para competir com gigantes como OpenAI e Google.
Atualizado há 5 horas
ByteDance lança IA de raciocínio Seed-Thinking-v1.5 para competir no mercado de inteligência artificial
ByteDance lança Seed-Thinking-v1.5, nova IA para rivalizar com OpenAI e Google. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • A ByteDance, empresa por trás do TikTok, lançou o Seed-Thinking-v1.5, uma IA de raciocínio avançado.
    • O objetivo é competir com modelos como os da OpenAI e Google, oferecendo desempenho superior em STEM e tarefas gerais.
    • Essa novidade pode acelerar a evolução da IA e impactar setores como tecnologia, educação e pesquisa.
    • O modelo utiliza arquitetura MoE, tornando-o mais eficiente e versátil para diversas aplicações.
CONTINUA DEPOIS DA PUBLICIDADE

A ByteDance, empresa por trás do TikTok, está entrando na corrida pela IA de raciocínio. Com o lançamento do Seed-Thinking-v1.5, a gigante chinesa de tecnologia busca oferecer um modelo de linguagem grande (LLM) capaz de melhorar o desempenho em áreas como ciência, tecnologia, engenharia e matemática (STEM), além de domínios de uso geral. Essa novidade promete aquecer ainda mais a competição no mundo da inteligência artificial.

O lançamento do Seed-Thinking-v1.5 ocorre em um momento em que grandes empresas de tecnologia estão focadas em desenvolver IAs mais rápidas, eficientes e com melhor capacidade de raciocínio. Esses modelos, que utilizam a técnica de “cadeia de pensamento”, analisam suas próprias conclusões e verificam sua veracidade antes de fornecer uma resposta.

A corrida pela IA de raciocínio da ByteDance começou com o anúncio do modelo o1 da OpenAI em setembro de 2024 e ganhou força com o lançamento do DeepSeek R1 em janeiro de 2025. Agora, a ByteDance se junta a essa disputa com o objetivo de oferecer um modelo que supere os concorrentes em termos de desempenho e capacidade de raciocínio.

O modelo ainda não está disponível para download ou uso, e os termos de licenciamento são incertos. No entanto, o documento técnico divulgado pela empresa revela detalhes importantes sobre sua arquitetura e desempenho.

Arquitetura Mixture-of-Experts (MoE)

Assim como o novo Llama 4 da Meta e o Mixtral da Mistral, o Seed-Thinking-v1.5 é construído utilizando a arquitetura Mixture-of-Experts (MoE). Essa arquitetura combina as capacidades de múltiplos modelos em um único sistema, onde cada modelo se especializa em uma área diferente.

CONTINUA DEPOIS DA PUBLICIDADE

Leia também:

No caso do Seed-Thinking-v1.5, a arquitetura MoE permite que o modelo utilize apenas 20 bilhões de parâmetros de um total de 200 bilhões de cada vez, tornando-o mais eficiente. A ByteDance afirma que o modelo prioriza o raciocínio estruturado e a geração de respostas ponderadas.

Os resultados apresentados no documento técnico indicam que o Seed-Thinking-v1.5 supera o DeepSeek R1 e se aproxima do Gemini 2.5 Pro do Google e do o3-mini-high reasoner da OpenAI em diversos testes de avaliação. Em alguns casos, como no benchmark ARC-AGI, o modelo da ByteDance chega a superar seus concorrentes, demonstrando seu potencial para tarefas que exigem inteligência artificial geral. Se você se interessa por inteligência artificial, confira este artigo sobre como LLMs especializados estão transformando o papel estratégico da IA generativa na TI.

O Seed-Thinking-v1.5 é posicionado como uma alternativa compacta e eficiente aos modelos maiores disponíveis no mercado. Ele introduz inovações em aprendizado por reforço (RL), curadoria de dados de treinamento e infraestrutura de IA.

Desempenho e Foco do Modelo

O Seed-Thinking-v1.5 demonstra um desempenho notável em diversas tarefas complexas, alcançando 86,7% no AIME 2024, 55,0% em pass@8 no Codeforces e 77,3% no benchmark GPQA. Esses resultados o colocam próximo ou equiparado a modelos como o o3-mini-high da OpenAI e o Gemini 2.5 Pro do Google em métricas de raciocínio específicas.

Em tarefas que não envolvem raciocínio, o modelo foi avaliado por meio de comparações de preferência humana, obtendo uma taxa de vitória 8,0% maior em relação ao DeepSeek R1. Isso sugere que suas qualidades se estendem para além de desafios lógicos ou matemáticos.

CONTINUA DEPOIS DA PUBLICIDADE

Para lidar com a saturação em benchmarks como o AIME, a ByteDance introduziu o BeyondAIME, um novo teste de matemática mais desafiador, projetado para evitar a memorização e diferenciar melhor o desempenho do modelo. Espera-se que este e o conjunto de avaliação do Codeforces sejam lançados publicamente para apoiar pesquisas futuras.

Estratégia de Dados

Os dados de treinamento desempenharam um papel crucial no desenvolvimento do modelo. Para o ajuste fino supervisionado (SFT), a equipe selecionou 400.000 amostras, incluindo 300.000 problemas verificáveis (STEM, lógica e codificação) e 100.000 problemas não verificáveis, como escrita criativa e interpretação de papéis.

Para o treinamento de RL, os dados foram segmentados em:

  • Problemas verificáveis: 100.000 questões STEM rigorosamente filtradas e quebra-cabeças lógicos com respostas conhecidas, provenientes de competições de elite e revisão de especialistas.
  • Tarefas não verificáveis: conjuntos de dados de preferência humana focados em prompts abertos, avaliados usando modelos de recompensa pareados.

Os dados STEM foram fortemente focados em matemática avançada, representando mais de 80% do conjunto de problemas. Dados lógicos adicionais incluíram tarefas como Sudoku e quebra-cabeças de 24 pontos, com dificuldade ajustável para corresponder ao progresso do modelo.

Abordagem de Aprendizado por Reforço

O aprendizado por reforço no Seed-Thinking-v1.5 é alimentado por estruturas personalizadas de ator-crítico (VAPO) e gradiente de política (DAPO), desenvolvidas para abordar instabilidades conhecidas no treinamento de RL. Essas técnicas reduzem a dispersão do sinal de recompensa e melhoram a estabilidade do treinamento, especialmente em configurações de cadeia de pensamento (CoT) longas.

Os modelos de recompensa desempenham um papel crítico na supervisão das saídas de RL. A ByteDance introduziu duas ferramentas principais:

  • Seed-Verifier: Um LLM baseado em regras que verifica se as respostas geradas e de referência são matematicamente equivalentes.
  • Seed-Thinking-Verifier: Um juiz baseado em raciocínio passo a passo que melhora a consistência do julgamento e resiste à invasão de recompensas.

Este sistema de recompensa de dois níveis permite uma avaliação diferenciada para tarefas diretas e complexas.

Infraestrutura e Escalonamento

Para suportar o treinamento eficiente em larga escala, a ByteDance construiu um sistema sobre sua estrutura HybridFlow. A execução é feita por clusters Ray, e os processos de treinamento e inferência são colocalizados para reduzir o tempo ocioso da GPU.

O Streaming Rollout System (SRS) é uma inovação notável que separa a evolução do modelo da execução em tempo de execução. Ele acelera a velocidade de iteração gerenciando assincronamente gerações parcialmente concluídas em diferentes versões do modelo. Essa arquitetura supostamente oferece ciclos de RL até 3 vezes mais rápidos.

Técnicas de infraestrutura adicionais incluem:

  • Precisão mista (FP8) para economia de memória
  • Paralelismo especializado e autoajuste de kernel para eficiência de MoE
  • ByteCheckpoint para checkpointing resiliente e flexível
  • AutoTuner para otimizar configurações de paralelismo e memória

Avaliação Humana e Impacto no Mundo Real

Para avaliar o alinhamento com as preferências centradas no ser humano, a ByteDance realizou testes humanos em uma variedade de domínios, incluindo escrita criativa, conhecimento de humanidades e conversação geral.

O Seed-Thinking-v1.5 superou consistentemente o DeepSeek R1 em todas as sessões, reforçando sua aplicabilidade às necessidades do usuário no mundo real.

A equipe de desenvolvimento observa que os modelos de raciocínio treinados principalmente em tarefas verificáveis demonstraram forte generalização para domínios criativos — um resultado atribuído à estrutura e ao rigor incorporados nos fluxos de trabalho de treinamento matemático.

O Que Isso Significa Para Líderes Técnicos, Engenheiros de Dados e Tomadores de Decisão Empresariais

Para líderes técnicos que gerenciam o ciclo de vida de grandes modelos de linguagem — desde a curadoria de dados até a implantação — o Seed-Thinking-v1.5 apresenta uma oportunidade de repensar como as capacidades de raciocínio são integradas às pilhas de IA empresariais.

Seu processo de treinamento modular, que inclui conjuntos de dados de raciocínio verificáveis e aprendizado por reforço multifásico, atrai particularmente equipes que buscam escalar o desenvolvimento de LLM, mantendo o controle refinado.

As medidas da ByteDance para introduzir o Seed-Verifier e o Seed-Thinking-Verifier oferecem mecanismos para uma modelagem de recompensa mais confiável, o que pode ser fundamental ao implantar modelos em ambientes regulamentados ou voltados para o cliente.

Para equipes que operam sob prazos apertados e largura de banda limitada, a estabilidade do modelo sob aprendizado por reforço, habilitada por inovações como VAPO e amostragem dinâmica, pode reduzir os ciclos de iteração e otimizar o ajuste fino para tarefas específicas.

Do ponto de vista da orquestração e implantação, a abordagem de infraestrutura híbrida do modelo — incluindo o Streaming Rollout System (SRS) e o suporte para otimização FP8 — sugere ganhos significativos na taxa de transferência de treinamento e na utilização do hardware.

Esses recursos seriam valiosos para engenheiros responsáveis por dimensionar as operações de LLM em sistemas de nuvem e on-premise. O fato de o Seed-Thinking-v1.5 ter sido treinado com mecanismos para adaptar o feedback de recompensa com base na dinâmica de tempo de execução fala diretamente aos desafios de gerenciar pipelines de dados heterogêneos e manter a consistência entre os domínios.

Para equipes encarregadas de garantir a confiabilidade, reprodutibilidade e integração contínua de novas ferramentas, o design de nível de sistema do Seed-Thinking-v1.5 pode servir como um modelo para a construção de sistemas de orquestração robustos e multimodais.

Para profissionais de engenharia de dados, a abordagem estruturada aos dados de treinamento — incluindo filtragem rigorosa, aumento e verificação de especialistas — reforça a importância da qualidade dos dados como um multiplicador do desempenho do modelo. Isso pode inspirar abordagens mais deliberadas para o desenvolvimento de conjuntos de dados e pipelines de validação.

Perspectivas Futuras

O Seed-Thinking-v1.5 é resultado da colaboração dentro da equipe de Sistemas LLM Seed da ByteDance, liderada por Yonghui Wu e com representação pública por Haibin Lin, um colaborador de IA de longa data.

O projeto também se baseia em esforços anteriores, como o Doubao 1.5 Pro, e incorpora técnicas compartilhadas em RLHF e curadoria de dados.

A equipe planeja continuar refinando as técnicas de aprendizado por reforço, concentrando-se na eficiência do treinamento e na modelagem de recompensa para tarefas não verificáveis. O lançamento público de benchmarks internos, como o BeyondAIME, tem como objetivo fomentar um avanço mais amplo na pesquisa de IA focada no raciocínio.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.