ByteDance lança modelo de IA Seed-Thinking-v1.5 para aprimorar raciocínio em STEM

ByteDance, dona do TikTok, apresenta o Seed-Thinking-v1.5, um modelo de IA focado em raciocínio avançado em STEM e uso geral.
Atualizado há 9 horas
ByteDance lança modelo de IA Seed-Thinking-v1.5 para aprimorar raciocínio em STEM
ByteDance lança Seed-Thinking-v1.5, IA avançada para STEM e aplicações diversas. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • A ByteDance, empresa por trás do TikTok, lançou o Seed-Thinking-v1.5, um modelo de IA especializado em raciocínio em áreas como ciência e tecnologia.
    • O objetivo do modelo é melhorar o desempenho em tarefas complexas, como matemática e codificação, além de domínios de uso geral.
    • Você pode se beneficiar de respostas mais precisas e fundamentadas em plataformas que utilizam essa tecnologia.
    • O Seed-Thinking-v1.5 supera modelos concorrentes em benchmarks de raciocínio, indicando avanços significativos na inteligência artificial.
CONTINUA DEPOIS DA PUBLICIDADE

A ByteDance, empresa por trás do TikTok, está entrando na corrida da inteligência artificial (IA) com o Seed-Thinking-v1.5. Este modelo de linguagem grande (LLM) visa melhorar o desempenho do raciocínio em áreas como ciência, tecnologia, engenharia e matemática (STEM), além de domínios de uso geral. O Seed-Thinking-v1.5 ainda não está disponível para uso, mas a empresa já publicou um artigo técnico com detalhes importantes.

O lançamento do o1 model pela OpenAI em setembro de 2024 e o DeepSeek R1 em janeiro de 2025 acenderam o farol para a criação de IAs mais rápidas e eficientes. Agora, a competição é para ver quem consegue entregar modelos de linguagem que “pensem” melhor. Esses modelos levam um pouco mais de tempo para responder, mas entregam respostas mais completas e bem fundamentadas, analisando e verificando suas próprias conclusões antes de responder.

A arquitetura do Seed-Thinking-v1.5

Assim como o novo Llama 4 da Meta e o Mixtral da Mistral, o Seed-Thinking-v1.5 é construído usando uma arquitetura de Mixture-of-Experts (MoE). Essa arquitetura combina as capacidades de vários modelos em um só, com cada um especializado em uma área diferente, tornando o modelo mais eficiente.

No caso do Seed-Thinking-v1.5, a arquitetura MoE permite que ele use apenas 20 bilhões de parâmetros de um total de 200 bilhões por vez. Segundo o artigo técnico publicado no GitHub, o modelo prioriza o raciocínio estruturado e a geração de respostas ponderadas.

Os resultados são bem animadores: o Seed-Thinking-v1.5 supera o DeepSeek R1 e se aproxima do Gemini 2.5 Pro do Google e do o3-mini-high reasoner da OpenAI em diversos testes de avaliação. Ele até ultrapassa esses dois no ARC-AGI benchmark, que mede o progresso em direção à inteligência artificial geral (AGI), considerada o “Santo Graal” da IA. De acordo com a definição da OpenAI, este modelo supera os humanos na maioria das tarefas economicamente valiosas.

CONTINUA DEPOIS DA PUBLICIDADE

Leia também:

O Seed-Thinking-v1.5 se apresenta como uma alternativa compacta e eficiente aos modelos maiores, alcançando resultados competitivos. Ele introduz inovações em aprendizado por reforço (RL), curadoria de dados de treinamento e infraestrutura de IA.

Desempenho e foco do modelo IA de raciocínio da ByteDance

O Seed-Thinking-v1.5 demonstra um desempenho forte em tarefas desafiadoras, alcançando 86,7% no AIME 2024, 55,0% no pass@8 no Codeforces e 77,3% no GPQA science benchmark. Esses resultados o colocam próximo ou em paridade com modelos como o o3-mini-high da OpenAI e o Gemini 2.5 Pro do Google em métricas de raciocínio específicas.

Em tarefas que não envolvem raciocínio, o modelo foi avaliado por meio de comparações de preferência humana, obtendo uma taxa de vitória 8,0% maior que o DeepSeek R1. Isso sugere que seus pontos fortes se generalizam além de desafios lógicos ou matemáticos.

Você sabia que a Xiaomi expande o acesso ao AI Toolbox para mais dispositivos no Brasil?

Para lidar com a saturação em benchmarks padrão como o AIME, a ByteDance introduziu o BeyondAIME, um novo benchmark de matemática mais difícil, com problemas projetados para resistir à memorização e discriminar melhor o desempenho do modelo. Espera-se que essa avaliação e o conjunto de avaliação do Codeforces sejam divulgados publicamente para apoiar pesquisas futuras.

A estratégia de dados por trás do Seed-Thinking-v1.5

CONTINUA DEPOIS DA PUBLICIDADE

Os dados de treinamento tiveram um papel central no desenvolvimento do modelo. Para o ajuste fino supervisionado (SFT), a equipe selecionou 400.000 amostras, incluindo 300.000 problemas verificáveis (STEM, lógica e codificação) e 100.000 problemas não verificáveis, como redação criativa e role-playing.

Para o treinamento de RL, os dados foram segmentados em:

  • Problemas verificáveis: 100.000 questões STEM e quebra-cabeças lógicos rigorosamente filtrados com respostas conhecidas, provenientes de competições de elite e revisão de especialistas.
  • Tarefas não verificáveis: conjuntos de dados de preferência humana focados em prompts abertos, avaliados usando modelos de recompensa pairwise.

Os dados STEM se concentraram fortemente em matemática avançada, representando mais de 80% do conjunto de problemas. Dados lógicos adicionais incluíram tarefas como Sudoku e quebra-cabeças de 24 pontos, com dificuldade ajustável para corresponder ao progresso do modelo.

Aprendizado por reforço no Seed-Thinking-v1.5

O aprendizado por reforço no Seed-Thinking-v1.5 é alimentado por estruturas personalizadas de actor-critic (VAPO) e policy-gradient (DAPO), desenvolvidas para lidar com instabilidades conhecidas no treinamento de RL. Essas técnicas reduzem a dispersão do sinal de recompensa e aumentam a estabilidade do treinamento, especialmente em configurações longas de chain-of-thought (CoT).

Os modelos de recompensa desempenham um papel crítico na supervisão das saídas de RL. A ByteDance introduziu duas ferramentas principais:

  • Seed-Verifier: Um LLM baseado em regras que verifica se as respostas geradas e de referência são matematicamente equivalentes.
  • Seed-Thinking-Verifier: Um avaliador baseado em raciocínio passo a passo que melhora a consistência do julgamento e resiste à manipulação de recompensas.

Este sistema de recompensa de dois níveis permite uma avaliação diferenciada para tarefas simples e complexas. Que tal aproveitar e transformar fotos de cachorros em humanos com o ChatGPT?

Infraestrutura e escalabilidade

Para suportar o treinamento eficiente em larga escala, a ByteDance construiu um sistema em cima de sua estrutura HybridFlow. A execução é tratada por clusters Ray, e os processos de treinamento e inferência são colocados para reduzir o tempo ocioso da GPU.

O Streaming Rollout System (SRS) é uma inovação notável que separa a evolução do modelo da execução em tempo de execução. Ele acelera a velocidade de iteração gerenciando assincronamente gerações parcialmente concluídas em diferentes versões do modelo. Essa arquitetura supostamente oferece ciclos de RL até 3 vezes mais rápidos.

Técnicas de infraestrutura adicionais incluem:

  • Precisão mista (FP8) para economia de memória
  • Paralelismo de especialistas e auto-ajuste de kernel para eficiência de MoE
  • ByteCheckpoint para checkpointing resiliente e flexível
  • AutoTuner para otimizar o paralelismo e as configurações de memória

Avaliação humana e impacto no mundo real

Para avaliar o alinhamento com as preferências centradas no ser humano, a ByteDance conduziu testes humanos em uma variedade de domínios, incluindo escrita criativa, conhecimento de humanidades e conversa geral.

O Seed-Thinking-v1.5 consistentemente superou o DeepSeek R1 em todas as sessões, reforçando sua aplicabilidade às necessidades do usuário no mundo real.

A equipe de desenvolvimento observa que os modelos de raciocínio treinados principalmente em tarefas verificáveis demonstraram forte generalização para domínios criativos – um resultado atribuído à estrutura e ao rigor incorporados nos fluxos de trabalho de treinamento matemático.

Para os líderes técnicos que gerenciam o ciclo de vida de grandes modelos de linguagem – da curadoria de dados à implantação – o Seed-Thinking-v1.5 apresenta uma oportunidade de repensar como os recursos de raciocínio são integrados nas pilhas de IA corporativas.

Seu processo de treinamento modular, que inclui conjuntos de dados de raciocínio verificáveis e aprendizado por reforço multifásico, atrai particularmente as equipes que buscam dimensionar o desenvolvimento de LLM, mantendo o controle refinado. Para times que operam com prazos apertados e largura de banda limitada, a estabilidade do modelo sob aprendizado por reforço, habilitada por inovações como VAPO e amostragem dinâmica, pode reduzir os ciclos de iteração e simplificar o ajuste fino para tarefas específicas.

Do ponto de vista de orquestração e implantação, a abordagem de infraestrutura híbrida do modelo – incluindo o Streaming Rollout System (SRS) e suporte para otimização de FP8 – sugere ganhos significativos no rendimento de treinamento e utilização de hardware.

Por falar nisso, a MSI pode trocar Intel por AMD em um novo console portátil Claw.

Esses recursos seriam valiosos para engenheiros responsáveis por dimensionar as operações de LLM em sistemas de nuvem e on-premise. O fato de o Seed-Thinking-v1.5 ter sido treinado com mecanismos para adaptar o feedback de recompensa com base na dinâmica de tempo de execução fala diretamente aos desafios de gerenciar pipelines de dados heterogêneos e manter a consistência entre os domínios.

Para equipes encarregadas de garantir a confiabilidade, reprodutibilidade e integração contínua de novas ferramentas, o projeto de nível de sistema do Seed-Thinking-v1.5 pode servir como um modelo para a construção de sistemas de orquestração robustos e multimodais.

Para os profissionais de engenharia de dados, a abordagem estruturada aos dados de treinamento – incluindo filtragem rigorosa, aumento e verificação de especialistas – reforça a importância da qualidade dos dados como um multiplicador do desempenho do modelo. Isso pode inspirar abordagens mais deliberadas para o desenvolvimento de conjuntos de dados e pipelines de validação.

Os resultados do Seed-Thinking-v1.5 são fruto da colaboração dentro da equipe de Seed LLM Systems da ByteDance, liderada por Yonghui Wu e com representação pública de Haibin Lin, um colaborador de IA de longa data. O projeto também se baseia em esforços anteriores, como o Doubao 1.5 Pro, e incorpora técnicas compartilhadas em RLHF e curadoria de dados.

A equipe planeja continuar refinando as técnicas de aprendizado por reforço, concentrando-se na eficiência do treinamento e na modelagem de recompensas para tarefas não verificáveis. A divulgação pública de benchmarks internos, como o BeyondAIME, tem como objetivo promover um avanço mais amplo na pesquisa de IA focada no raciocínio. Falando em ByteDance, sabia que a empresa está enfrentando um julgamento nos EUA que pode separar o Instagram e o WhatsApp?

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.