ByteDance, dona do TikTok, lança modelo de IA focado em raciocínio lógico

ByteDance, empresa por trás do TikTok, apresenta o Seed-Thinking-v1.5, um modelo de IA especializado em raciocínio lógico e STEM. Saiba mais sobre as inovações.
Atualizado há 3 semanas
ByteDance, dona do TikTok, lança modelo de IA focado em raciocínio lógico
ByteDance lança Seed-Thinking-v1.5, um avanço em IA para raciocínio lógico e STEM. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • A ByteDance, dona do TikTok, lançou o Seed-Thinking-v1.5, um modelo de IA focado em raciocínio lógico e áreas STEM.
    • O objetivo é oferecer uma alternativa eficiente e compacta aos grandes modelos de linguagem, com desempenho competitivo.
    • O modelo pode impactar profissionais de tecnologia e pesquisadores, oferecendo novas ferramentas para desenvolvimento de IA.
    • O Seed-Thinking-v1.5 também demonstra potencial para aplicações criativas, além de tarefas técnicas.
CONTINUA DEPOIS DA PUBLICIDADE

A ByteDance, empresa por trás do TikTok, também está entrando na onda da IA de raciocínio. A gigante chinesa lançou o Seed-Thinking-v1.5, um modelo de linguagem grande (LLM) criado para melhorar o desempenho do raciocínio em áreas como ciência, tecnologia, matemática e engenharia (STEM), além de abranger diversos outros campos.

O modelo ainda não está disponível para uso, e não se sabe se será de código fechado ou aberto. No entanto, o artigo técnico divulgado pela empresa já nos dá algumas pistas sobre o que esperar.

Construído sobre a arquitetura Mixture-of-Experts (MoE)

Assim como o novo Llama 4 da Meta e o Mixtral da Mistral, o Seed-Thinking-v1.5 utiliza a arquitetura Mixture-of-Experts (MoE). Essa estrutura visa otimizar os modelos, combinando as capacidades de múltiplos modelos em um só, com cada um se especializando em uma área diferente.

CONTINUA DEPOIS DA PUBLICIDADE

No caso do Seed-Thinking-v1.5, a arquitetura MoE permite que ele utilize apenas 20 bilhões de parâmetros de um total de 200 bilhões simultaneamente. Segundo o artigo técnico publicado pela ByteDance no GitHub, o Seed-Thinking-v1.5 prioriza o raciocínio estruturado e a geração de respostas ponderadas.

Os resultados são promissores: o Seed-Thinking-v1.5 supera o DeepSeek R1 e se aproxima do Gemini 2.5 Pro do Google e do o3-mini-high reasoner da OpenAI em diversas avaliações de referência de terceiros. Ele até mesmo os supera no ARC-AGI benchmark, que avalia o progresso em direção à inteligência geral artificial (AGI), considerada o objetivo final da IA.

Leia também:

Posicionado como uma alternativa compacta e eficiente aos maiores modelos disponíveis, o Seed-Thinking-v1.5 alcança resultados competitivos e introduz inovações em aprendizado por reforço (RL), curadoria de dados de treinamento e infraestrutura de IA.

Desempenho e foco do modelo Seed-Thinking-v1.5 em IA de raciocínio

O Seed-Thinking-v1.5 demonstra um desempenho robusto em tarefas complexas, com uma pontuação de 86,7% no AIME 2024, 55,0% pass@8 no Codeforces e 77,3% no GPQA science benchmark. Esses resultados o colocam próximo ou equiparado a modelos como o o3-mini-high da OpenAI e o Gemini 2.5 Pro do Google em métricas de raciocínio específicas.

Em atividades que não envolvem raciocínio, o modelo foi avaliado através de comparações de preferência humana, alcançando uma taxa de vitória 8,0% maior em relação ao DeepSeek R1. Isso sugere que suas qualidades vão além de desafios puramente lógicos ou matemáticos.

CONTINUA DEPOIS DA PUBLICIDADE

Para lidar com a saturação em benchmarks comuns como o AIME, a ByteDance lançou o BeyondAIME, um novo benchmark de matemática mais complexo com problemas selecionados para evitar a memorização e distinguir melhor o desempenho do modelo. Espera-se que essa e a avaliação do Codeforces sejam disponibilizadas publicamente para impulsionar futuras pesquisas na área.

Estratégia de dados do Seed-Thinking-v1.5

Os dados de treinamento tiveram um papel crucial no desenvolvimento do modelo. Para o ajuste fino supervisionado (SFT), a equipe selecionou 400.000 amostras, incluindo 300.000 problemas verificáveis (STEM, lógica e tarefas de programação) e 100.000 problemas não verificáveis, como redação criativa e interpretação de papéis.

Para o treinamento de RL, os dados foram divididos em:

  • Problemas verificáveis: 100.000 questões STEM e quebra-cabeças lógicos rigorosamente filtrados com respostas conhecidas, provenientes de competições de elite e revisão por especialistas.
  • Tarefas não verificáveis: datasets de preferência humana focados em prompts abertos, avaliados usando modelos de recompensa pairwise.

Os dados STEM se concentraram fortemente em matemática avançada, representando mais de 80% do conjunto de problemas. Os dados lógicos adicionais incluíram tarefas como Sudoku e quebra-cabeças de 24 pontos, com dificuldade ajustável para acompanhar o progresso do modelo.

Abordagem de aprendizado por reforço

O aprendizado por reforço no Seed-Thinking-v1.5 é impulsionado por estruturas personalizadas de actor-critic (VAPO) e policy-gradient (DAPO), desenvolvidas para lidar com as instabilidades conhecidas no treinamento de RL. Essas técnicas se concentram em reduzir a dispersão do sinal de recompensa e aumentar a estabilidade do treinamento, especialmente em configurações longas de chain-of-thought (CoT).

Os modelos de recompensa desempenham um papel fundamental na supervisão das saídas de RL. A ByteDance introduziu duas ferramentas importantes:

  • Seed-Verifier: Um LLM baseado em regras que verifica se as respostas geradas e as respostas de referência são matematicamente equivalentes.
  • Seed-Thinking-Verifier: Um avaliador baseado em raciocínio passo a passo que melhora a consistência do julgamento e resiste à manipulação de recompensas.

Este sistema de recompensa de dois níveis permite uma avaliação diferenciada para tarefas diretas e complexas.

Infraestrutura e escalabilidade

Para suportar o treinamento eficiente em grande escala, a ByteDance construiu um sistema sobre sua estrutura HybridFlow, com execução gerenciada por Ray clusters e processos de treinamento e inferência colocados no mesmo local para reduzir o tempo ocioso da GPU.

Uma inovação notável é o Streaming Rollout System (SRS), que evita a dependência da evolução do modelo na execução em tempo real. Ele aumenta a velocidade de iteração gerenciando de forma assíncrona gerações parcialmente concluídas em diferentes versões do modelo. Essa arquitetura supostamente oferece ciclos de RL até 3 vezes mais rápidos.

Técnicas de infraestrutura adicionais incluem:

  • Precisão mista (FP8) para economia de memória
  • Paralelismo especializado e auto-ajuste de kernel para eficiência MoE
  • ByteCheckpoint para checkpointing resiliente e flexível
  • AutoTuner para otimizar paralelismo e configurações de memória

Avaliação humana e impacto no mundo real

Para avaliar o alinhamento com as preferências centradas no ser humano, a ByteDance realizou testes com humanos em diversos domínios, incluindo redação criativa, conhecimento de humanidades e conversa geral.

O Seed-Thinking-v1.5 superou consistentemente o DeepSeek R1 em todas as sessões, reforçando sua aplicabilidade às necessidades do usuário no mundo real. A equipe de desenvolvimento observa que os modelos de raciocínio treinados principalmente em tarefas verificáveis demonstraram forte generalização para domínios criativos – um resultado atribuído à estrutura e ao rigor incorporados nos fluxos de trabalho de treinamento matemático.

O que isso significa para líderes técnicos, engenheiros de dados e tomadores de decisão corporativos

Para os líderes técnicos que gerenciam o ciclo de vida de grandes modelos de linguagem – desde a curadoria de dados até a implementação – o Seed-Thinking-v1.5 representa uma oportunidade de repensar como os recursos de raciocínio são integrados em stacks de IA corporativos.

Seu processo de treinamento modular, que inclui datasets de raciocínio verificáveis e aprendizado por reforço multifásico, é particularmente atraente para equipes que buscam escalar o desenvolvimento de LLM, mantendo o controle granular.

As iniciativas da ByteDance para introduzir o Seed-Verifier e o Seed-Thinking-Verifier oferecem mecanismos para uma modelagem de recompensa mais confiável, o que pode ser fundamental ao implementar modelos em ambientes regulamentados ou voltados para o cliente.

Para as equipes que geralmente operam sob prazos apertados e largura de banda limitada, a estabilidade do modelo sob aprendizado por reforço – possibilitada por inovações como o VAPO e a amostragem dinâmica – pode reduzir os ciclos de iteração e otimizar o ajuste fino para tarefas específicas.

Do ponto de vista da orquestração e da implementação, a abordagem de infraestrutura híbrida do modelo – incluindo o Streaming Rollout System (SRS) e o suporte para otimização FP8 – sugere ganhos significativos na taxa de transferência de treinamento e na utilização do hardware.

Esses recursos seriam valiosos para os engenheiros responsáveis por escalar as operações de LLM em sistemas de nuvem e on-premise. O fato de que o Seed-Thinking-v1.5 foi treinado com mecanismos para adaptar o feedback de recompensa com base na dinâmica de tempo de execução fala diretamente aos desafios de gerenciar pipelines de dados heterogêneos e manter a consistência entre os domínios.

Para as equipes encarregadas de garantir a confiabilidade, a reprodutibilidade e a integração contínua de novas ferramentas, o design em nível de sistema do Seed-Thinking-v1.5 pode servir como um modelo para a construção de sistemas de orquestração robustos e multimodais.

Para os profissionais de engenharia de dados, a abordagem estruturada aos dados de treinamento – incluindo filtragem rigorosa, aumento e verificação por expert – reforça a importância da qualidade dos dados como um multiplicador do desempenho do modelo. Isso poderia inspirar abordagens mais ponderadas para o desenvolvimento de conjuntos de dados e pipelines de validação. A constante inovação no cenário da inteligência artificial generativa na TI pode transformar o papel estratégico da área.

O Seed-Thinking-v1.5 é fruto da colaboração dentro da equipe Seed LLM Systems da ByteDance, liderada por Yonghui Wu e com representação pública de Haibin Lin, um colaborador de IA de longa data. O projeto também se baseia em esforços anteriores como o Doubao 1.5 Pro e incorpora técnicas compartilhadas em RLHF e curadoria de dados.

Olhando para o futuro, a equipe planeja continuar refinando as técnicas de aprendizado por reforço, com foco na eficiência do treinamento e na modelagem de recompensas para tarefas não verificáveis. O lançamento público de benchmarks internos, como o BeyondAIME, tem como objetivo promover um avanço mais amplo na pesquisa de IA focada em raciocínio.

Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.