ByteDance, dona do TikTok, lança modelo de IA focado em raciocínio lógico

ByteDance, empresa por trás do TikTok, apresenta o Seed-Thinking-v1.5, um modelo de IA especializado em raciocínio lógico e STEM. Saiba mais sobre as inovações.
Atualizado há 1 dia
ByteDance, dona do TikTok, lança modelo de IA focado em raciocínio lógico
ByteDance lança Seed-Thinking-v1.5, um avanço em IA para raciocínio lógico e STEM. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • A ByteDance, dona do TikTok, lançou o Seed-Thinking-v1.5, um modelo de IA focado em raciocínio lógico e áreas STEM.
    • O objetivo é oferecer uma alternativa eficiente e compacta aos grandes modelos de linguagem, com desempenho competitivo.
    • O modelo pode impactar profissionais de tecnologia e pesquisadores, oferecendo novas ferramentas para desenvolvimento de IA.
    • O Seed-Thinking-v1.5 também demonstra potencial para aplicações criativas, além de tarefas técnicas.
CONTINUA DEPOIS DA PUBLICIDADE

A ByteDance, empresa por trás do TikTok, também está entrando na onda da IA de raciocínio. A gigante chinesa lançou o Seed-Thinking-v1.5, um modelo de linguagem grande (LLM) criado para melhorar o desempenho do raciocínio em áreas como ciência, tecnologia, matemática e engenharia (STEM), além de abranger diversos outros campos.

O modelo ainda não está disponível para uso, e não se sabe se será de código fechado ou aberto. No entanto, o artigo técnico divulgado pela empresa já nos dá algumas pistas sobre o que esperar.

Construído sobre a arquitetura Mixture-of-Experts (MoE)

Assim como o novo Llama 4 da Meta e o Mixtral da Mistral, o Seed-Thinking-v1.5 utiliza a arquitetura Mixture-of-Experts (MoE). Essa estrutura visa otimizar os modelos, combinando as capacidades de múltiplos modelos em um só, com cada um se especializando em uma área diferente.

No caso do Seed-Thinking-v1.5, a arquitetura MoE permite que ele utilize apenas 20 bilhões de parâmetros de um total de 200 bilhões simultaneamente. Segundo o artigo técnico publicado pela ByteDance no GitHub, o Seed-Thinking-v1.5 prioriza o raciocínio estruturado e a geração de respostas ponderadas.

Os resultados são promissores: o Seed-Thinking-v1.5 supera o DeepSeek R1 e se aproxima do Gemini 2.5 Pro do Google e do o3-mini-high reasoner da OpenAI em diversas avaliações de referência de terceiros. Ele até mesmo os supera no ARC-AGI benchmark, que avalia o progresso em direção à inteligência geral artificial (AGI), considerada o objetivo final da IA.

CONTINUA DEPOIS DA PUBLICIDADE

Leia também:

Posicionado como uma alternativa compacta e eficiente aos maiores modelos disponíveis, o Seed-Thinking-v1.5 alcança resultados competitivos e introduz inovações em aprendizado por reforço (RL), curadoria de dados de treinamento e infraestrutura de IA.

Desempenho e foco do modelo Seed-Thinking-v1.5 em IA de raciocínio

O Seed-Thinking-v1.5 demonstra um desempenho robusto em tarefas complexas, com uma pontuação de 86,7% no AIME 2024, 55,0% pass@8 no Codeforces e 77,3% no GPQA science benchmark. Esses resultados o colocam próximo ou equiparado a modelos como o o3-mini-high da OpenAI e o Gemini 2.5 Pro do Google em métricas de raciocínio específicas.

Em atividades que não envolvem raciocínio, o modelo foi avaliado através de comparações de preferência humana, alcançando uma taxa de vitória 8,0% maior em relação ao DeepSeek R1. Isso sugere que suas qualidades vão além de desafios puramente lógicos ou matemáticos.

Para lidar com a saturação em benchmarks comuns como o AIME, a ByteDance lançou o BeyondAIME, um novo benchmark de matemática mais complexo com problemas selecionados para evitar a memorização e distinguir melhor o desempenho do modelo. Espera-se que essa e a avaliação do Codeforces sejam disponibilizadas publicamente para impulsionar futuras pesquisas na área.

Estratégia de dados do Seed-Thinking-v1.5

Os dados de treinamento tiveram um papel crucial no desenvolvimento do modelo. Para o ajuste fino supervisionado (SFT), a equipe selecionou 400.000 amostras, incluindo 300.000 problemas verificáveis (STEM, lógica e tarefas de programação) e 100.000 problemas não verificáveis, como redação criativa e interpretação de papéis.

CONTINUA DEPOIS DA PUBLICIDADE

Para o treinamento de RL, os dados foram divididos em:

  • Problemas verificáveis: 100.000 questões STEM e quebra-cabeças lógicos rigorosamente filtrados com respostas conhecidas, provenientes de competições de elite e revisão por especialistas.
  • Tarefas não verificáveis: datasets de preferência humana focados em prompts abertos, avaliados usando modelos de recompensa pairwise.

Os dados STEM se concentraram fortemente em matemática avançada, representando mais de 80% do conjunto de problemas. Os dados lógicos adicionais incluíram tarefas como Sudoku e quebra-cabeças de 24 pontos, com dificuldade ajustável para acompanhar o progresso do modelo.

Abordagem de aprendizado por reforço

O aprendizado por reforço no Seed-Thinking-v1.5 é impulsionado por estruturas personalizadas de actor-critic (VAPO) e policy-gradient (DAPO), desenvolvidas para lidar com as instabilidades conhecidas no treinamento de RL. Essas técnicas se concentram em reduzir a dispersão do sinal de recompensa e aumentar a estabilidade do treinamento, especialmente em configurações longas de chain-of-thought (CoT).

Os modelos de recompensa desempenham um papel fundamental na supervisão das saídas de RL. A ByteDance introduziu duas ferramentas importantes:

  • Seed-Verifier: Um LLM baseado em regras que verifica se as respostas geradas e as respostas de referência são matematicamente equivalentes.
  • Seed-Thinking-Verifier: Um avaliador baseado em raciocínio passo a passo que melhora a consistência do julgamento e resiste à manipulação de recompensas.

Este sistema de recompensa de dois níveis permite uma avaliação diferenciada para tarefas diretas e complexas.

Infraestrutura e escalabilidade

Para suportar o treinamento eficiente em grande escala, a ByteDance construiu um sistema sobre sua estrutura HybridFlow, com execução gerenciada por Ray clusters e processos de treinamento e inferência colocados no mesmo local para reduzir o tempo ocioso da GPU.

Uma inovação notável é o Streaming Rollout System (SRS), que evita a dependência da evolução do modelo na execução em tempo real. Ele aumenta a velocidade de iteração gerenciando de forma assíncrona gerações parcialmente concluídas em diferentes versões do modelo. Essa arquitetura supostamente oferece ciclos de RL até 3 vezes mais rápidos.

Técnicas de infraestrutura adicionais incluem:

  • Precisão mista (FP8) para economia de memória
  • Paralelismo especializado e auto-ajuste de kernel para eficiência MoE
  • ByteCheckpoint para checkpointing resiliente e flexível
  • AutoTuner para otimizar paralelismo e configurações de memória

Avaliação humana e impacto no mundo real

Para avaliar o alinhamento com as preferências centradas no ser humano, a ByteDance realizou testes com humanos em diversos domínios, incluindo redação criativa, conhecimento de humanidades e conversa geral.

O Seed-Thinking-v1.5 superou consistentemente o DeepSeek R1 em todas as sessões, reforçando sua aplicabilidade às necessidades do usuário no mundo real. A equipe de desenvolvimento observa que os modelos de raciocínio treinados principalmente em tarefas verificáveis demonstraram forte generalização para domínios criativos – um resultado atribuído à estrutura e ao rigor incorporados nos fluxos de trabalho de treinamento matemático.

O que isso significa para líderes técnicos, engenheiros de dados e tomadores de decisão corporativos

Para os líderes técnicos que gerenciam o ciclo de vida de grandes modelos de linguagem – desde a curadoria de dados até a implementação – o Seed-Thinking-v1.5 representa uma oportunidade de repensar como os recursos de raciocínio são integrados em stacks de IA corporativos.

Seu processo de treinamento modular, que inclui datasets de raciocínio verificáveis e aprendizado por reforço multifásico, é particularmente atraente para equipes que buscam escalar o desenvolvimento de LLM, mantendo o controle granular.

As iniciativas da ByteDance para introduzir o Seed-Verifier e o Seed-Thinking-Verifier oferecem mecanismos para uma modelagem de recompensa mais confiável, o que pode ser fundamental ao implementar modelos em ambientes regulamentados ou voltados para o cliente.

Para as equipes que geralmente operam sob prazos apertados e largura de banda limitada, a estabilidade do modelo sob aprendizado por reforço – possibilitada por inovações como o VAPO e a amostragem dinâmica – pode reduzir os ciclos de iteração e otimizar o ajuste fino para tarefas específicas.

Do ponto de vista da orquestração e da implementação, a abordagem de infraestrutura híbrida do modelo – incluindo o Streaming Rollout System (SRS) e o suporte para otimização FP8 – sugere ganhos significativos na taxa de transferência de treinamento e na utilização do hardware.

Esses recursos seriam valiosos para os engenheiros responsáveis por escalar as operações de LLM em sistemas de nuvem e on-premise. O fato de que o Seed-Thinking-v1.5 foi treinado com mecanismos para adaptar o feedback de recompensa com base na dinâmica de tempo de execução fala diretamente aos desafios de gerenciar pipelines de dados heterogêneos e manter a consistência entre os domínios.

Para as equipes encarregadas de garantir a confiabilidade, a reprodutibilidade e a integração contínua de novas ferramentas, o design em nível de sistema do Seed-Thinking-v1.5 pode servir como um modelo para a construção de sistemas de orquestração robustos e multimodais.

Para os profissionais de engenharia de dados, a abordagem estruturada aos dados de treinamento – incluindo filtragem rigorosa, aumento e verificação por expert – reforça a importância da qualidade dos dados como um multiplicador do desempenho do modelo. Isso poderia inspirar abordagens mais ponderadas para o desenvolvimento de conjuntos de dados e pipelines de validação. A constante inovação no cenário da inteligência artificial generativa na TI pode transformar o papel estratégico da área.

O Seed-Thinking-v1.5 é fruto da colaboração dentro da equipe Seed LLM Systems da ByteDance, liderada por Yonghui Wu e com representação pública de Haibin Lin, um colaborador de IA de longa data. O projeto também se baseia em esforços anteriores como o Doubao 1.5 Pro e incorpora técnicas compartilhadas em RLHF e curadoria de dados.

Olhando para o futuro, a equipe planeja continuar refinando as técnicas de aprendizado por reforço, com foco na eficiência do treinamento e na modelagem de recompensas para tarefas não verificáveis. O lançamento público de benchmarks internos, como o BeyondAIME, tem como objetivo promover um avanço mais amplo na pesquisa de IA focada em raciocínio.

Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.