Novo modelo open source da Alibaba QwQ-32B consome menos recursos que o DeepSeek-R1

Descubra como o QwQ-32B da Alibaba iguala desempenho com menos recursos computacionais.
Atualizado há 4 minutos
Modelo QwQ-32B da Alibaba

Outros destaques

Snapdragon X85
IMSI catchers
Google AI Mode
Modelo de IA da IBM
Investimento da Microsoft na OpenAI

O **Modelo QwQ-32B da Alibaba** surge como uma alternativa de código aberto que promete equiparar-se ao DeepSeek-R1, mas com uma demanda de capacidade computacional significativamente menor. Desenvolvido pela Qwen Team, divisão da gigante chinesa Alibaba, o QwQ-32B é um modelo de raciocínio de 32 bilhões de parâmetros, projetado para otimizar o desempenho em tarefas complexas de resolução de problemas através do aprendizado por reforço (RL).

CONTINUA DEPOIS DA PUBLICIDADE

Disponível para uso comercial e de pesquisa sob a licença Apache 2.0, o modelo pode ser encontrado no Hugging Face e no ModelScope. Usuários individuais também podem acessá-lo via Qwen Chat. Entenda mais sobre essa nova ferramenta e suas funcionalidades.

## O Que é o QwQ-32B?

O QwQ, abreviação de Qwen-with-Questions, foi apresentado pela Alibaba em novembro de 2024 como um modelo de raciocínio de código aberto, visando competir com o o1-preview da OpenAI. O modelo foi desenvolvido para aprimorar o raciocínio lógico e o planejamento, revisando e refinando suas próprias respostas durante a inferência. Essa técnica o tornou particularmente eficaz em tarefas de matemática e programação.

A versão inicial do QwQ possuía 32 bilhões de parâmetros e um comprimento de contexto de 32.000 tokens. A Alibaba destacou sua capacidade de superar o o1-preview em benchmarks matemáticos como AIME e MATH, além de tarefas de raciocínio científico como o GPQA.

Leia também:

CONTINUA DEPOIS DA PUBLICIDADE

Apesar de seus pontos fortes, as primeiras versões do QwQ tiveram dificuldades com benchmarks de programação como o LiveCodeBench, onde os modelos da OpenAI mantiveram uma vantagem. Além disso, como muitos modelos de raciocínio emergentes, o QwQ enfrentou desafios como a mistura de idiomas e ocasionais loops de raciocínio circular.

No entanto, a decisão da Alibaba de liberar o modelo sob uma licença Apache 2.0 garantiu que desenvolvedores e empresas pudessem adaptá-lo e comercializá-lo livremente, diferenciando-o de alternativas proprietárias como o o1 da OpenAI.

## A Evolução do Cenário da IA e o Modelo QwQ-32B da Alibaba

Desde o lançamento inicial do QwQ, o cenário da IA evoluiu rapidamente. As limitações dos LLMs tradicionais tornaram-se mais aparentes, com as leis de escala produzindo retornos decrescentes nas melhorias de desempenho.

Essa mudança alimentou o interesse em modelos de raciocínio grandes (LRMs) — uma nova categoria de sistemas de IA que usam raciocínio em tempo de inferência e autorreflexão para aumentar a precisão. Estes incluem a série o3 da OpenAI e o DeepSeek-R1 da DeepSeek, um laboratório chinês derivado da empresa de análise quantitativa de Hong Kong High-Flyer Capital Management.

CONTINUA DEPOIS DA PUBLICIDADE

Um novo relatório da empresa de pesquisa e análise de tráfego web SimilarWeb descobriu que, desde o lançamento do R1 em janeiro de 2024, a DeepSeek subiu nas paradas para se tornar o site de fornecimento de modelos de IA mais visitado, atrás da OpenAI.

O QwQ-32B, a mais recente iteração da Alibaba, baseia-se nesses avanços, integrando RL e autoquestionamento estruturado, posicionando-o como um concorrente sério no crescente campo da IA focada no raciocínio.

## Aprendizado por Reforço Multiestágio

Modelos tradicionais ajustados por instrução frequentemente enfrentam dificuldades com tarefas de raciocínio complexas, mas a pesquisa da Qwen Team sugere que o RL pode melhorar significativamente a capacidade de um modelo de resolver problemas complexos.

O Modelo QwQ-32B da Alibaba aprimora o raciocínio matemático, proficiência em codificação e resolução geral de problemas, implementando uma abordagem de treinamento RL multiestágio.

O modelo foi comparado com alternativas como DeepSeek-R1, o1-mini e DeepSeek-R1-Distilled-Qwen-32B, demonstrando resultados competitivos, apesar de ter menos parâmetros do que alguns desses modelos.

Por exemplo, enquanto o DeepSeek-R1 opera com 671 bilhões de parâmetros (com 37 bilhões ativados), o QwQ-32B atinge um desempenho comparável com uma capacidade muito menor — normalmente exigindo 24 GB de vRAM em uma GPU (as H100s da Nvidia têm 80GB) em comparação com mais de 1500 GB de vRAM para executar o DeepSeek R1 completo (16 GPUs A100 da Nvidia) — destacando a eficiência da abordagem RL da Qwen.

O QwQ-32B segue uma arquitetura de modelo de linguagem causal e inclui várias otimizações:

* 64 camadas de transformadores com RoPE, SwiGLU, RMSNorm e viés Attention QKV;
* Atenção de consulta generalizada (GQA) com 40 cabeças de atenção para consultas e 8 para pares de chave-valor;
* Comprimento de contexto estendido de 131.072 tokens, permitindo melhor manuseio de entradas de sequência longa;
* Treinamento multiestágio, incluindo pré-treinamento, ajuste fino supervisionado e RL.

O processo de RL para QwQ-32B foi executado em duas fases:

1. Foco em matemática e codificação: O modelo foi treinado usando um verificador de precisão para raciocínio matemático e um servidor de execução de código para tarefas de codificação. Essa abordagem garantiu que as respostas geradas fossem validadas quanto à correção antes de serem reforçadas.
2. Aprimoramento da capacidade geral: Em uma segunda fase, o modelo recebeu treinamento baseado em recompensa usando modelos de recompensa geral e verificadores baseados em regras. Esta etapa melhorou o seguimento de instruções, o alinhamento humano e o raciocínio do agente sem comprometer suas capacidades de matemática e codificação.

## Implicações para Empresas

Para líderes empresariais — incluindo CEOs, CTOs, líderes de TI, gerentes de equipe e desenvolvedores de aplicações de IA — o QwQ-32B representa uma mudança potencial na forma como a IA pode apoiar a tomada de decisões de negócios e a inovação técnica.

Com suas capacidades de raciocínio orientadas por RL, o modelo pode fornecer insights mais precisos, estruturados e contextualmente conscientes, tornando-o valioso para casos de uso como análise de dados automatizada, planejamento estratégico, desenvolvimento de software e automação inteligente.

Empresas que procuram implantar soluções de IA para resolução de problemas complexos, assistência de codificação, modelagem financeira ou automação de atendimento ao cliente podem achar a eficiência do QwQ-32B uma opção atraente. Além disso, sua disponibilidade de peso aberto permite que as organizações ajustem e personalizem o modelo para aplicações específicas do domínio, sem restrições proprietárias, tornando-o uma escolha flexível para estratégias de IA empresarial.

O fato de vir de uma gigante chinesa do comércio eletrônico pode levantar algumas preocupações de segurança e viés para alguns usuários não chineses, especialmente ao usar a interface de Qwen Chat. Mas, como acontece com o DeepSeek-R1, o fato de o modelo estar disponível no Hugging Face para download e uso offline e ajuste fino ou retreinamento sugere que estes podem ser superados com bastante facilidade. E é uma alternativa viável ao DeepSeek-R1.

## Reações Iniciais

O lançamento do QwQ-32B já ganhou atenção da comunidade de pesquisa e desenvolvimento de IA, com vários desenvolvedores e profissionais da indústria compartilhando suas impressões iniciais no X (antigo Twitter):

* Vaibhav Srivastav (@reach_vb) do Hugging Face destacou a velocidade do QwQ-32B na inferência graças ao provedor Hyperbolic Labs, chamando-o de “incrivelmente rápido” e comparável aos modelos de primeira linha. Ele também observou que o modelo “supera o DeepSeek-R1 e o OpenAI o1-mini com licença Apache 2.0“.
* A editora de notícias e rumores de IA, Chubby (@kimmonismus) ficou impressionada com o desempenho do modelo, enfatizando que o QwQ-32B às vezes supera o DeepSeek-R1, apesar de ser 20 vezes menor. “Meu Deus! Qwen arrasou!”, escreveram eles.
* Yuchen Jin (@Yuchenj_UW), cofundador e CTO da Hyperbolic Labs, comemorou o lançamento, observando os ganhos de eficiência. “Modelos pequenos são tão poderosos! A Alibaba Qwen lançou o QwQ-32B, um modelo de raciocínio que supera o DeepSeek-R1 (671B) e o OpenAI o1-mini!”
* Outro membro da equipe do Hugging Face, Erik Kaunismäki (@ErikKaum) enfatizou a facilidade de implantação, compartilhando que o modelo está disponível para implantação com um clique nos endpoints do Hugging Face, tornando-o acessível aos desenvolvedores sem configuração extensa.

## Capacidades de Agente

O QwQ-32B incorpora capacidades de agente, permitindo que ele ajuste dinamicamente os processos de raciocínio com base no feedback ambiental.

Para um desempenho ideal, a Qwen Team recomenda o uso das seguintes configurações de inferência:

* Temperatura: 0,6
* TopP: 0,95
* TopK: Entre 20-40
* YaRN Scaling: Recomendado para lidar com sequências maiores que 32.768 tokens

O modelo suporta a implantação usando o vLLM, uma estrutura de inferência de alto rendimento. No entanto, as implementações atuais do vLLM suportam apenas o YaRN scaling estático, que mantém um fator de escala fixo, independentemente do comprimento da entrada.

## Próximos Passos

A equipe da Qwen vê o QwQ-32B como o primeiro passo no dimensionamento do RL para aprimorar as capacidades de raciocínio. Olhando para o futuro, a equipe planeja:

* Explorar ainda mais o dimensionamento do RL para melhorar a inteligência do modelo;
* Integrar agentes com RL para raciocínio de longo horizonte;
* Continuar desenvolvendo modelos de fundação otimizados para RL;
* Avançar em direção à inteligência artificial geral (AGI) através de técnicas de treinamento mais avançadas.

Com o QwQ-32B, a Qwen Team está posicionando o RL como um motor chave da próxima geração de modelos de IA, demonstrando que o dimensionamento pode produzir sistemas de raciocínio altamente eficazes e de alto desempenho. Além de modelos de linguagem, há outras ferramentas que auxiliam no dia a dia, como o Gmail que recebe melhorias que vão facilitar seu dia a dia.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.