▲
A equipe “Qwen Team” da Alibaba, conhecida por seus modelos de inteligência artificial de código aberto, lançou o Qwen-Image. Este novo Gerador de imagens com IA se destaca por sua capacidade de renderizar texto de forma precisa dentro das imagens, algo que muitos outros modelos ainda enfrentam dificuldades. A ferramenta suporta tanto escrita alfabética quanto logográfica, incluindo conteúdo bilíngue em inglês e chinês.
Qwen-Image: Um novo Gerador de imagens com IA
A equipe Qwen da Alibaba tem se destacado recentemente com o lançamento de vários modelos de IA de código aberto, focados em linguagem e programação. Esses modelos conseguiram competir com sucesso, e em alguns casos superar, as alternativas proprietárias de empresas americanas. Agora, a equipe retorna com o Qwen-Image, um novo modelo de geração de imagens com inteligência artificial, também disponível de forma aberta.
O Qwen-Image se diferencia no cenário de modelos de geração de imagens por focar na exatidão da renderização de texto. Muitos geradores de imagens ainda apresentam distorções ou erros ao incorporar palavras em suas criações. Este modelo consegue lidar bem com tipografia complexa e layouts com múltiplas linhas.
Ele também suporta semântica em nível de parágrafo e conteúdo bilíngue, combinando inglês e chinês de forma fluida. Na prática, isso permite que os usuários criem diversos materiais visuais com texto nítido. Exemplos incluem pôsteres de filmes, slides para apresentações e cenas de lojas.
Além disso, é possível gerar poesias manuscritas e infográficos estilizados. A qualidade do texto gerado se alinha diretamente com as descrições fornecidas nos comandos do usuário. Os usuários podem experimentar o modelo no site Qwen Chat, selecionando a opção de “Geração de Imagens”.
Aberto e Acessível, com Ressalvas
O Qwen-Image é distribuído sob a licença Apache 2.0. Isso significa que ele pode ser usado, redistribuído e modificado para fins comerciais e não comerciais, com a condição de que a atribuição seja mantida e o texto da licença seja incluído em trabalhos derivados. Essa flexibilidade pode atrair empresas que buscam uma ferramenta de geração de imagens de código aberto.
Ela pode ser útil para criar materiais internos ou externos, como folhetos, anúncios, comunicados e newsletters. No entanto, o fato de os dados de treinamento do modelo não serem divulgados pode gerar preocupações para algumas empresas. A maioria dos principais modelos de geração de imagens por IA mantém esses dados em segredo.
Outro ponto importante é que o Qwen-Image não oferece indenização para usos comerciais do produto. Em outras palavras, se um usuário for processado por infração de direitos autorais, a Alibaba não oferecerá suporte legal, ao contrário de empresas como Adobe Firefly ou OpenAI, com sua geração de imagens nativa do GPT-4o. A disponibilidade do modelo e seus recursos inclui diversos repositórios para acesso.
Os ativos do modelo, como cadernos de demonstração, ferramentas de avaliação e scripts de ajuste fino, estão acessíveis. Eles podem ser encontrados em plataformas como Qwen.ai, Hugging Face, ModelScope e GitHub. Existe também um portal de avaliação ao vivo, o AI Arena, onde os usuários podem comparar as imagens geradas.
Neste portal, é possível participar de rodadas de comparação, contribuindo para uma classificação pública. Contudo, em testes iniciais rápidos, a aderência ao texto e ao comando não pareceu ser muito superior à do Midjourney, um popular gerador de imagens de IA proprietário dos EUA. Algumas sessões no Qwen Chat apresentaram erros de compreensão de comando e fidelidade do texto, mesmo após várias tentativas e reformulações.
Por Dentro da Criação do Qwen-Image
O desempenho do Qwen-Image é resultado de um processo de treinamento robusto. Este processo se baseia em aprendizado progressivo, alinhamento de tarefas multimodais e uma rigorosa curadoria de dados. A equipe de pesquisa divulgou um artigo técnico detalhando esses fundamentos.
O conjunto de dados de treinamento inclui bilhões de pares de imagem e texto. Esses dados foram coletados de quatro categorias principais: imagens da natureza, retratos humanos, conteúdo artístico e de design, e dados sintéticos focados em texto. A equipe Qwen não especificou o tamanho total do conjunto de dados, mas forneceu uma estimativa das porcentagens de cada categoria: cerca de 55% de natureza, 27% de design (UI, pôsteres, arte), 13% de pessoas (retratos, atividades humanas) e 5% de dados sintéticos de renderização de texto.
É importante notar que todos os dados sintéticos foram gerados internamente, e nenhuma imagem criada por outros modelos de inteligência artificial foi utilizada. Apesar das etapas detalhadas de curadoria e filtragem, a documentação não esclarece se os dados foram licenciados ou obtidos de conjuntos de dados públicos ou proprietários. Diferente de muitos modelos generativos que evitam texto sintético devido a riscos de ruído, o Qwen-Image emprega sistemas de renderização sintética controlados.
Isso visa melhorar a cobertura de caracteres, principalmente para caracteres chineses menos frequentes. Uma estratégia de treinamento semelhante a um currículo é adotada: o modelo inicia com imagens simples legendadas e conteúdo não textual. Depois, avança para cenários de texto sensíveis ao layout, renderização de idiomas mistos e parágrafos densos. Essa exposição gradual auxilia o modelo a generalizar entre diferentes tipos de escrita e formatação.
O Qwen-Image integra três módulos essenciais para seu funcionamento. O primeiro é o Qwen2.5-VL, um modelo de linguagem multimodal que extrai o significado contextual e orienta a geração por meio de comandos do sistema. Em seguida, temos o VAE Encoder/Decoder, treinado em documentos de alta resolução e layouts do mundo real.
Ele é responsável por lidar com representações visuais detalhadas, especialmente textos pequenos ou densos. Por último, o MMDiT, o núcleo do modelo de difusão, coordena o aprendizado conjunto entre modalidades de imagem e texto. Um sistema inovador chamado MSRoPE (Multimodal Scalable Rotary Positional Encoding) aprimora o alinhamento espacial entre os elementos. A combinação desses componentes permite que o Qwen-Image opere eficazmente em tarefas que envolvem compreensão, geração e edição precisa de imagens.
Desempenho e Aplicações no Mundo Real
O Qwen-Image passou por avaliações em diversos testes públicos. Entre eles, estão o GenEval e DPG, que medem a capacidade de seguir comandos e a consistência de atributos de objetos. Também foi testado em OneIG-Bench e TIIF, focados no raciocínio composicional e na fidelidade do layout.
Para a renderização de texto, especialmente em contextos multilíngues, os testes incluíram CVTG-2K, ChineseWord e LongText-Bench. Em quase todas as avaliações, o Qwen-Image igualou ou superou modelos proprietários como GPT Image 1 [High], Seedream 3.0 e FLUX.1 Kontext [Pro]. Seu desempenho na renderização de texto chinês foi notavelmente superior ao de todos os sistemas comparados.
No ranking público do AI Arena, que se baseia em mais de 10.000 comparações humanas, o Qwen-Image ocupa a terceira posição geral. Ele é o modelo de código aberto mais bem classificado. Para equipes de IA em empresas, que lidam com fluxos de trabalho multimodais complexos, o Qwen-Image oferece várias vantagens funcionais que se alinham às necessidades operacionais.
Profissionais que gerenciam o ciclo de vida de modelos de visão-linguagem, desde o treinamento até a implantação, encontrarão valor na qualidade de saída consistente do Qwen-Image e em seus componentes prontos para integração. A natureza de código aberto reduz os custos de licenciamento. Sua arquitetura modular (Qwen2.5-VL + VAE + MMDiT) facilita a adaptação a conjuntos de dados personalizados ou o ajuste fino para resultados específicos de domínio.
Os dados de treinamento estilo “currículo” e os resultados de referência claros ajudam as equipes a avaliar a adequação do modelo. Seja para implantar recursos visuais de marketing, renderizações de documentos ou gráficos de produtos para comércio eletrônico, o Qwen-Image permite experimentação rápida sem as restrições de soluções proprietárias. Engenheiros que constroem pipelines de IA ou implantam modelos em sistemas distribuídos vão apreciar a documentação detalhada.
O modelo foi treinado usando uma arquitetura Produtor-Consumidor. Ele suporta processamento multi-resolução escalável (de 256p a 1328p) e é construído para operar com Megatron-LM e paralelismo de tensores. Isso faz do Qwen-Image uma opção viável para implantação em ambientes de nuvem híbrida, onde a confiabilidade e a taxa de transferência são importantes.
Além disso, o suporte para fluxos de trabalho de edição de imagem para imagem (TI2I) e comandos específicos de tarefas permite seu uso em aplicativos em tempo real ou interativos. Profissionais focados na ingestão, validação e transformação de dados podem usar o Qwen-Image como uma ferramenta para gerar conjuntos de dados sintéticos para treinar ou aprimorar modelos de visão computacional.
A capacidade do Qwen-Image de gerar imagens de alta resolução com anotações incorporadas e multilíngues pode melhorar o desempenho em tarefas de OCR, detecção de objetos ou análise de layout. O Qwen-Image foi treinado para evitar artefatos como códigos QR, texto distorcido e marcas d’água. Isso oferece uma entrada sintética de maior qualidade do que muitos modelos públicos, ajudando as equipes a preservar a integridade dos conjuntos de treinamento.
A equipe Qwen incentiva a abertura e a colaboração da comunidade no lançamento do modelo. Desenvolvedores são encorajados a testar e ajustar o Qwen-Image, fazer contribuições e participar da tabela de classificação de avaliação. O feedback sobre a renderização de texto, fidelidade de edição e casos de uso multilíngues moldará futuras iterações. O objetivo declarado da equipe é “reduzir as barreiras técnicas para a criação de conteúdo visual”, esperando que o Qwen-Image sirva como base para pesquisas futuras e implantação prática em diversas indústrias.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.