▲
- Pesquisadores do Institute of Computing Technology lançaram o LLaMA-Omni2, um novo modelo de linguagem com capacidade de fala.
- Com tecnologia modular, o modelo promete melhorar a interação por voz com inteligência artificial.
- A redução da latência nas interações pode beneficiar usuários que buscam comunicação mais fluida com IAs.
- O modelo é acessível em plataformas de pesquisa, promovendo o desenvolvimento em inteligência artificial.
Pesquisadores do Institute of Computing Technology da Academia Chinesa de Ciências lançaram o LLaMA-Omni2, uma família de modelos de linguagem com capacidade de fala. Os modelos já estão disponíveis no Hugging Face e prometem revolucionar a interação por voz com IAs.
Arquitetura modular para diálogo em tempo real
O sistema utiliza uma estrutura modular que integra percepção de fala, síntese vocal e compreensão de linguagem. Diferente de abordagens anteriores, o LLaMA-Omni2 opera de ponta a ponta, mantendo baixo custo de treinamento e interpretabilidade.
Os modelos variam de 0,5B a 14B de parâmetros, construídos sobre a série Qwen2.5-Instruct. A arquitetura inclui:
- Codificador de voz baseado no Whisper-large-v3
- Adaptador de voz para alinhar representações acústicas
- Núcleo de modelo de linguagem Qwen2.5
- Decodificador de síntese de voz em fluxo contínuo
Geração contínua com baixa latência
O modelo adota uma estratégia de leitura-escrita para produção de saída em tempo real. Para cada 3 tokens gerados pelo LLM, 10 tokens de fala são sintetizados, equilibrando latência (~583ms) e qualidade.
Modelo | Llama Q (S2S) | Web Q (S2S) | Latência (ms) |
---|---|---|---|
GLM-4-Voice (9B) | 50.7 | 15.9 | 1562.8 |
LLaMA-Omni2-7B | 60.7 | 31.3 | 582.9 |
Treinamento eficiente com dados sintéticos
O modelo foi treinado com apenas 200K amostras de diálogo voz-a-voz, sintetizadas a partir de conjuntos de texto como Alpaca e UltraChat. O processo ocorreu em duas etapas:
Leia também:
- Otimização independente dos módulos de voz-para-texto e texto-para-voz
- Ajuste fino do caminho completo de geração voz-a-voz
Essa abordagem mostra que é possível alcançar desempenho competitivo sem grandes volumes de dados de treinamento, como comprovado por pesquisas sobre processamento de linguagem natural.
Componentes críticos para qualidade
Análises demonstraram a importância de:
- Módulo de fusão por portão para alinhamento contextual
- Pré-treinamento do modelo de síntese de voz
- Estratégias balanceadas de leitura-escrita
A pesquisa também revelou que dados de diálogo multi-turn são mais eficazes que interações únicas para treinar capacidades de interação por voz, um avanço significativo no campo de IA conversacional.
O LLaMA-Omni2 representa um marco na interação voz-IA, oferecendo baixa latência e alta qualidade com arquitetura modular. Seu código e modelos estão disponíveis no GitHub para pesquisa e desenvolvimento.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via MarkTechPost