Pesquisadores Chineses Lançam Modelo LLaMA-Omni2 Para Diálogo em Tempo Real

Descubra como o LLaMA-Omni2 está mudando a forma como interagimos com IAs através da fala.
Atualizado há 12 horas
Pesquisadores Chineses Lançam Modelo LLaMA-Omni2 Para Diálogo em Tempo Real
LLaMA-Omni2 revoluciona nossa comunicação com IAs por meio da fala. (Imagem/Reprodução: Marktechpost)
Resumo da notícia
    • Pesquisadores do Institute of Computing Technology lançaram o LLaMA-Omni2, um novo modelo de linguagem com capacidade de fala.
    • Com tecnologia modular, o modelo promete melhorar a interação por voz com inteligência artificial.
    • A redução da latência nas interações pode beneficiar usuários que buscam comunicação mais fluida com IAs.
    • O modelo é acessível em plataformas de pesquisa, promovendo o desenvolvimento em inteligência artificial.
CONTINUA DEPOIS DA PUBLICIDADE

Pesquisadores do Institute of Computing Technology da Academia Chinesa de Ciências lançaram o LLaMA-Omni2, uma família de modelos de linguagem com capacidade de fala. Os modelos já estão disponíveis no Hugging Face e prometem revolucionar a interação por voz com IAs.

Arquitetura modular para diálogo em tempo real

O sistema utiliza uma estrutura modular que integra percepção de fala, síntese vocal e compreensão de linguagem. Diferente de abordagens anteriores, o LLaMA-Omni2 opera de ponta a ponta, mantendo baixo custo de treinamento e interpretabilidade.

Os modelos variam de 0,5B a 14B de parâmetros, construídos sobre a série Qwen2.5-Instruct. A arquitetura inclui:

  • Codificador de voz baseado no Whisper-large-v3
  • Adaptador de voz para alinhar representações acústicas
  • Núcleo de modelo de linguagem Qwen2.5
  • Decodificador de síntese de voz em fluxo contínuo

Geração contínua com baixa latência

CONTINUA DEPOIS DA PUBLICIDADE

O modelo adota uma estratégia de leitura-escrita para produção de saída em tempo real. Para cada 3 tokens gerados pelo LLM, 10 tokens de fala são sintetizados, equilibrando latência (~583ms) e qualidade.

Modelo Llama Q (S2S) Web Q (S2S) Latência (ms)
GLM-4-Voice (9B) 50.7 15.9 1562.8
LLaMA-Omni2-7B 60.7 31.3 582.9

Treinamento eficiente com dados sintéticos

O modelo foi treinado com apenas 200K amostras de diálogo voz-a-voz, sintetizadas a partir de conjuntos de texto como Alpaca e UltraChat. O processo ocorreu em duas etapas:

Leia também:

  1. Otimização independente dos módulos de voz-para-texto e texto-para-voz
  2. Ajuste fino do caminho completo de geração voz-a-voz

Essa abordagem mostra que é possível alcançar desempenho competitivo sem grandes volumes de dados de treinamento, como comprovado por pesquisas sobre processamento de linguagem natural.

Componentes críticos para qualidade

Análises demonstraram a importância de:

  • Módulo de fusão por portão para alinhamento contextual
  • Pré-treinamento do modelo de síntese de voz
  • Estratégias balanceadas de leitura-escrita

A pesquisa também revelou que dados de diálogo multi-turn são mais eficazes que interações únicas para treinar capacidades de interação por voz, um avanço significativo no campo de IA conversacional.

CONTINUA DEPOIS DA PUBLICIDADE

O LLaMA-Omni2 representa um marco na interação voz-IA, oferecendo baixa latência e alta qualidade com arquitetura modular. Seu código e modelos estão disponíveis no GitHub para pesquisa e desenvolvimento.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via MarkTechPost

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.