▲
- Fones de ouvido com IA e chip Apple M2 traduzem múltiplas vozes simultaneamente, desenvolvidos pela Universidade de Washington.
- Você pode entender conversas em diferentes idiomas em ambientes barulhentos, como bares ou eventos multiculturais.
- A tecnologia promete facilitar a comunicação global e aumentar a privacidade, pois o processamento é feito localmente.
- O sistema também preserva a direção e características da voz, tornando a experiência mais natural.
Já imaginou fones de ouvido que traduzem várias pessoas falando ao mesmo tempo? Parece coisa de filme, mas a Universidade de Washington (UW) está tornando isso realidade! Eles criaram fones com Inteligência Artificial que entendem e traduzem diversas vozes simultaneamente. Imagine estar em um bar cheio de gente falando em várias línguas e conseguir entender tudo! Essa tecnologia promete facilitar a comunicação em ambientes multiculturais e trazer mais privacidade para as conversas.
Fones de ouvido com AI e Apple M2: tradução simultânea e espacial
A tecnologia de tradução em tempo real já existe em dispositivos como o Pixel Buds do Google e em produtos da Timkettle, voltados para o mercado corporativo. No entanto, essas soluções conseguem traduzir apenas uma fonte de áudio por vez. A inovação da Universidade de Washington (UW) é um divisor de águas, pois permite a tradução de múltiplos interlocutores de forma simultânea.
A equipe da UW chama essa inovação de Spatial Speech Translation, que utiliza fones de ouvido binaurais. Essa tecnologia simula a forma como os nossos ouvidos captam os sons naturalmente. Microfones são colocados em uma cabeça artificial, com a mesma distância entre eles que a de um ouvido humano para o outro. Essa técnica é importante porque nossos ouvidos não apenas ouvem os sons, mas também ajudam a identificar a direção de onde eles vêm. O objetivo é criar um campo sonoro natural, com efeito estéreo, como se estivéssemos em um show ao vivo, algo semelhante à tecnologia de áudio espacial.
O projeto é liderado pelo Professor Shyam Gollakota, conhecido por suas diversas invenções, como aplicativos que rastreiam a localização de smartwatches debaixo d’água, câmeras fotográficas em besouros, implantes cerebrais que interagem com eletrônicos e aplicativos que detectam infecções no ouvido.
Como funciona a tradução simultânea?
De acordo com Gollakota, a grande novidade é que o sistema preserva a voz de cada pessoa e a direção de onde ela está falando. A tecnologia funciona como um radar, identificando e contabilizando os falantes ao redor, e atualizando esse número em tempo real, conforme as pessoas entram e saem do alcance. O sistema opera diretamente no dispositivo, sem enviar as vozes para um servidor na nuvem, garantindo a privacidade dos usuários. A propósito, já viu essa história de mulher que usa IA para recriar irmão assassinado?
Leia também:
Além de traduzir as falas, o sistema também mantém as características expressivas e o volume da voz de cada pessoa. Ajustes de direção e intensidade do áudio são feitos conforme o falante se move pelo ambiente. A Apple também está desenvolvendo um sistema similar para tradução de áudio em tempo real nos AirPods.
Testes e resultados dos Headphones com AI e Apple M2
A equipe da Universidade de Washington testou os fones com IA em diversos ambientes, tanto internos quanto externos. O sistema consegue processar e traduzir o áudio em um período de 2 a 4 segundos. Os participantes dos testes preferiram um atraso de 3 a 4 segundos, mas a equipe está trabalhando para acelerar o processo de tradução. Até o momento, os testes foram realizados com traduções para espanhol, alemão e francês, mas a expectativa é adicionar mais idiomas em breve.
Tecnicamente, a equipe conseguiu reunir separação de fontes cegas, localização, tradução expressiva em tempo real e renderização binaural em um único fluxo de trabalho, o que é um feito notável. Para o sistema, foi desenvolvido um modelo de tradução de fala capaz de rodar em tempo real no chip Apple M2, alcançando inferência em tempo real. A parte de áudio foi feita com fones Sony WH-1000XM4 com cancelamento de ruído e um microfone Sonic Presence SP15C binaural USB.
O código do protótipo está disponível para que outros possam usá-lo como base para novos projetos. Isso significa que a comunidade científica e de código aberto pode aprender e criar projetos ainda mais avançados a partir do trabalho da equipe da UW.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via Digital Trends