Nova função de controle automático do Android supera limitações do Rabbit R1

Google desenvolve controle automatizado para apps no Android, superando o Rabbit R1 e ampliando a IA no celular.
Atualizado há 3 horas
Nova função de controle automático do Android supera limitações do Rabbit R1
(Imagem/Reprodução: Androidauthority)
Resumo da notícia
    • O Google está criando uma função de Controle de computador Android para automatizar tarefas em aplicativos do celular.
    • Você poderá usar comandos automáticos para controlar apps sem tocar no aparelho, facilitando o dia a dia.
    • O recurso deve ampliar a acessibilidade e eficiência ao permitir controle em segundo plano com segurança.
    • A estrutura limita o acesso a apps confiáveis, protegendo privacidade e dados dos usuários.
CONTINUA DEPOIS DA PUBLICIDADE

O Google está desenvolvendo uma função de Controle de computador Android que promete mudar a forma como interagimos com os aplicativos. Essa novidade permite automatizar tarefas no seu celular, superando as limitações de dispositivos como o Rabbit R1 e expandindo as capacidades dos agentes de IA. Prepare-se para conhecer o futuro da automação no sistema Android!

A Evolução da Automação de Aplicativos Android

No ano passado, a ideia de dispositivos com inteligência artificial, como o Rabbit R1, gerou bastante entusiasmo. A promessa era substituir os smartphones por caixinhas pequenas e interativas, mas a realidade mostrou que esses gadgets não entregaram o esperado. Questões como preço, redundância e utilidade atrapalharam o sucesso, mas a semente de aplicativos totalmente automatizados permaneceu.

Essa semente cresceu e deu origem à tendência da “IA agentiva” que vemos hoje. Muitas empresas estão correndo para criar produtos de IA capazes de realizar tarefas por você. Imagine um assistente que ajuda a codificar um projeto, agenda um compromisso ou faz compras online.

CONTINUA DEPOIS DA PUBLICIDADE

O Google, um dos líderes nessa corrida da IA, também está desenvolvendo seus próprios agentes. Um exemplo notável é o Gemini no Chrome, que pode executar ações dentro do navegador. No entanto, suas capacidades ficam limitadas ao ambiente do navegador, não se estendendo a outros aplicativos do Android.

Para quem busca automatizar apps Android fora do navegador, as opções são mais restritas. Ferramentas de terceiros como o Tasker existem, mas geralmente exigem um aprendizado complexo. Além disso, elas precisam ser configuradas detalhadamente para ações específicas em aplicativos pré-determinados, diferentemente dos novos agentes de IA que podem realizar tarefas mais amplas com um único comando de linguagem natural.

É aí que entra o Project Astra, um projeto experimental de IA universal do Google. Durante o Google I/O, a empresa demonstrou uma versão do Astra capaz de controlar um celular Android. O assistente localizou um documento online, rolou para encontrar informações específicas e pesquisou vídeos relacionados no YouTube, tudo sem que o usuário tocasse no aparelho.

Para isso, o Astra gravava a tela para análise e depois enviava comandos de toque ou deslize para abrir apps ou navegar pelas páginas. A demonstração exibiu o grande potencial de um agente de IA para executar tarefas em aplicativos Android. No entanto, também mostrou que ainda há muito trabalho pela frente.

Por exemplo, as partes do vídeo com o agente de IA foram aceleradas em duas vezes, indicando que a função ainda é um pouco lenta. Em cenários de demonstração, como um usuário com as mãos ocupadas, isso pode não ser um problema. Mas no dia a dia, a lentidão pode ser um obstáculo, pois o telefone ficaria ocupado e interrupções comuns, como notificações ou chamadas, poderiam atrapalhar o processo.

O objetivo da demonstração no I/O era apresentar as capacidades do Project Astra, sem detalhar o funcionamento de um agente de IA no aparelho. O Google precisou adaptar um protótipo usando APIs Android existentes de formas não intencionais. A API MediaProjection foi usada para gravação de tela e a API de Acessibilidade para entrada na tela, o que levou aos desafios mencionados.

CONTINUA DEPOIS DA PUBLICIDADE

Nos últimos meses, o Google tem trabalhado em um novo sistema padronizado para que os agentes de IA possam controlar aplicativos Android. Esse novo sistema, chamado Controle de computador Android, foi projetado para permitir o controle automatizado de apps em segundo plano, contornando os problemas anteriores. Embora o Google provavelmente não anuncie essa função até o lançamento do Android 17 no próximo ano, já temos algumas informações sobre ela.

Como o Controle de Computador Android Funciona na Prática

Com o lançamento do Android 13 em 2022, o Google introduziu um novo serviço de sistema chamado Virtual Device Manager (VDM). Este serviço permite criar telas virtuais que funcionam de forma independente da tela principal que o usuário vê. Os aplicativos podem ser iniciados nessas telas virtuais e, em seguida, transmitidos para um dispositivo remoto.

Esse dispositivo remoto, por sua vez, pode enviar comandos como toques ou pressionamentos de teclado para que o sistema os insira no aplicativo. O VDM já é a base para o recurso de App Streaming no Chrome OS. Ele possibilita transmitir um aplicativo do seu celular Android para o seu Chromebook.

O serviço também está presente no recurso Connected Camera em dispositivos Pixel, pois o Google o atualizou para suportar câmeras virtuais no ano passado. O VDM é fundamental nos esforços do Google para melhorar a compatibilidade entre diferentes dispositivos. Agora, a empresa parece querer usá-lo para alimentar a nova função de Controle de Computador.

O Google adicionou códigos para iniciar uma “Sessão de Controle de Computador” para facilitar a automação de aplicativos Android. Cada sessão inclui uma única tela virtual confiável que hospeda o aplicativo automatizado, além de dispositivos de entrada virtuais para enviar comandos de toque e teclado. Isso significa que a automação acontece em um ambiente isolado.

Os aplicativos clientes que usam a estrutura de Controle de computador Android precisam especificar as propriedades da tela virtual. Isso inclui nome, altura, largura e densidade. Também é necessário definir se a tela deve permanecer desbloqueada e interativa mesmo quando o dispositivo principal está bloqueado, o que é essencial para um controle verdadeiramente autônomo. No entanto, o dispositivo deve ser desbloqueado inicialmente para que uma sessão de automação possa ser iniciada.

Além disso, os aplicativos clientes devem definir uma superfície de saída para o conteúdo da tela virtual. Isso permite que eles acessem os quadros de exibição brutos, que podem ser transmitidos para um dispositivo remoto conectado para análise. Essa capacidade é vital para que a IA possa “enxergar” o que está acontecendo na tela do app.

Um componente importante dessa estrutura é a capacidade de espelhar a tela virtual confiável em uma segunda tela virtual interativa separada. Essa tela interativa pode ter dimensões diferentes da original, e o sistema mapeia automaticamente os comandos de entrada entre elas. Essa arquitetura permite que os usuários vejam e interajam manualmente com o aplicativo que está sendo automatizado, sem atrapalhar o processo de automação em si.

Essa separação é fundamental. Se a tela virtual confiável fosse espelhada diretamente para o usuário, por exemplo, em um PC conectado, alterar o tamanho da janela poderia interromper a automação, pois a mudança nas dimensões da tela pode forçar os aplicativos a reiniciar. Ao criar uma segunda tela interativa que espelha a confiável, os usuários podem visualizar e enviar comandos remotamente para o aplicativo sem interromper o processo.

Considerando a natureza delicada dessa estrutura, o acesso é restrito a aplicativos de alta confiança e com privilégios. Para utilizá-la, um aplicativo deve possuir a nova permissão ACCESS_COMPUTER_CONTROL. Essa permissão só pode ser concedida a apps assinados com um certificado digital explicitamente autorizado no sistema operacional. Depois de obter essa permissão, os aplicativos devem solicitar ao usuário a aprovação explícita para usar o recurso de Controle de Computador. Essa aprovação pode ser válida para uma única sessão ou para todas as futuras. Além disso, a segurança do Gemini para esse tipo de função também é reforçada.

Na prática, isso significa que apenas alguns aplicativos selecionados, confiáveis pelo Google ou pelo fabricante do seu dispositivo, terão acesso à estrutura de Controle de computador Android. Aplicativos comuns não conseguirão iniciar e controlar outros apps em segundo plano sem o seu conhecimento. Esta é uma medida de segurança importante para proteger a privacidade e os dados do usuário.

Aplicações Potenciais do Controle de Computador Android

Embora a estrutura de Controle de Computador seja claramente projetada para permitir que clientes confiáveis analisem dados da tela e automatizem tarefas, ainda há muitos detalhes desconhecidos. Por exemplo, como exatamente esses clientes controlarão os aplicativos?

Será que o “computador” em “Controle de Computador” se refere literalmente a um PC? Isso sugeriria que o Google planeja transmitir aplicativos para um PC ou servidor remoto para automação. Essa abordagem seria parecida com o funcionamento do Rabbit R1, onde os aplicativos rodavam nos servidores da Rabbit.

Ou a palavra “computador” se refere a um “robô” em um sentido mais geral? Nesse caso, um modelo de IA no próprio dispositivo analisaria a tela e executaria as ações localmente. A primeira opção parece mais provável, dada a arquitetura da estrutura e onde o código está. No entanto, a segunda também é possível ao usar um modelo multimodal como o Gemini Nano. Esta abordagem seria mais privada, mas exigiria mais memória e bateria do aparelho. De qualquer forma, o Google continua aprimorando a experiência, como mostram os avanços no Pixel 11.

Estamos ansiosos para ver o Google construir uma estrutura adequada para a verdadeira IA agentiva no Android. O recurso de Controle de computador Android abre portas para a automação completa de seus aplicativos. Isso é significativo, pois pode não apenas economizar tempo, mas também melhorar drasticamente a acessibilidade para muitos usuários. Desenvolvimentos em protótipos como este mostram a ambição da empresa.

Claro, os agentes de IA nem sempre acertarão. Por isso, o Google provavelmente incluiu a capacidade de espelhar a automação em uma tela interativa. Assim, os usuários podem supervisionar o processo e fazer ajustes se necessário. É um passo importante para um futuro onde a tecnologia realmente nos ajuda no dia a dia. Outras empresas, como a Samsung, também estão sempre de olho nas novidades para seu ecossistema, como as mudanças da One UI demonstram.

Nossa compreensão sobre essa funcionalidade vem da análise do código na versão mais recente do Android (Android 16 QPR2 Beta 2). Pode ser que alguns detalhes tenham passado despercebidos. Ainda não sabemos quando o Google planeja lançar oficialmente essa novidade. Se surgirem mais informações sobre o Controle de Computador, certamente manteremos você atualizado!

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.