A OmniParser da Microsoft acaba de lançar uma ferramenta que permite que qualquer LLM (Large Language Model) funcione como um agente, controlando tanto o computador do usuário Windows quanto o navegador. Imagine poder simplesmente descrever o que você quer e ter um assistente virtual executando a tarefa!

Acompanhe as noticias no seu WhatsAp! entre no nosso grupo

Entre agora

O OmniParser transforma capturas de tela da interface do usuário em elementos estruturados, interpretáveis por LLMs. Ele analisa a tela e converte as capturas da interface em elementos que permitem aos modelos de linguagem prever a próxima ação, baseando-se em elementos interativos previamente analisados.

Segundo a Microsoft, o OmniParser V2 é mais preciso na detecção de pequenos elementos interativos na tela e oferece uma inferência mais rápida. Isso o torna uma ferramenta poderosa para a automação de interfaces gráficas de usuário (GUI).

Exemplos práticos do OmniParser da Microsoft

Em um dos vídeos de demonstração, o agente de IA acessa o navegador e compra leite. Em outro exemplo, ele clona um repositório do GitHub via navegador. Além disso, o agente consegue verificar o espaço em disco do computador e checar atualizações do Windows, tudo de forma autônoma.

Outro vídeo mostra o agente convertendo a interface de usuário em “caixas”, identificando-as com rótulos e reconhecendo o código. Essa capacidade de análise detalhada abre um leque de possibilidades para a automação de tarefas complexas.

Mitigação de Riscos

A Microsoft implementou medidas de mitigação de riscos, treinando o modelo de legendagem de ícones com dados de IA Responsável. Isso ajuda a evitar que o modelo infira atributos sensíveis, como raça ou religião, de indivíduos que apareçam em imagens de ícones.

Além disso, a empresa incentiva os usuários a aplicar o OmniParser da Microsoft apenas em capturas de tela que não contenham conteúdo prejudicial e recomenda a supervisão humana para mitigar os riscos. É fundamental garantir que a ferramenta seja utilizada de forma ética e responsável.

Disponibilidade

Para incentivar pesquisas sobre a criação de agentes que possam operar em diferentes aplicativos e ambientes, a Microsoft disponibilizou o OmniParser publicamente no GitHub, juntamente com um relatório sobre o procedimento de treinamento. Essa iniciativa visa impulsionar o desenvolvimento de novas soluções e aprimorar a tecnologia.

Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.

Via Mobile Time

aplicativos Microsoft Microsoft Edge MIcrosoft Office Windows