Microsoft lança OmniParser V2 que lê telas de computador

Descubra como o OmniParser V2 transforma a leitura de telas de computador e navegador.
Atualizado há 3 dias
OmniParser da Microsoft

Outros destaques

Teste do Android 16
Novos produtos da Apple
One UI 7 Beta
Oppo Find N5
M4 Pro MacBook Pro

A OmniParser da Microsoft acaba de lançar uma ferramenta que permite que qualquer LLM (Large Language Model) funcione como um agente, controlando tanto o computador do usuário Windows quanto o navegador. Imagine poder simplesmente descrever o que você quer e ter um assistente virtual executando a tarefa!

CONTINUA DEPOIS DA PUBLICIDADE

O OmniParser transforma capturas de tela da interface do usuário em elementos estruturados, interpretáveis por LLMs. Ele analisa a tela e converte as capturas da interface em elementos que permitem aos modelos de linguagem prever a próxima ação, baseando-se em elementos interativos previamente analisados.

Segundo a Microsoft, o OmniParser V2 é mais preciso na detecção de pequenos elementos interativos na tela e oferece uma inferência mais rápida. Isso o torna uma ferramenta poderosa para a automação de interfaces gráficas de usuário (GUI).

Exemplos práticos do OmniParser da Microsoft

Em um dos vídeos de demonstração, o agente de IA acessa o navegador e compra leite. Em outro exemplo, ele clona um repositório do GitHub via navegador. Além disso, o agente consegue verificar o espaço em disco do computador e checar atualizações do Windows, tudo de forma autônoma.

Outro vídeo mostra o agente convertendo a interface de usuário em “caixas”, identificando-as com rótulos e reconhecendo o código. Essa capacidade de análise detalhada abre um leque de possibilidades para a automação de tarefas complexas.

Leia também:

CONTINUA DEPOIS DA PUBLICIDADE

O OmniParser V2 foi treinado com um conjunto de dados maior para a detecção de elementos interativos e para a legendagem funcional de ícones. Ao reduzir o tamanho da imagem do modelo de legendagem de ícones, o OmniParser V2 diminui a latência em 60% em relação à versão anterior.

A combinação de OmniParser com GPT-4o alcançou uma precisão média de ponta de 39,6 em um novo benchmark de ancoragem, o ScreenSpot Pro, que apresenta telas de alta resolução e ícones-alvo minúsculos. Isso representa uma melhoria substancial em relação à pontuação original do GPT-4o, que era de 0,8.

O OmniParser pode ser utilizado com diversos LLMs, como OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) e Anthropic (Sonnet), combinando as etapas de compreensão de tela, ancoragem, planejamento de ações e execução.

Mitigação de Riscos

A Microsoft implementou medidas de mitigação de riscos, treinando o modelo de legendagem de ícones com dados de IA Responsável. Isso ajuda a evitar que o modelo infira atributos sensíveis, como raça ou religião, de indivíduos que apareçam em imagens de ícones.

Além disso, a empresa incentiva os usuários a aplicar o OmniParser da Microsoft apenas em capturas de tela que não contenham conteúdo prejudicial e recomenda a supervisão humana para mitigar os riscos. É fundamental garantir que a ferramenta seja utilizada de forma ética e responsável.

CONTINUA DEPOIS DA PUBLICIDADE

Disponibilidade

Para incentivar pesquisas sobre a criação de agentes que possam operar em diferentes aplicativos e ambientes, a Microsoft disponibilizou o OmniParser publicamente no GitHub, juntamente com um relatório sobre o procedimento de treinamento. Essa iniciativa visa impulsionar o desenvolvimento de novas soluções e aprimorar a tecnologia.

Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.

Via Mobile Time

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.