A nova onda de agentes de browser-use agents com inteligência artificial promete transformar a forma como as empresas interagem com a web. Esses agentes conseguem navegar em sites de forma autônoma, recuperar informações e até completar transações. No entanto, os primeiros testes revelam diferenças significativas entre o que é prometido e o desempenho real.
Enquanto os exemplos de uso para o consumidor oferecidos pelo novo agente Operator da OpenAI, como pedir pizza ou comprar ingressos para jogos, ganham destaque, a questão principal é onde estão os casos de uso para desenvolvedores e empresas. Sam Witteveen, cofundador da Red Dragon, empresa que desenvolve aplicativos de agentes de IA, questiona qual será o aplicativo matador. A aposta é que serão tarefas demoradas na web que ninguém gosta de fazer, como buscar o preço mais barato de um produto ou reservar as melhores acomodações em hotéis.
É provável que essa tecnologia seja usada em conjunto com outras ferramentas, como a Deep Research, permitindo que as empresas realizem pesquisas mais sofisticadas e executem tarefas na web. As empresas precisam avaliar cuidadosamente este cenário em rápida evolução, onde grandes empresas e startups adotam abordagens diferentes para resolver o desafio da navegação autônoma.
Principais Players no Cenário dos Browser-use agents
O mercado de agentes de uso do navegador está cada vez mais cheio de grandes empresas de tecnologia e startups inovadoras. Confira alguns dos principais nomes:
- Operator da OpenAI (lançado em janeiro de 2025): Disponível para assinantes do ChatGPT Pro (US$ 200/mês), focado na automação web amigável ao consumidor.
- Proxy da Convergence (lançado em dezembro de 2024): Uma startup do Reino Unido que oferece uso limitado gratuito (5 sessões/dia) ou acesso ilimitado por US$ 20/mês.
- Project Mariner do Google: Atualmente em testes de visualização com uma lista de espera para acesso.
- Computer Use da Anthropic (lançado em outubro de 2024): Espera-se que lance uma atualização em breve.
- OmniParser V2 da Microsoft (fevereiro de 2025): Um projeto de código aberto para converter capturas de tela da interface do usuário em dados estruturados, permitindo que os LLMs interpretem e interajam com os sites.
- UI-TARS da ByteDance: Requer acesso mais profundo ao sistema, levantando potenciais preocupações de segurança.
- Browser-Use: Uma ferramenta focada no desenvolvedor, permitindo a escolha de modelos de IA, incluindo o Gemini 2.0 Flash do Google.
Operator e Proxy são os mais avançados em termos de facilidade de uso e prontidão imediata. Muitos dos outros parecem estar se posicionando mais para uso de desenvolvedores ou empresas. Por exemplo, Browser Use, uma startup da Y-Combinator, permite que os usuários personalizem os modelos usados com o agente. Isso oferece mais controle sobre como o agente funciona, incluindo o uso de um modelo da sua máquina local. Mas é definitivamente mais complexo.
Leia também:
Os outros listados acima fornecem um grau variado de funcionalidade e interação com os recursos da máquina local. Decidi nem mesmo testar o UI-TARS da ByteDance por enquanto, porque ele solicitou acesso de nível inferior aos recursos de segurança e privacidade da minha máquina (se eu testar, definitivamente usarei um computador secundário).
Testes Revelam Desafios de Raciocínio dos Browser-use agents
Os mais fáceis de testar são o Operator da OpenAI e o Proxy da Convergence. Nossos testes mostraram como as capacidades de raciocínio podem ser mais importantes do que os recursos de automação brutos. O Operator, em particular, apresentou mais erros.
Por exemplo, pedi aos agentes que encontrassem e resumissem as cinco histórias mais populares da VentureBeat. Era uma tarefa ambígua, porque a VentureBeat não tem uma seção de “mais populares” per se. O Operator teve dificuldades com isso. Primeiro, ele caiu em um loop de rolagem infinito enquanto procurava por histórias “mais populares”, exigindo intervenção manual. Em outra tentativa, ele encontrou um artigo de três anos atrás intitulado “Top cinco histórias da semana”.
Em contraste, o Proxy demonstrou melhor raciocínio ao identificar as cinco histórias mais visíveis na página inicial como uma aproximação prática da popularidade, e forneceu resumos precisos. A distinção ficou ainda mais clara em tarefas do mundo real. Pedi aos agentes que fizessem uma reserva em um restaurante romântico para o meio-dia em Napa, Califórnia.
O Operator abordou a tarefa linearmente — encontrando um restaurante romântico primeiro, depois verificando a disponibilidade ao meio-dia. Quando não havia mesas disponíveis, chegou a um beco sem saída. O Proxy mostrou um raciocínio mais sofisticado, começando com o OpenTable para encontrar restaurantes que fossem românticos e disponíveis no horário desejado. Ele até voltou com um restaurante ligeiramente melhor avaliado. Até mesmo tarefas aparentemente simples revelaram diferenças importantes. Ao pesquisar por um “preço do YubiKey 5C NFC” na Amazon, o Proxy encontrou o item mais rapidamente do que o Operator.
A OpenAI não divulgou muito sobre as tecnologias que usa para treinar seu agente Operator, além de dizer que treinou seu modelo em tarefas de uso do navegador. A Convergence, no entanto, forneceu mais detalhes: seu agente usa algo chamado Generative Tree Search para “aproveitar os Web-World Models que preveem o estado da web após uma ação proposta ter sido tomada. Estes são gerados recursivamente para produzir uma árvore de futuros possíveis que são pesquisados para selecionar a próxima ação ideal, classificada por nossos modelos de valor. Nossos modelos Web-World também podem ser usados para treinar agentes em situações hipotéticas sem gerar muitos dados caros”.
Benchmarks Atuais dos Browser-use agents
No papel, essas ferramentas parecem muito parecidas. O Proxy da Convergence atinge 88% no benchmark WebVoyager, que avalia agentes da web em 643 tarefas do mundo real em 15 sites populares como Amazon e Booking.com. O Operator da OpenAI marca 87%, enquanto o Browser-Use diz que atinge 89%, mas apenas depois de mudar ligeiramente o código-fonte do WebVoyager, admitiu, “de acordo com nossas necessidades”.
Essas pontuações de benchmark devem ser levadas com cautela, pois podem ser manipuladas. O verdadeiro teste vem no uso prático para casos do mundo real. É muito cedo, o espaço está mudando rapidamente e esses produtos estão mudando quase diariamente. Os resultados dependerão mais dos trabalhos específicos que você está tentando fazer, e você pode querer, em vez disso, confiar nas vibrações que você recebe ao usar os diferentes produtos.
Implicações Empresariais
As implicações para a automação empresarial são significativas. Muitas empresas estão pagando por assistentes virtuais – operados por pessoas reais – para lidar com tarefas básicas de pesquisa na web e coleta de dados. Esses agentes de uso do navegador poderiam mudar drasticamente essa equação.
“Se a IA assumir isso”, observa Witteveen, “esse será um dos primeiros frutos fáceis de pessoas perdendo seus empregos. Vai aparecer em alguns desses tipos de coisas.” Isso poderia alimentar a tendência de automação de processos robóticos (RPA), onde o uso do navegador é puxado como apenas mais uma ferramenta para as empresas automatizarem mais tarefas. E, como mencionado anteriormente, os casos de uso mais poderosos serão quando um agente combinar o uso do navegador com outras ferramentas, incluindo coisas como Deep Research, onde um agente LLM-driven usa uma ferramenta de busca mais o uso do navegador para fazer trabalhos mais sofisticados.
Outro fator chave que impulsiona o rápido desenvolvimento é a disponibilidade de modelos de raciocínio de código aberto poderosos como o DeepSeek-R1. Isso permite que as empresas que constroem esses agentes de uso do navegador competam efetivamente com jogadores maiores, aproveitando esses modelos em vez de construir os seus próprios.
A pressão de preços já é evidente. Enquanto a OpenAI exige uma assinatura ChatGPT Pro de US$ 200 por mês para acessar o Operator, a Convergence oferece uso gratuito limitado (até cinco usos por dia) e um plano ilimitado de US$ 20/mês. Essa dinâmica competitiva deve acelerar a adoção empresarial, embora casos de uso claros ainda estejam surgindo.
Várias barreiras permanecem antes da adoção empresarial generalizada. Alguns sites bloqueiam ativamente a navegação automatizada, enquanto outros exigem verificação CAPTCHA. Embora a OpenAI e a Convergence tenham ferramentas que podem passar pelos CAPTCHAs, elas permitem que os usuários assumam a tarefa de preenchê-los — em vez de fazê-los diretamente, já que o objetivo dos CAPTCHAs é garantir que um humano esteja do outro lado. Ferramentas como o UI-TARS da ByteDance solicitam acesso profundo ao sistema, o que levanta preocupações de segurança para a implantação empresarial.
Além disso, a abordagem à cooperação do site varia. A OpenAI trabalhou com parceiros específicos como Instacart, Priceline, DoorDash e Etsy, enquanto outros tentam navegar em qualquer site. Essa inconsistência pode impactar a confiabilidade para casos de uso empresarial. E, claro, sempre que um agente atinge um site que requer detalhes de login, isso vai diminuir as coisas — já que os agentes entregarão as coisas para você preencher esses detalhes.
Perspectivas Futuras sobre Browser-use agents
Para as empresas que avaliam essas ferramentas, o foco deve estar em casos de uso específicos onde a interação autônoma na web possa fornecer valor claro – seja em pesquisa, atendimento ao cliente ou automação de processos. A tecnologia está progredindo rapidamente, mas o sucesso dependerá da correspondência das capacidades às necessidades concretas de negócios.
À medida que este espaço evolui, espere ver mais recursos focados na empresa e potencialmente agentes especializados para indústrias ou tarefas específicas. A corrida entre jogadores estabelecidos e startups inovadoras deve impulsionar tanto o avanço técnico quanto a precificação competitiva, tornando 2025 um ano crucial para a adoção de agentes de uso do navegador empresarial.
Para mais detalhes sobre essas tendências e resultados de testes, confira a conversa completa em vídeo entre Sam Witteveen e o autor do artigo original.
Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.
Via VentureBeat