▲
- A Era da Experiência marcará uma nova fase do aprendizado de máquina.
- Essa mudança permite que a IA aprenda autonomamente com suas interações.
- As empresas precisam se adaptar para aproveitar essas novas possibilidades de IA.
- Agentes de IA poderão atuar de forma mais autônoma e eficaz em diversos setores.
A inteligência artificial está prestes a entrar em uma nova fase, a chamada Era da experiência. Cientistas renomados como David Silver e Richard Sutton acreditam que os sistemas de IA dependerão cada vez menos de dados fornecidos por humanos e se aprimorarão interagindo com o mundo real. Essa mudança tem implicações importantes para empresas que buscam construir soluções com e para futuros agentes e sistemas de IA.
Essa nova era promete revolucionar a forma como as máquinas aprendem e interagem, abrindo caminho para avanços significativos em diversas áreas. Mas como as empresas podem se preparar para essa transformação?
David Silver, cientista sênior da DeepMind, teve um papel fundamental nas criações do AlphaGo, AlphaZero e AlphaStar, que foram grandes avanços na área de aprendizado por reforço profundo. Richard Sutton, pioneiro no aprendizado por reforço, escreveu o ensaio “The Bitter Lesson” em 2019. Ele argumenta que o maior progresso na IA vem do uso da computação em larga escala com métodos de busca e aprendizado, em vez de depender do conhecimento humano.
Os modelos de linguagem grandes (LLMs) mais modernos utilizam esses dois conceitos. Desde o GPT-3, a nova onda de LLMs tem se baseado em escalar computação e dados para internalizar grandes quantidades de conhecimento. Modelos de raciocínio recentes, como o DeepSeek-R1, mostraram que o aprendizado por reforço e um sinal de recompensa simples são suficientes para aprender habilidades complexas de raciocínio.
O que é a Era da experiência?
A Era da experiência expande os conceitos que Sutton e Silver vêm discutindo nos últimos anos, adaptando-os aos avanços recentes na IA. Segundo os autores, o progresso impulsionado apenas pelo aprendizado supervisionado a partir de dados humanos está diminuindo, indicando a necessidade de uma nova abordagem.
Leia também:
Essa nova abordagem precisa de uma nova fonte de dados, que deve ser gerada de forma que melhore continuamente à medida que o agente se torna mais forte. Sutton e Silver escrevem que isso pode ser alcançado permitindo que os agentes aprendam continuamente com sua própria experiência, ou seja, com dados gerados pela interação do agente com o ambiente. Eles argumentam que, eventualmente, a experiência se tornará o principal meio de aprimoramento e superará a escala de dados humanos usados nos sistemas atuais.
Os autores argumentam que, além de aprender com seus próprios dados experienciais, os futuros sistemas de IA “romperão as limitações dos sistemas de IA centrados no ser humano” em quatro dimensões:
- Fluxos contínuos: Em vez de trabalhar em episódios desconectados, os agentes de IA terão seu próprio fluxo de experiência que progride ao longo do tempo, como os humanos. Isso permitirá que os agentes planejem objetivos de longo prazo e se adaptem a novos padrões de comportamento ao longo do tempo. Podemos ver vislumbres disso em sistemas de IA que têm janelas de contexto muito longas e arquiteturas de memória que se atualizam continuamente com base nas interações do usuário.
- Ações e observações: Em vez de se concentrar em ações e observações privilegiadas por humanos, os agentes na Era da experiência agirão de forma autônoma no mundo real. Exemplos disso são sistemas de agentes que podem interagir com aplicativos e recursos externos por meio de ferramentas como uso de computador e Model Context Protocol (MCP).
- Recompensas: Os sistemas de aprendizado por reforço atuais dependem principalmente de funções de recompensa projetadas por humanos. No futuro, os agentes de IA devem ser capazes de projetar suas próprias funções de recompensa dinâmicas que se adaptam ao longo do tempo e correspondem às preferências do usuário com sinais do mundo real coletados das ações e observações do agente no mundo. Estamos vendo as primeiras versões de recompensas autoprojetadas com sistemas como o DrEureka da Nvidia.
- Planejamento e raciocínio: Os modelos de raciocínio atuais foram projetados para imitar o processo de pensamento humano. Os autores argumentam que “mecanismos de pensamento mais eficientes certamente existem, usando linguagens não humanas que podem, por exemplo, utilizar computações simbólicas, distribuídas, contínuas ou diferenciáveis”. Os agentes de IA devem interagir com o mundo, observar e usar dados para validar e atualizar seu processo de raciocínio e desenvolver um modelo do mundo.
A ideia de agentes de IA que se adaptam ao ambiente por meio do aprendizado por reforço não é nova. No entanto, antes, esses agentes eram limitados a ambientes muito restritos, como jogos de tabuleiro. Hoje, agentes que podem interagir com ambientes complexos (por exemplo, uso de computador por IA) e avanços no aprendizado por reforço superarão essas limitações, levando à transição para a Era da experiência.
O que isso significa para as empresas?
No artigo de Sutton e Silver, há uma observação que terá implicações importantes para aplicações no mundo real: “O agente pode usar ações e observações ‘amigáveis para humanos’, como interfaces de usuário, que naturalmente facilitam a comunicação e a colaboração com o usuário. O agente também pode realizar ações ‘amigáveis para máquinas’ que executam código e chamam APIs, permitindo que o agente atue de forma autônoma a serviço de seus objetivos.”
Isso significa que os desenvolvedores terão que construir seus aplicativos não apenas para humanos, mas também com agentes de IA em mente. Ações machine-friendly exigem a criação de APIs seguras e acessíveis que podem ser acessadas facilmente diretamente ou por meio de interfaces como o MCP. Isso também significa criar agentes que podem ser descobertos por meio de protocolos como o Agent2Agent do Google. Além disso, será necessário projetar suas APIs e interfaces de agentes para fornecer acesso a ações e observações. Isso permitirá que os agentes raciocinem gradualmente sobre suas interações com seus aplicativos e aprendam com elas.
Se a visão que Sutton e Silver apresentam se tornar realidade, em breve haverá bilhões de agentes percorrendo a web (e, em breve, o mundo físico) para realizar tarefas. Seus comportamentos e necessidades serão muito diferentes dos usuários e desenvolvedores humanos, e ter uma maneira amigável para agentes interagirem com seu aplicativo melhorará sua capacidade de aproveitar os futuros sistemas de IA (e também evitar os danos que eles podem causar). Empresas como a Claro registram crescimento e inovação, e estar preparado para essa nova era é crucial.
Sutton e Silver escrevem que, ao construir sobre os fundamentos do RL e adaptar seus princípios básicos aos desafios desta nova era, podemos desbloquear todo o potencial do aprendizado autônomo e abrir caminho para uma inteligência verdadeiramente sobre-humana.
A DeepMind não quis fazer mais comentários sobre a história.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat