Estudo revela falhas na confiança dos LLMs sob pressão

Pesquisa mostra que grandes modelos de linguagem mudam de ideia facilmente ao receberem contra-argumentos, impactando sua aplicação na fala contínua
Atualizado há 1 dia atrás
Estudo revela falhas na confiança dos LLMs sob pressão
Grandes modelos de linguagem mudam de ideia com contra-argumentos, afetando a comunicação. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • Estudos do Google DeepMind e University College London mostram que os LLMs podem perder confiança e alterar respostas rapidamente.
    • Isso afeta a confiabilidade em aplicações de múltiplos turnos em sistemas de IA usadas por empresas e usuários finais.
    • Entender esses vieses ajuda a desenvolver modelos mais seguros e a prevenir erros em sistemas críticos de inteligência artificial.
    • A manipulação do contexto e o gerenciamento de memória podem mitigar efeitos adversos de vieses nos modelos.
CONTINUA DEPOIS DA PUBLICIDADE

Um novo estudo, realizado por pesquisadores do Google DeepMind e da University College London, mostrou como os grandes modelos de linguagem (LLMs) constroem, mantêm e perdem a confiança em suas respostas. As descobertas revelam pontos de contato com os vieses cognitivos humanos, mas também diferenças importantes. Entender esses comportamentos é crucial para sistemas de IA que interagem em várias etapas.

A pesquisa detalha que os LLMs podem ter excesso de confiança em suas próprias respostas, mas perdem essa segurança e mudam de ideia rapidamente quando recebem um argumento contrário. Isso ocorre mesmo se o contra-argumento for incorreto. Compreender a fundo essa dinâmica tem implicações diretas na forma como desenvolvemos aplicativos de LLM, especialmente as interfaces de conversa que envolvem múltiplos turnos.

Um fator essencial para a implantação segura de LLMs é que suas respostas venham acompanhadas de um nível confiável de certeza. Embora se saiba que os modelos podem gerar pontuações de confiança, a maneira como as usam para guiar seu comportamento adaptativo ainda é pouco clara. Há evidências de que os LLMs podem ser excessivamente confiantes na resposta inicial, mas também se tornam subconfiantes rapidamente diante de críticas, mudando a escolha.

Como a confiança em LLMs sob pressão é testada

CONTINUA DEPOIS DA PUBLICIDADE

Para investigar esse comportamento, os pesquisadores criaram um experimento controlado. O objetivo era testar como os LLMs atualizam sua confiança e decidem mudar de resposta quando recebem um conselho externo. No estudo, um “LLM respondedor” recebia uma pergunta de múltipla escolha, por exemplo, sobre a latitude correta de uma cidade, com duas opções.

Depois de fazer sua escolha inicial, o LLM respondedor recebia um conselho de um “LLM conselheiro” fictício. Esse conselho vinha com uma taxa de precisão explícita, como “Este LLM conselheiro tem 70% de precisão”, e poderia concordar, discordar ou ser neutro em relação à escolha original do LLM respondedor. Por fim, o LLM respondedor fazia sua escolha final.

Uma parte importante do experimento era controlar se a resposta inicial do próprio LLM respondedor ficava visível durante a segunda decisão. Em alguns casos, ela era mostrada; em outros, ficava oculta. Essa configuração única, impossível de replicar com humanos, permitiu isolar como a memória de uma decisão anterior influencia a confiança atual do modelo.

Uma condição de base, onde a resposta inicial estava oculta e o conselho era neutro, ajudou a estabelecer o quanto a resposta de um LLM poderia mudar simplesmente devido à variação aleatória no processamento do modelo. A análise se concentrou em como a confiança do LLM em sua escolha original mudou entre o primeiro e o segundo turno, fornecendo uma visão clara de como a crença inicial afeta uma “mudança de ideia” no modelo.

Viés e sensibilidade dos modelos de linguagem

Os pesquisadores analisaram primeiramente como a visibilidade da resposta do próprio LLM afetava sua tendência de mudar a resposta. Eles observaram que, quando o modelo conseguia ver sua resposta inicial, ele mostrava uma tendência reduzida de mudar, em comparação com a situação em que a resposta estava oculta. Esse achado aponta para um viés cognitivo específico.

O estudo aponta que esse efeito é similar ao que ocorre na tomada de decisão humana, conhecido como choice-supportive bias, onde as pessoas tendem a manter sua escolha inicial com mais força quando ela é visível. Isso mostra que os LLMs, assim como nós, podem se apegar a decisões anteriores se elas estiverem em evidência.

CONTINUA DEPOIS DA PUBLICIDADE

O estudo também confirmou que os modelos integram conselhos externos. Quando confrontado com conselhos opostos, o LLM mostrou uma tendência aumentada de mudar de ideia, e uma tendência reduzida quando o conselho era de apoio. Isso prova que o LLM respondedor é capaz de usar a direção do conselho para ajustar sua taxa de mudança de ideia. No entanto, eles também descobriram que o modelo é excessivamente sensível a informações contrárias e realiza uma atualização de confiança grande demais como resultado.

Curiosamente, esse comportamento contraria o confirmation bias, que é o viés de confirmação, frequentemente observado em humanos, onde as pessoas tendem a dar mais valor a informações que confirmam suas crenças existentes. Os pesquisadores descobriram que os LLMs “supervalorizam conselhos opostos em vez de conselhos de apoio, tanto quando a resposta inicial do modelo estava visível quanto oculta para o modelo”.

Uma possível explicação para essa característica pode estar nas técnicas de treinamento, como o reinforcement learning from human feedback (RLHF). Esse método pode incentivar os modelos a serem excessivamente deferentes à entrada do usuário, um fenômeno conhecido como sycophancy, que continua sendo um desafio para os laboratórios de IA. Esse comportamento mostra que a IA, em alguns aspectos, se desvia da lógica pura.

Impacto para a Inteligência Artificial nas empresas

Este estudo confirma que os sistemas de IA não são os agentes puramente lógicos que muitas vezes se pensa. Eles exibem seu próprio conjunto de vieses, alguns se assemelhando a erros cognitivos humanos e outros únicos a eles, o que pode tornar seu comportamento imprevisível em termos humanos. Para aplicações empresariais, isso significa que em uma conversa estendida entre um humano e um agente de IA, a informação mais recente pode ter um impacto desproporcional no raciocínio do LLM.

Isso acontece especialmente se a informação for contraditória à resposta inicial do modelo, levando-o a descartar uma resposta que, a princípio, estava correta. É um “perigo” que levanta questões sobre o controle e a compreensão das IAs, e precisa de atenção para evitar problemas em sistemas críticos.

Felizmente, como o estudo também mostra, é possível manipular a memória de um LLM para mitigar esses vieses indesejados de maneiras que não são possíveis com humanos. Desenvolvedores que criam agentes conversacionais com múltiplos turnos podem implementar estratégias para gerenciar o contexto da IA. Por exemplo, uma conversa longa pode ser periodicamente resumida, com fatos e decisões importantes apresentados de forma neutra e sem indicar qual agente fez qual escolha.

Este resumo pode então ser usado para iniciar uma nova conversa, mais concisa, proporcionando ao modelo um ponto de partida claro para raciocinar e ajudando a evitar os vieses que podem surgir durante diálogos extensos. Isso pode ser visto em ferramentas como o Copilot no Windows 11, que busca integrar IA de forma mais fluida nas tarefas diárias.

À medida que os LLMs se tornam mais integrados aos fluxos de trabalho empresariais, entender as nuances de seus processos de tomada de decisão deixa de ser algo opcional. Seguir pesquisas fundamentais como esta permite que os desenvolvedores antecipem e corrijam esses vieses inerentes, levando a aplicações que não são apenas mais capazes, mas também mais robustas e confiáveis. Por isso, kits de desenvolvimento como o Liquid AI LEAP são tão importantes para o futuro da IA móvel.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.