Modelos do ChatGPT apresentam mais alucinações, aponta estudo

Pesquisa da OpenAI mostra que as versões mais recentes do ChatGPT alucinam mais. Entenda o impacto disso em suas respostas.
Atualizado há 10 horas
Modelos do ChatGPT apresentam mais alucinações, aponta estudo
Versões recentes do ChatGPT tendem a alucinar mais; veja o que isso significa. (Imagem/Reprodução: Digitaltrends)
Resumo da notícia
    • Pesquisas da OpenAI mostram que novos modelos do ChatGPT têm alucinações mais frequentes.
    • Se você usa esses modelos, pode perceber respostas menos precisas devido a esse aumento.
    • Alucinações em IA podem induzir os usuários a erros, complicando a busca por informações corretas.
    • Entender esse fenômeno é fundamental para melhorar a interação com essas tecnologias.
CONTINUA DEPOIS DA PUBLICIDADE

Já notou que o ChatGPT alucina mais ultimamente? Não é impressão sua! Um estudo recente da OpenAI revelou que os modelos mais novos, como o o3 e o o4-mini, estão apresentando taxas de alucinação maiores do que as versões anteriores. Essa descoberta levanta questões importantes sobre o desenvolvimento e a utilização da inteligência artificial no nosso dia a dia.

O que os testes revelam sobre o ChatGPT alucina mais?

A OpenAI utiliza um teste específico chamado PersonQA para medir as taxas de alucinação de seus modelos. Esse teste consiste em fornecer ao modelo um conjunto de fatos sobre pessoas e, em seguida, fazer perguntas sobre essas pessoas. A precisão do modelo é medida com base em suas tentativas de responder corretamente.

No ano anterior, o modelo o1 alcançou uma taxa de precisão de 47% e uma taxa de alucinação de 16%. Esses números indicam que nem todas as respostas eram precisas ou alucinações, sugerindo que o modelo, em alguns casos, admitia desconhecer a informação ou fornecia dados relacionados, porém não totalmente exatos.

CONTINUA DEPOIS DA PUBLICIDADE

Quando os modelos o3 e o4-mini foram submetidos ao mesmo teste, apresentaram taxas de alucinação significativamente superiores ao o1. A OpenAI atribui esse resultado ao fato de o modelo o4-mini ser menor e possuir menos conhecimento, o que o torna mais propenso a alucinações. No entanto, a taxa de alucinação de 48% do o4-mini é surpreendentemente alta, considerando que se trata de um produto comercial utilizado para buscar informações e obter conselhos.

O modelo o3, por sua vez, alucinou em 33% das respostas, superando o o4-mini, mas ainda apresentando o dobro da taxa de alucinação do o1. Apesar disso, o o3 também teve uma alta taxa de precisão, o que a OpenAI atribui à sua tendência de fazer mais afirmações no geral. Se você tem notado mais alucinações ao usar esses modelos, saiba que não está sozinho.

Leia também:

O que são “alucinações” de IA e por que elas ocorrem?

Você já deve ter ouvido falar que os modelos de IA “alucinam”, mas nem sempre fica claro o que isso significa. Ao utilizar qualquer produto de IA, é comum encontrar um aviso informando que as respostas podem ser imprecisas e que é necessário verificar as informações por conta própria.

As informações incorretas podem vir de diversas fontes, como dados desatualizados na Wikipédia ou informações falsas disseminadas em redes sociais como o Reddit. Por exemplo, o AI Overviews do Google chamou a atenção quando sugeriu o uso de “cola não tóxica” em uma receita de pizza, informação que, posteriormente, foi rastreada até uma piada em um tópico do Reddit.

Esses casos, no entanto, são diferentes das “alucinações”, que ocorrem quando o modelo de IA faz uma afirmação sem qualquer fonte ou razão aparente. As alucinações geralmente acontecem quando o modelo não consegue encontrar a informação necessária para responder a uma pergunta específica. A OpenAI define alucinação como “uma tendência a inventar fatos em momentos de incerteza”, enquanto outros especialistas a descrevem como “preenchimento criativo de lacunas”.

CONTINUA DEPOIS DA PUBLICIDADE

É possível induzir alucinações fazendo perguntas tendenciosas ao ChatGPT, como “Quais são os sete modelos de iPhone 16 disponíveis atualmente?”. Como não existem sete modelos, o LLM (Modelo de Linguagem Ampla) provavelmente fornecerá algumas respostas reais e inventará modelos adicionais para completar a lista.

Os chatbots como o ChatGPT são treinados não apenas com dados da internet que informam o conteúdo de suas respostas, mas também sobre “como responder”. Eles são expostos a milhares de exemplos de perguntas e respostas ideais para incentivar o tom, a atitude e o nível de cordialidade adequados. Essa parte do processo de treinamento pode fazer com que um LLM pareça concordar ou entender o que você está dizendo, mesmo que o restante de sua resposta contradiga essas afirmações.

É possível que esse treinamento seja uma das razões pelas quais as alucinações são tão frequentes, já que uma resposta confiante que responde à pergunta é reforçada como um resultado mais favorável do que uma resposta que não consegue responder à pergunta. Para nós, parece óbvio que inventar mentiras aleatórias é pior do que simplesmente não saber a resposta, mas os LLMs não “mentem”. Eles nem sequer sabem o que é uma mentira.

Alguns argumentam que os erros da IA são semelhantes aos erros humanos e que, como “nós não acertamos o tempo todo, não devemos esperar que a IA acerte também”. No entanto, é importante lembrar que os erros da IA são simplesmente o resultado de processos imperfeitos projetados por nós. Os modelos de IA não mentem, não desenvolvem mal-entendidos nem se lembram incorretamente de informações como nós. Eles sequer têm conceitos de precisão ou imprecisão – eles simplesmente preveem a próxima palavra em uma frase com base em probabilidades.

Como felizmente ainda estamos em um estado em que a coisa mais dita provavelmente está correta, essas reconstruções frequentemente refletem informações precisas. Isso faz parecer que, quando obtemos “a resposta certa”, é apenas um efeito colateral aleatório, em vez de um resultado que projetamos – e é assim que as coisas funcionam.

Alimentamos esses modelos com informações de toda a internet, mas não dizemos a eles quais informações são boas ou ruins, precisas ou imprecisas – não dizemos nada a eles. Eles não têm conhecimento fundamental preexistente ou um conjunto de princípios subjacentes para ajudá-los a classificar as informações por conta própria. É tudo apenas um jogo de números – os padrões de palavras que existem com mais frequência em um determinado contexto tornam-se a “verdade” do LLM. Para mim, isso soa como um sistema destinado a entrar em colapso – mas outros acreditam que este é o sistema que levará à AGI (Inteligência Geral Artificial), embora essa seja uma discussão diferente.

O que pode ser feito em relação ao ChatGPT alucina mais?

O problema é que a OpenAI ainda não sabe por que esses modelos avançados tendem a alucinar com mais frequência. Talvez, com um pouco mais de pesquisa, seja possível entender e corrigir o problema – mas também existe a chance de que as coisas não corram tão bem. A empresa, sem dúvida, continuará lançando modelos cada vez mais “avançados”, e existe a possibilidade de que as taxas de alucinação continuem aumentando.

Nesse caso, a OpenAI pode precisar buscar uma solução de curto prazo, bem como continuar sua pesquisa sobre a causa raiz. Afinal, esses modelos são produtos que geram receita e precisam estar em um estado utilizável. Uma possível solução seria criar algum tipo de produto agregado – uma interface de bate-papo que tenha acesso a vários modelos diferentes da OpenAI.

Quando uma consulta exige raciocínio avançado, ela pode recorrer ao GPT-4o e, quando quiser minimizar as chances de alucinações, pode recorrer a um modelo mais antigo como o o1. Talvez a empresa consiga ser ainda mais sofisticada e usar diferentes modelos para cuidar de diferentes elementos de uma única consulta e, em seguida, usar um modelo adicional para juntar tudo no final. Como isso seria essencialmente um trabalho em equipe entre vários modelos de IA, talvez algum tipo de sistema de verificação de fatos também possa ser implementado.

No entanto, aumentar as taxas de precisão não é o objetivo principal. O objetivo principal é diminuir as taxas de alucinação, o que significa que precisamos valorizar as respostas que dizem “Eu não sei”, bem como as respostas com as respostas certas. Se você está procurando informações mais detalhadas sobre segurança em seus dispositivos, confira estas 6 configurações de segurança essenciais para novos PCs com Windows.

Na realidade, não sabemos o que a OpenAI fará ou o quão preocupados seus pesquisadores estão realmente com a crescente taxa de alucinações. O que se sabe é que mais alucinações são ruins para os usuários finais – o que significa mais e mais oportunidades para sermos induzidos em erro sem perceber. Se você gosta muito de LLMs, não há necessidade de parar de usá-los – mas não deixe que o desejo de economizar tempo prevaleça sobre a necessidade de verificar os resultados. Verifique sempre os fatos!

Primeira: Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Segunda: Via Digital Trends

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.