GPT-4.5 supera humanos em teste de Turing, revela estudo

Estudo mostra que o GPT-4.5 conseguiu enganar 73% dos participantes em um teste de Turing, superando humanos.
Atualizado há 1 dia
GPT-4.5 supera humanos em teste de Turing, revela estudo
GPT-4.5 supera humanos ao enganar 73% em teste de Turing. (Imagem/Reprodução: Tecmundo)
Resumo da notícia
    • O GPT-4.5 da OpenAI enganou 73% dos participantes em um teste de Turing, superando a capacidade humana de comunicação.
    • Você pode se deparar com IAs mais convincentes em serviços de atendimento e suporte, aumentando a automação.
    • O avanço da IA pode facilitar golpes virtuais e manipulação de informações, exigindo maior atenção dos usuários.
    • O estudo também revelou que modelos mais antigos, como o Eliza, ainda podem ser mais eficazes em certos contextos.
CONTINUA DEPOIS DA PUBLICIDADE

Um estudo da Universidade da Califórnia em San Diego revelou que o modelo GPT-4.5 da OpenAI conseguiu enganar participantes ao simular conversas humanas, alcançando altas taxas de sucesso no Teste de Turing. A pesquisa comparou o desempenho com outras inteligências artificiais, como GPT-4o, Llama 3.1-405B e o antigo chatbot Eliza, revelando diferenças marcantes na capacidade de se passar por humanos.

Como o estudo avaliou o GPT-4.5 no Teste de Turing

Os pesquisadores criaram um experimento baseado na proposta do matemático Alan Turing, utilizada desde 1950 para avaliar se uma máquina consegue se passar por humano durante uma conversa. Nesse teste, um avaliador interagia via texto com duas testemunhas: um humano real e uma IA. O desafio era adivinhar qual dos dois era o sistema automatizado.

No total, participaram 300 voluntários. A equipe aplicou comandos que influenciavam o comportamento dos modelos, como “persona” e “no-persona”. O modo persona simulava personalidades específicas — como um jovem conectado à cultura e à internet —, enquanto o modo no-persona mantinha a IA neutra e menos caracterizada.

O resultado informou que o GPT-4.5 conseguiu enganar o avaliador em 73% das vezes ao usar a persona, percentualmente muito acima do esperado em decisões aleatórias, que seria de 50%. Segundo os autores, isso demonstra como o modelo pode soar ainda mais humano que as próprias pessoas em conversas curtas e específicas.

Os números reforçaram a importância de compreender o avanço acelerado dessas tecnologias. Recentemente, a Agência Nacional de Telecomunicações também debateu antecipar regras regulatórias para o uso de inteligência artificial, como citado em discussões específicas do setor.

CONTINUA DEPOIS DA PUBLICIDADE

Leia também:

Desempenho dos demais modelos e efeitos práticos

Quando orientado pelo modo no-persona, o GPT-4.5 teve uma queda na sua habilidade de enganar, acertando apenas em 36% dos casos. Mesmo assim, ainda desempenhou melhor que o GPT-4o, limitado apenas ao modo no-persona, que conseguiu confundir os avaliadores em 21% das conversas feitas pelo experimento.

Surpreendentemente, o clássico Eliza, desenvolvido nos anos 1960 como um dos primeiros chatbots da história, ultrapassou o GPT-4o com sucesso de 23%. A diferença mostra que, dependendo do contexto e das instruções dadas, nem sempre o modelo mais recente aparenta ser o mais próximo da comunicação humana.

Já o Llama 3.1 teve desempenho também inferior ao GPT-4.5, reforçando o domínio do modelo da OpenAI nesse cenário. Os pesquisadores destacaram que, se as pessoas treinarem melhor sua percepção, a identificação das IA tende a melhorar, tornando o engano cada vez mais difícil.

O estudo foi divulgado na plataforma arXiv e aguarda revisão por pares, mas estimulou reflexões sobre uso responsável, limites éticos e impactos socioeconômicos, inclusive para evitar riscos em golpes baseados em engenharia social.

Efeitos sociais e futuros desafios para sistemas validados em Teste de Turing

Os pesquisadores afirmaram que o alto índice de sucesso do GPT-4.5 pode impulsionar o uso dessas soluções em tarefas de comunicação, suporte técnico e automação, reduzindo gradativamente a necessidade do contato humano em cenários rotineiros. Mas também alertam para o surgimento de golpes virtuais e manipulação de informações pela semelhança das respostas geradas.

CONTINUA DEPOIS DA PUBLICIDADE

Segundo Cameron Jones, especialista da equipe, quanto mais essas tecnologias ficarem populares, mais fácil será criar mensagens que enganam pessoas ao simular linguagem natural, o que amplia a importância de se conhecer os limites e práticas do setor de IA. A familiaridade com chatbots pode ajudar os usuários a distinguir humanos de algoritmos no futuro.

Os resultados reforçam que a IA já consegue superar vários limite anteriores e ser confundida com facilidade. Por isso, discussões sobre ética tecnológica, transparência e combate a fraudes ganham peso, principalmente onde há influência da automação em substituição a atividades que exigiriam avaliação humana cuidadosa.

Esses dados dialogam com preocupações relatadas por especialistas sobre o equilíbrio entre o foco humano e o crescimento da IA no cotidiano, como aparece em análises recentes do mercado.

Fica claro que o desenvolvimento de modelos cada vez mais convincentes para conversas automáticas impõe desafios tanto para as relações digitais como para a regulação legal, educação tecnológica da população e criação de mecanismos claros de identificação do que é gerado por sistemas e do que é genuinamente humano.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.