▲
- O GPT-4.5 da OpenAI enganou 73% dos participantes em um teste de Turing, superando a capacidade humana de comunicação.
- Você pode se deparar com IAs mais convincentes em serviços de atendimento e suporte, aumentando a automação.
- O avanço da IA pode facilitar golpes virtuais e manipulação de informações, exigindo maior atenção dos usuários.
- O estudo também revelou que modelos mais antigos, como o Eliza, ainda podem ser mais eficazes em certos contextos.
Um estudo da Universidade da Califórnia em San Diego revelou que o modelo GPT-4.5 da OpenAI conseguiu enganar participantes ao simular conversas humanas, alcançando altas taxas de sucesso no Teste de Turing. A pesquisa comparou o desempenho com outras inteligências artificiais, como GPT-4o, Llama 3.1-405B e o antigo chatbot Eliza, revelando diferenças marcantes na capacidade de se passar por humanos.
Como o estudo avaliou o GPT-4.5 no Teste de Turing
Os pesquisadores criaram um experimento baseado na proposta do matemático Alan Turing, utilizada desde 1950 para avaliar se uma máquina consegue se passar por humano durante uma conversa. Nesse teste, um avaliador interagia via texto com duas testemunhas: um humano real e uma IA. O desafio era adivinhar qual dos dois era o sistema automatizado.
No total, participaram 300 voluntários. A equipe aplicou comandos que influenciavam o comportamento dos modelos, como “persona” e “no-persona”. O modo persona simulava personalidades específicas — como um jovem conectado à cultura e à internet —, enquanto o modo no-persona mantinha a IA neutra e menos caracterizada.
O resultado informou que o GPT-4.5 conseguiu enganar o avaliador em 73% das vezes ao usar a persona, percentualmente muito acima do esperado em decisões aleatórias, que seria de 50%. Segundo os autores, isso demonstra como o modelo pode soar ainda mais humano que as próprias pessoas em conversas curtas e específicas.
Os números reforçaram a importância de compreender o avanço acelerado dessas tecnologias. Recentemente, a Agência Nacional de Telecomunicações também debateu antecipar regras regulatórias para o uso de inteligência artificial, como citado em discussões específicas do setor.
Leia também:
Desempenho dos demais modelos e efeitos práticos
Quando orientado pelo modo no-persona, o GPT-4.5 teve uma queda na sua habilidade de enganar, acertando apenas em 36% dos casos. Mesmo assim, ainda desempenhou melhor que o GPT-4o, limitado apenas ao modo no-persona, que conseguiu confundir os avaliadores em 21% das conversas feitas pelo experimento.
Surpreendentemente, o clássico Eliza, desenvolvido nos anos 1960 como um dos primeiros chatbots da história, ultrapassou o GPT-4o com sucesso de 23%. A diferença mostra que, dependendo do contexto e das instruções dadas, nem sempre o modelo mais recente aparenta ser o mais próximo da comunicação humana.
Já o Llama 3.1 teve desempenho também inferior ao GPT-4.5, reforçando o domínio do modelo da OpenAI nesse cenário. Os pesquisadores destacaram que, se as pessoas treinarem melhor sua percepção, a identificação das IA tende a melhorar, tornando o engano cada vez mais difícil.
O estudo foi divulgado na plataforma arXiv e aguarda revisão por pares, mas estimulou reflexões sobre uso responsável, limites éticos e impactos socioeconômicos, inclusive para evitar riscos em golpes baseados em engenharia social.
Efeitos sociais e futuros desafios para sistemas validados em Teste de Turing
Os pesquisadores afirmaram que o alto índice de sucesso do GPT-4.5 pode impulsionar o uso dessas soluções em tarefas de comunicação, suporte técnico e automação, reduzindo gradativamente a necessidade do contato humano em cenários rotineiros. Mas também alertam para o surgimento de golpes virtuais e manipulação de informações pela semelhança das respostas geradas.
Segundo Cameron Jones, especialista da equipe, quanto mais essas tecnologias ficarem populares, mais fácil será criar mensagens que enganam pessoas ao simular linguagem natural, o que amplia a importância de se conhecer os limites e práticas do setor de IA. A familiaridade com chatbots pode ajudar os usuários a distinguir humanos de algoritmos no futuro.
Os resultados reforçam que a IA já consegue superar vários limite anteriores e ser confundida com facilidade. Por isso, discussões sobre ética tecnológica, transparência e combate a fraudes ganham peso, principalmente onde há influência da automação em substituição a atividades que exigiriam avaliação humana cuidadosa.
Esses dados dialogam com preocupações relatadas por especialistas sobre o equilíbrio entre o foco humano e o crescimento da IA no cotidiano, como aparece em análises recentes do mercado.
Fica claro que o desenvolvimento de modelos cada vez mais convincentes para conversas automáticas impõe desafios tanto para as relações digitais como para a regulação legal, educação tecnológica da população e criação de mecanismos claros de identificação do que é gerado por sistemas e do que é genuinamente humano.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.