Resumo da notícia
▲

O Washington Post testou cinco assistentes de IA, incluindo ChatGPT e Claude, em um desafio de entendimento textual.
Se você utiliza chatbots, os resultados ajudam a compreender suas limitações e capacidades em diferentes contextos.
A pesquisa revela que Claude foi o único que não apresentou erros, destacando-se como o mais confiável.
Os testes mostraram que o desempenho das IAs varia conforme o tipo de conteúdo analisado, reforçando a necessidade de cautela no uso.

Quem usa chatbots com frequência sabe que uma das funções mais úteis é a capacidade de resumir documentos, desde textos curtos até livros inteiros. Mas será que essas ferramentas realmente entendem o que estão lendo? O Washington Post colocou à prova os cinco principais assistentes virtuais do momento: ChatGPT, Claude, Copilot, Meta AI e Gemini.

👉

Acompanhe as noticias no seu WhatsAp! entre no nosso grupo

Entre agora

O desafio da compreensão textual

Os chatbots foram testados com quatro tipos de conteúdo: um romance, pesquisas médicas, contratos legais e discursos do ex-presidente Donald Trump. Um painel de especialistas, incluindo autores dos materiais analisados, avaliou as respostas das IAs. No total, foram feitas 115 perguntas sobre os textos.

Todos os bots, exceto um, inventaram informações em algum momento – um problema conhecido como alucinação em sistemas de IA. Além disso, eles foram desafiados a fazer análises críticas, como sugerir melhorias em contratos e apontar inconsistências nos discursos políticos.

Desempenho em literatura

Na análise do livro A Amante do Chacal, de Chris Bohjalian, apenas o Claude acertou todos os fatos. O Gemini entregou respostas muito curtas e imprecisas, enquanto o ChatGPT, embora tenha feito o melhor resumo, ignorou dois personagens principais. O autor considerou algumas interpretações como “enganosas e desleixadas”.

Análise de contratos jurídicos

No teste com documentos legais, o advogado Sterling Miller avaliou que Meta AI e ChatGPT simplificaram demais cláusulas complexas. O Claude se destacou ao captar nuances e sugerir alterações em um contrato de locação, mas nenhuma IA atingiu perfeição. “Nenhuma ferramenta substitui completamente um advogado”, afirmou Miller.

Precisão em pesquisas médicas

Todos os chatbots performaram melhor com artigos científicos. O Claude recebeu nota máxima ao resumir um estudo sobre covid longa, enquanto o Gemini omitiu detalhes importantes em uma pesquisa sobre Parkinson. O acesso a bancos de dados científicos pode explicar os melhores resultados nesta categoria.

Política: acertos e erros

Ao analisar discursos de Trump, o ChatGPT identificou corretamente políticos democratas contrários às propostas do ex-presidente. Já o Copilot falhou em captar o tom explosivo dos pronunciamentos. “Se você só lesse o resumo, não acreditaria que foi Trump quem falou”, comentou a repórter Cat Zakrzewski.

O vencedor geral

Com pontuação de 69.9 em 100, o Claude foi o melhor no geral – único que não “alucinou” em nenhum momento. O ChatGPT ficou em segundo (68.4), seguido por Gemini (49.7), Copilot (49.0) e Meta AI (45.0). A pesquisa mostrou que o desempenho varia conforme o tema – o ChatGPT, bom em política, foi quase o pior em direito.

Os resultados reforçam que, apesar dos avanços, os chatbots ainda precisam ser usados com cautela. Eles podem auxiliar em diversas tarefas, mas não substituem profissionais especializados ou a leitura atenta de documentos importantes. A integração dessas ferramentas no dia a dia exige consciência de suas limitações.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via Olhar Digital

ChatGPT Dicas