A busca por inteligências artificiais (IAs) mais eficientes é constante, mas um estudo recente aponta um problema: o overthinking de IA. Pesquisadores da Tencent AI Lab e da Shanghai Jiao Tong University investigaram como IAs, ao tentarem imitar o raciocínio humano, acabam consumindo recursos excessivos sem ganhos proporcionais em precisão. Essa reflexão excessiva pode ser um obstáculo para o desenvolvimento de IAs realmente eficientes.
O que é Overthinking de IA?
O overthinking, ou “reflexão excessiva”, ocorre quando as IAs utilizam uma quantidade desnecessária de recursos computacionais para resolver problemas, especialmente os mais simples. Modelos de linguagem grandes (LLMs), como o o1 da OpenAI, buscam simular o pensamento humano através do método Chain of Thought (CoT). No entanto, essa abordagem pode levar a um consumo de tokens até 1.953% maior em comparação com IAs menos potentes, sem que haja uma melhoria significativa nos resultados.
Para ilustrar o problema, os pesquisadores utilizaram uma pergunta simples: quanto é 2 + 3? A resposta foi requisitada a diversos LLMs populares, como GPT-4o, Gemini Pro e Claude-3.5, e comparada ao QwQ-32B-Preview, um modelo racional da Qwen Team.
Os resultados mostraram que os LLMs tradicionais forneceram a resposta correta utilizando menos de 10 tokens (com exceção do Qwen2.5-Math-72B, que utilizou quase 50). Em contraste, o QwQ-32B-Preview utilizou 901 tokens para responder à mesma pergunta. O modelo da Qwen Team elaborou 10 soluções diferentes, todas chegando à mesma conclusão: 2 + 3 = 5. Apesar de ter alcançado o resultado correto na primeira tentativa, o modelo não consegue distinguir a simplicidade da questão e continua a refletir sobre o problema.
O estudo destaca que, em 92% dos cenários testados, as IAs chegaram à resposta correta logo na primeira tentativa. O problema do overthinking foi mais frequente em questões matemáticas mais simples, indicando uma dificuldade em diferenciar a complexidade dos inputs.
Leia também:
Por que o Overthinking de IA é um problema?
As IAs generativas exigem um alto poder computacional para operar. O aumento da necessidade de processamento impacta diretamente o consumo de energia e o uso de componentes em data centers. Para empresas como OpenAI, DeepSeek e Google, que dependem de plataformas centralizadas, a necessidade de expandir continuamente seus servidores para atender à demanda crescente dos usuários representa um desafio constante. É fundamental acompanhar as novidades sobre laptops gamers com AI da Acer, que oferecem desempenho acessível para os fãs de jogos.
Para os usuários, o principal problema é o consumo da janela de contexto. A técnica de Chain of Thought utiliza muito mais tokens do que o normal, e esses tokens são contabilizados na janela de contexto. Embora isso não represente um grande problema para prompts simples, pode impactar significativamente solicitações mais complexas.
No entanto, é importante ressaltar que o overthinking só é um problema quando a reflexão não agrega valor ao resultado final. A capacidade de modelos de linguagem avançados documentarem sua linha de raciocínio ao gerar respostas é útil para o treinamento da IA e o desenvolvimento de modelos destilados.
De acordo com Billy Garcia, pesquisador de inteligência artificial e cofundador da Abstrakt Gen-AI, a perda de eficiência de 1.953% só ocorre quando o modelo é escolhido de forma inadequada. Ele ressalta que ter acesso a essa cadeia de raciocínio é essencial para determinados casos de uso, principalmente em pesquisas. Portanto, usuários não devem recorrer a modelos avançados para responder perguntas triviais.
Existe solução para o Overthinking de IA?
O estudo explora diferentes estratégias para reduzir a reflexão excessiva e tornar o processamento de modelos racionais mais eficiente. As soluções incluem métodos de treinamento otimizados, como o chamado self-training, que usam amostras de conjunto de dados gerados pela IA para treinar e aperfeiçoar a própria IA.
O self-training acontece através de diferentes métodos de refinamento e tem o objetivo de tornar o modelo mais eficiente sem sacrificar a precisão para tarefas mais complexas. É como preparar o modelo para “pensar menos”. Entre as abordagens sugeridas estão:
- Refinamento supervisionado: aprimoramento de modelos com base em dados sintéticos positivos.
- Otimização de preferência direta: treinamento dos modelos considerando a resposta preferida pelos humanos.
- Otimização de preferência de raciocínio: adição de registros negativos de raciocínio para evitar repetições desnecessárias.
- Otimização de preferência simples: ajuste fino para alinhar a função de recompensa à métrica de geração de respostas.
No entanto, sozinhas, essas soluções não eliminam completamente o overthinking. O estudo explica que, embora respostas amostrais mais curtas melhorem a eficiência de modelos do tipo o1, eles ainda sofrem com reflexão excessiva.
Para mitigar o Overthinking de IA, o artigo propõe métodos complementares para identificar quando a IA já obteve a resposta correta, como:
- Primeira Solução Correta (FCS, em inglês): define a primeira resposta gerada como a correta.
- FCS + Reflexão: permite que a IA reflita apenas sobre a precisão da primeira resposta, garantindo um resultado mais confiável na segunda tentativa.
- Soluções avidamente diversas: adiciona novas estratégias de reflexão, caso os outputs anteriores não sejam consistentes.
Ao combinar essas estratégias, os pesquisadores observaram uma redução significativa no consumo de tokens e na demanda computacional, sem comprometer a capacidade cognitiva da IA racional em relação aos LLMs tradicionais.
Aplicações e Escolhas de Modelos de IA
Modelos como o o1 e o DeepSeek-R1 representam avanços notáveis no desenvolvimento de inteligência artificial generativa, mas suas aplicações não são tão relevantes para o uso cotidiano. A complexidade desses modelos é mais adequada para problemas que exigem raciocínio profundo, como pesquisas científicas ou tomada de decisões complexas. É importante estar atento ao OpenAI DeepSeek Challenger Model, que promete avanços em IA.
No dia a dia, em tarefas como desenvolvimento de softwares simples, revisão de textos curtos e outras aplicações triviais, é provável que tokens sejam consumidos desnecessariamente. Atualmente, o o1 da OpenAI está disponível na assinatura ChatGPT Plus com “acesso limitado”. Durante sua fase de prévia, o modelo oferecia uma janela de contexto de até 128 mil tokens, distribuídos entre as versões o1-preview (32 mil tokens) e o1-mini (65 mil tokens).
Portanto, ao recorrer à ajuda de uma inteligência artificial, é importante escolher bem qual modelo utilizar. Isso pode ajudar não só a ter respostas mais rapidamente, como também economizar tokens que podem ser úteis em uma consulta posterior.
Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.
Via TecMundo