▲
- Os modelos Claude podem ser até 30% mais caros que os GPT em alguns casos.
- Se você trabalha em uma empresa, entender esses custos pode ajudar a economizar.
- A escolha errada de modelo de IA pode aumentar os custos sem você perceber.
- A tokenização é um dos fatores principais que influenciam os preços dos modelos de IA.
Você sabia que os custos do modelo Claude podem ser bem diferentes do que parecem? Um estudo recente mostrou que, em empresas, os modelos da Anthropic podem sair até 30% mais caros do que o GPT. Isso acontece por causa de um detalhe técnico chamado “tokenização”, que afeta diretamente o valor final.
Neste artigo, vamos explicar tintim por tintim essa diferença, comparando os modelos ChatGPT da OpenAI e Claude da Anthropic. Entender esses custos escondidos pode te ajudar a economizar uma grana na hora de escolher o melhor modelo de inteligência artificial para o seu negócio. Vamos nessa?
O que é tokenização e por que ela impacta nos Custos do modelo Claude
É sabido que cada família de modelos de linguagem usa um tokenizer diferente, mas pouca gente analisa como esse processo de “tokenização” varia. Será que todos os tokenizers entregam o mesmo número de tokens para um texto? Se não, qual a diferença entre os tokens gerados e o impacto disso?
A tokenização é o processo de quebrar o texto em unidades menores, chamadas tokens, que são usadas pelos modelos de linguagem para entender e processar a informação. Cada modelo tem sua própria forma de fazer isso, e é aí que a coisa começa a ficar interessante.
Para entender melhor, vamos comparar o ChatGPT da OpenAI e o Claude da Anthropic. Apesar de ambos terem preços competitivos por token, experimentos mostram que os modelos da Anthropic podem ser de 20% a 30% mais caros que os modelos GPT.
Leia também:
Em junho de 2024, os preços dos modelos de ponta estavam bem parelhos. Tanto o Claude 3.5 Sonnet da Anthropic quanto o GPT-4o da OpenAI tinham o mesmo custo para tokens de saída, mas o Claude 3.5 Sonnet oferecia um custo 40% menor para os tokens de entrada.
A ineficiência oculta na tokenização
Apesar do modelo da Anthropic ter taxas menores para tokens de entrada, testes mostraram que rodar experimentos com o GPT-4o acaba saindo mais barato do que com o Claude Sonnet-3.5. Mas por quê?
O tokenizer da Anthropic tende a dividir a mesma entrada em mais tokens do que o da OpenAI. Isso significa que, para os mesmos textos, os modelos da Anthropic usam bem mais tokens do que os da OpenAI. No fim das contas, mesmo com o custo por token de entrada menor no Claude 3.5 Sonnet, o aumento na tokenização pode anular essa economia, elevando os custos no uso diário.
Essa diferença surge da forma como o tokenizer da Anthropic codifica a informação, frequentemente usando mais tokens para representar o mesmo conteúdo. O aumento na contagem de tokens afeta os custos e a utilização da janela de contexto.
Para quem lida com grandes volumes de texto, entender essa diferença é crucial para não ter surpresas na fatura. Uma escolha mal feita pode pesar no bolso!
Como a tokenização ineficiente varia conforme o tipo de conteúdo
A tokenização feita pelo tokenizer da Anthropic muda conforme o tipo de conteúdo, o que leva a diferentes níveis de aumento na contagem de tokens em comparação com os modelos da OpenAI. A comunidade de pesquisa em IA já notou diferenças parecidas aqui. Para confirmar isso, foram feitos testes com três tipos de conteúdo: artigos em inglês, código (Python) e matemática.
Ao comparar o Claude 3.5 Sonnet com o GPT-4o, a ineficiência do tokenizer varia bastante. Para artigos em inglês, o tokenizer do Claude produz cerca de 16% mais tokens do que o GPT-4o para o mesmo texto. Esse percentual aumenta com conteúdos mais técnicos: para equações matemáticas, o aumento é de 21%, e para código Python, o Claude gera 30% mais tokens.
Essa variação acontece porque certos tipos de conteúdo, como documentos técnicos e código, têm padrões e símbolos que o tokenizer da Anthropic divide em pedaços menores, aumentando a contagem de tokens. Já conteúdos em linguagem natural tendem a ter um aumento menor.
Imagine que você está ensinando um robô a ler. Se você der um livro de literatura, ele vai entender relativamente rápido. Mas se der um manual de programação, ele vai se embolar todo, precisando de muito mais “palavras” (tokens) para entender o que está escrito. É mais ou menos assim que os modelos da Anthropic funcionam com conteúdos técnicos.
Outras implicações práticas da ineficiência do tokenizer
Além do impacto direto nos custos, a ineficiência do tokenizer também afeta a utilização da janela de contexto. Os modelos da Anthropic oferecem uma janela de contexto maior, com 200 mil tokens, contra 128 mil da OpenAI. Mas, por serem mais “verbosos”, o espaço útil pode ser menor nos modelos da Anthropic. Ou seja, pode haver uma diferença entre o tamanho da janela de contexto anunciado e o tamanho real utilizável.
É como ter um caminhão maior, mas que carrega menos carga porque os itens são muito pequenos e ocupam mais espaço. No fim das contas, você pode acabar levando menos coisas do que em um caminhão menor, mas com itens maiores.
Entender essa diferença é crucial para quem precisa processar grandes volumes de texto e quer aproveitar ao máximo a capacidade dos modelos de linguagem. Fique de olho para não desperdiçar recursos!
Para lidar com grandes volumes de texto, você pode usar um serviço de tradução, como o oferecido pela DeepL. Confira mais detalhes sobre o Google AI Mode para Busca Inteligente.
Implementação dos tokenizers
Os modelos GPT usam o Byte Pair Encoding (BPE), que junta pares de caracteres que aparecem com frequência para formar tokens. Os modelos GPT mais recentes usam o tokenizer o200k_base, que é de código aberto. Os tokens usados pelo GPT-4o (no tokenizer tiktoken) podem ser vistos aqui.
Já sobre os tokenizers da Anthropic, não há muita informação disponível, já que não são tão acessíveis quanto os da GPT. A Anthropic lançou sua API de Contagem de Tokens em dezembro de 2024, mas ela foi descontinuada em versões posteriores de 2025.
O Latenode informa que “a Anthropic usa um tokenizer único, com apenas 65 mil variações de tokens, contra 100.261 variações do GPT-4 da OpenAI.” Este notebook Colab tem código Python para analisar as diferenças de tokenização entre os modelos GPT e Claude. Outra ferramenta que permite interagir com alguns tokenizers públicos confirma os resultados.
A capacidade de estimar a contagem de tokens (sem usar a API do modelo) e orçar custos é essencial para empresas que usam IA. Para quem busca construir aplicações mais robustas, vale a pena conferir como a Startup FutureHouse Lança Plataforma de Agentes de IA para Pesquisa Científica.
Principais conclusões sobre os custos do modelo Claude
- Preços competitivos da Anthropic têm custos escondidos: Apesar do Claude 3.5 Sonnet da Anthropic ter custos 40% menores para tokens de entrada em relação ao GPT-4o da OpenAI, essa vantagem pode ser enganosa por causa das diferenças na tokenização.
- Ineficiência oculta na tokenização: Os modelos da Anthropic são inerentemente mais verbosos. Para empresas que processam grandes volumes de texto, entender essa diferença é crucial para avaliar o custo real dos modelos.
- Ineficiência do tokenizer depende do tipo de conteúdo: Ao escolher entre os modelos da OpenAI e da Anthropic, avalie a natureza do texto. Para linguagem natural, a diferença de custo pode ser pequena, mas conteúdos técnicos podem gerar custos bem maiores com os modelos da Anthropic.
- Janela de contexto efetiva: Devido à verbosidade do tokenizer da Anthropic, a janela de contexto maior, com 200 mil tokens, pode oferecer menos espaço útil do que os 128 mil da OpenAI, gerando uma diferença entre a janela de contexto anunciada e a real.
A Anthropic não respondeu aos pedidos de comentário até o fechamento desta matéria. Atualizaremos a história caso respondam.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat