▲
- Testes mostram que o modelo Claude da Anthropic pode ser 20% a 30% mais caro que o GPT da OpenAI.
- Você deve considerar esses custos ocultos ao escolher entre os dois modelos para suas aplicações.
- A eficiência do tokenizador pode impactar diretamente o orçamento de empresas ao usar IA.
- A escolha do modelo envolve mais do que preços, incluindo a natureza dos dados e a eficiência do tokenizador.
Muita gente compara o preço por token dos modelos de IA, como o Claude da Anthropic e o GPT da OpenAI. Mas, cuidado: apesar de parecerem competitivos na teoria, testes indicam que o Claude pode custar 20% a 30% a mais para empresas. O segredo está na forma como cada um processa o texto, um processo chamado tokenização, que gera custos inesperados.
É fato conhecido que diferentes famílias de modelos de IA usam tokenizadores distintos. No entanto, pouco se analisou sobre como a tokenização varia entre eles. Será que todos geram o mesmo número de tokens para um texto? Se não, qual a diferença e o quão significativa ela é?
Vamos explorar essas questões comparando duas famílias de modelos de ponta: o ChatGPT da OpenAI e o Claude da Anthropic. Embora os valores “por token” anunciados sejam parecidos, experimentos mostram que os modelos da Anthropic podem ser consideravelmente mais caros.
Preços de API: Claude 3.5 Sonnet vs GPT-4o
Em junho de 2024, a estrutura de preços para esses dois modelos avançados é bastante competitiva. Tanto o Claude 3.5 Sonnet da Anthropic quanto o GPT-4o da OpenAI têm custos idênticos para tokens de saída. No entanto, o Claude 3.5 Sonnet oferece um custo 40% menor para tokens de entrada, o que parece uma vantagem.
Essa diferença nos custos de entrada sugere, à primeira vista, uma economia para quem usa o Claude, especialmente em tarefas que envolvem muitos dados de entrada.
Leia também:
A “Ineficiência do Tokenizador” Escondida
Apesar das taxas mais baixas para tokens de entrada no modelo da Anthropic, observou-se que os custos totais ao rodar experimentos (usando os mesmos prompts fixos) com o GPT-4o são bem menores em comparação com o Claude Sonnet-3.5. Por quê?
O tokenizador da Anthropic tende a quebrar a mesma entrada em mais tokens do que o tokenizador da OpenAI. Isso significa que, para prompts idênticos, os modelos da Anthropic geram consideravelmente mais tokens. Como resultado, embora o custo por token de entrada do Claude 3.5 Sonnet seja menor, o aumento na quantidade de tokens pode anular essa economia, levando a custos gerais mais altos em casos de uso práticos.
Esse custo oculto vem da maneira como o tokenizador da Anthropic codifica informações, frequentemente usando mais tokens para representar o mesmo conteúdo. Esse “inchaço” no número de tokens tem um impacto significativo nos custos e na utilização da janela de contexto.
Ineficiência do Tokenizador por Domínio e os Custos do Claude na Empresa
Diferentes tipos de conteúdo são tokenizados de formas distintas pelo tokenizador da Anthropic, resultando em níveis variados de aumento na contagem de tokens em comparação com os modelos da OpenAI. A comunidade de pesquisa em IA notou diferenças semelhantes na tokenização.
Testamos essa descoberta em três domínios populares: artigos em inglês, código (Python) e matemática.
Domínio | Entrada do Modelo (Exemplo) | Tokens GPT | Tokens Claude | % Aumento de Tokens |
Artigos em Inglês | Texto genérico em inglês | 77 | 89 | ~16% |
Código (Python) | Trecho de código Python | 60 | 78 | ~30% |
Matemática | Equações matemáticas | 114 | 138 | ~21% |
Ao comparar o Claude 3.5 Sonnet com o GPT-4o, o grau de ineficiência do tokenizador varia bastante entre os domínios de conteúdo. Para artigos em inglês, o tokenizador do Claude produz aproximadamente 16% mais tokens que o GPT-4o para o mesmo texto. Esse aumento é maior com conteúdo mais estruturado ou técnico: para equações matemáticas, o aumento é de 21%, e para código Python, o Claude gera 30% mais tokens.
Essa variação ocorre porque alguns tipos de conteúdo, como documentos técnicos e código, frequentemente contêm padrões e símbolos que o tokenizador da Anthropic fragmenta em pedaços menores, elevando a contagem de tokens. Em contraste, conteúdo em linguagem mais natural tende a apresentar um aumento menor.
Outras implicações práticas da ineficiência do tokenizador
Além do impacto direto nos custos, há também um efeito indireto na utilização da janela de contexto. Embora os modelos da Anthropic anunciem uma janela de contexto maior, de 200 mil tokens, contra 128 mil da OpenAI, devido à verbosidade, o espaço de tokens efetivamente utilizável pode ser menor nos modelos Anthropic. Assim, pode haver uma diferença, pequena ou grande, entre os tamanhos de janela de contexto “anunciados” e os “efetivos”.
Implementação dos Tokenizadores
Os modelos GPT usam Byte Pair Encoding (BPE), que mescla pares de caracteres que ocorrem frequentemente juntos para formar tokens. Especificamente, os modelos GPT mais recentes usam o tokenizador de código aberto o200k_base. Os tokens reais usados pelo GPT-4o (no tokenizador tiktoken) podem ser vistos online.
Infelizmente, não se pode dizer muito sobre os tokenizadores da Anthropic, pois eles não estão tão direta e facilmente disponíveis quanto os do GPT. A Anthropic lançou sua API de Contagem de Tokens em dezembro de 2024, mas ela foi descontinuada em versões posteriores de 2025.
O site Latenode informa que “a Anthropic usa um tokenizador único com apenas 65.000 variações de token, comparado às 100.261 variações do GPT-4 da OpenAI”. Um notebook Colab contém código Python para analisar as diferenças de tokenização entre modelos GPT e Claude. Outra ferramenta que permite interagir com alguns tokenizadores comuns e publicamente disponíveis valida essas descobertas.
A capacidade de estimar proativamente a contagem de tokens (sem invocar a API do modelo real) e orçar custos é crucial para empresas que utilizam inteligência artificial.
Pontos Principais
- Preços competitivos da Anthropic vêm com custos ocultos: Embora o Claude 3.5 Sonnet ofereça custos de token de entrada 40% menores que o GPT-4o, essa aparente vantagem pode ser enganosa devido às diferenças na tokenização.
- “Ineficiência do tokenizador” escondida: Modelos da Anthropic são inerentemente mais verbosos. Para empresas que processam grandes volumes de texto, como a Samsung que retomou o uso do ChatGPT, entender essa discrepância é vital ao avaliar o custo real.
- Ineficiência dependente do domínio: Ao escolher entre modelos OpenAI e Anthropic, avalie a natureza do seu texto de entrada. Para tarefas de linguagem natural, a diferença de custo pode ser mínima, mas domínios técnicos ou estruturados podem levar a custos significativamente maiores com os modelos Anthropic.
- Janela de contexto efetiva: Devido à verbosidade do tokenizador da Anthropic, sua janela de contexto anunciada maior (200K) pode oferecer menos espaço útil efetivo que a de 128K da OpenAI, criando uma possível lacuna entre a janela anunciada e a real.
A Anthropic não respondeu aos pedidos de comentários do VentureBeat até o momento da publicação. Atualizaremos a matéria se houver resposta.
Essa análise da tokenização mostra como detalhes técnicos podem impactar o orçamento de projetos de IA. A escolha entre modelos como Claude e GPT vai além dos preços anunciados, exigindo um olhar atento ao tipo de dado processado e ao funcionamento interno dos tokenizadores para uma estimativa real de custos na implementação de IA.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat