▲
- Modelos de IA como Claude podem ter custos maiores que o GPT devido a variações na tokenização.
- Explorar essas variações é vital para empresários evitarem surpresas financeiras.
- Diferentes tokenizers influenciam o custo total de implementação de IA nas empresas.
- Conhecimento sobre tokenização ajuda a tomar decisões informadas sobre investimento em IA.
Custos inesperados podem surgir na implementação de inteligência artificial (IA) em empresas. Modelos como o Claude, da Anthropic, podem ser de 20 a 30% mais caros que o GPT, da OpenAI, devido a variações na forma como o texto é processado. A análise detalhada da tokenização revela essas diferenças, impactando diretamente no orçamento e na eficiência.
Explorar essas nuances é essencial para evitar surpresas financeiras e otimizar o uso de recursos em projetos de IA. Afinal, entender como cada modelo “pensa” pode economizar muitos recursos.
É sabido que diferentes famílias de modelos de linguagem utilizam diferentes tokenizers. No entanto, pouco se discute sobre como o processo de “tokenização” varia entre eles. Será que todos os tokenizers entregam o mesmo número de tokens para um mesmo texto? Se não, qual a diferença entre os tokens gerados? Quão significativas são essas diferenças?
Este artigo explora essas questões e examina as implicações práticas da variabilidade na tokenização. Vamos comparar duas famílias de modelos de ponta: ChatGPT, da OpenAI, contra o Claude, da Anthropic. Apesar de ambos terem custos por token bem competitivos, testes revelam que os modelos da Anthropic podem ser de 20 a 30% mais caros do que os modelos GPT.
API: Preços do Claude 3.5 Sonnet vs GPT-4o
Em junho de 2024, a estrutura de preços para esses dois modelos avançados era bem similar. Tanto o Claude 3.5 Sonnet da Anthropic, quanto o GPT-4o da OpenAI tinham custos idênticos para tokens de saída. O Claude 3.5 Sonnet ainda oferecia um custo 40% menor para tokens de entrada.
Leia também:
Apesar dos menores preços de tokens de entrada do modelo da Anthropic, percebemos que o custo total para rodar experimentos com o GPT-4o era bem menor quando comparado ao Claude Sonnet-3.5.
Mas por quê? O tokenizer da Anthropic tende a dividir a mesma entrada em mais tokens quando comparado ao tokenizer da OpenAI. Isso significa que, para os mesmos comandos, os modelos da Anthropic produzem bem mais tokens do que os da OpenAI. No fim das contas, apesar do custo por token de entrada do Claude 3.5 Sonnet ser menor, o aumento na tokenização acaba compensando essa economia, levando a um custo total maior no uso prático.
Esse custo extra vem da forma como o tokenizer da Anthropic codifica as informações, geralmente usando mais tokens para representar o mesmo conteúdo. A inflação na contagem de tokens tem um impacto grande nos custos e na utilização da janela de contexto.
Ineficiência da Tokenização Dependente de Domínio
Diferentes tipos de conteúdo são tokenizados de maneiras distintas pelo tokenizer da Anthropic, levando a diferentes níveis de aumento na contagem de tokens em comparação com os modelos da OpenAI. A comunidade de pesquisa de IA notou diferenças parecidas na tokenização. Nossos testes foram feitos em três domínios populares: artigos em inglês, código (Python) e matemática.
Ao comparar o Claude 3.5 Sonnet com o GPT-4o, a ineficiência do tokenizer varia bastante entre os domínios de conteúdo. Para artigos em inglês, o tokenizer do Claude produz aproximadamente 16% mais tokens do que o GPT-4o para o mesmo texto. Essa diferença cresce bastante com conteúdo mais técnico ou estruturado: para equações matemáticas, a diferença é de 21%. Já para códigos em Python, o Claude gera 30% mais tokens.
Essa variação acontece porque alguns tipos de conteúdo, como documentos técnicos e código, geralmente têm padrões e símbolos que o tokenizer da Anthropic divide em pedaços menores, aumentando a contagem de tokens. Por outro lado, conteúdos em linguagem natural tendem a ter uma diferença menor.
Além do impacto direto nos custos, existe também um impacto indireto na utilização da janela de contexto. Apesar dos modelos da Anthropic anunciarem uma janela de contexto maior, de 200 mil tokens, contra os 128 mil da OpenAI, devido à sua verborragia, o espaço de tokens útil pode ser menor para os modelos da Anthropic. Assim, pode haver uma diferença pequena ou grande entre os tamanhos de janela de contexto “anunciados” e os “reais”.
É importante conhecer e entender as nuances do mercado de tecnologia, por exemplo, você sabia que a Ray-Ban Meta Lança Tradução ao Vivo para Viajantes?
Implementação de Tokenizers
Os modelos GPT usam Byte Pair Encoding (BPE), que junta pares de caracteres que aparecem juntos com frequência para formar tokens. Mais especificamente, os modelos GPT mais recentes usam o tokenizer de código aberto o200k_base. Os tokens usados pelo GPT-4o (no tokenizer tiktoken) podem ser vistos aqui.
Não há muito o que falar sobre os tokenizers da Anthropic, já que eles não são tão fáceis de encontrar quanto os do GPT. A Anthropic lançou sua API Token Counting em dezembro de 2024, mas logo a descontinuou em versões posteriores de 2025.
A Latenode reporta que “a Anthropic usa um tokenizer único com apenas 65 mil variações de token, contra 100.261 variações de token da OpenAI para o GPT-4.” Este Colab notebook contém código Python para analisar as diferenças de tokenização entre os modelos GPT e Claude. Outra ferramenta que permite interagir com alguns tokenizers comuns valida nossas descobertas.
A capacidade de estimar proativamente a contagem de tokens (sem usar a API do modelo) e os custos é crucial para empresas de IA.
- Anthropic tem preços competitivos, mas com custos escondidos:
O Claude 3.5 Sonnet da Anthropic oferece custos 40% menores para tokens de entrada quando comparado ao GPT-4o da OpenAI. Mas essa vantagem pode ser enganosa devido às diferenças na forma como o texto de entrada é tokenizado. - Ineficiência oculta do tokenizer:
Os modelos da Anthropic são inerentemente mais verbosos. Para empresas que processam grandes volumes de texto, entender essa diferença é crucial ao avaliar o custo real de implementar esses modelos. - Ineficiência do tokenizer dependente do domínio:
Ao escolher entre os modelos da OpenAI e da Anthropic, avalie a natureza do seu texto de entrada. Para tarefas de linguagem natural, a diferença de custo pode ser mínima. Mas domínios técnicos ou estruturados podem levar a custos bem maiores com os modelos da Anthropic. - Janela de contexto efetiva:
Devido à verborragia do tokenizer da Anthropic, sua janela de contexto anunciada de 200 mil tokens pode oferecer menos espaço útil do que os 128 mil da OpenAI. Isso leva a uma potencial diferença entre a janela de contexto anunciada e a real.
A Anthropic não respondeu aos pedidos de comentários da VentureBeat até o fechamento desta matéria. Atualizaremos a história caso respondam.
Compreender os custos do Claude para empresas é crucial para um planejamento financeiro eficaz ao investir em soluções de inteligência artificial.
Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.
Via VentureBeat