Além do ChatGPT: Explorando Custo e Potencial de LLMs Open Source

Explore os modelos de linguagem grandes open source além do ChatGPT. Saiba mais sobre custos, benefícios e como eles estão revolucionando a IA.
Atualizado há 43 segundos
Open-source LLMs

Outros destaques

Robôs para uso doméstico
Robôs para consumidor
O3 Deep Research
Adobe Firefly Video
Robô humanoide Atlas

Open-source LLMs: alternativas acessíveis e poderosas ao ChatGPT. Os modelos abertos oferecem desempenho adequado para a maioria dos casos de uso, privacidade de dados aprimorada e um custo menor. Descubra como essas opções podem substituir ferramentas e chatbots como o ChatGPT, proporcionando mais controle e economia para sua empresa.

CONTINUA DEPOIS DA PUBLICIDADE

As limitações do GPT

O ChatGPT da OpenAI e a família de modelos GPT (incluindo GPT-4o e GPT-4o-mini) têm dominado as discussões sobre chatbots e LLMs nos últimos anos. Embora os modelos proprietários estejam entre os de melhor desempenho disponíveis, eles apresentam duas limitações importantes.

A primeira é a privacidade dos dados. A OpenAI divulga pouquíssimas informações sobre como seus modelos de IA operam. Desde o GPT-3, não foram revelados os pesos do modelo, os dados de treinamento ou mesmo o número de parâmetros. Ao usar o ChatGPT ou a API da OpenAI, você está confiando em um modelo que não pode ser explorado em servidores que você não controla para lidar com informações potencialmente confidenciais.

Com Open-source LLMs, você pode selecionar um modelo que entende melhor e tem controle sobre onde ele é executado. Essa flexibilidade garante que seus dados permaneçam protegidos e sob sua gestão, minimizando riscos de exposição ou uso indevido.

A segunda limitação é o custo. A inferência é uma tarefa computacional incrivelmente intensiva em recursos. Embora os modelos da OpenAI e outros modelos proprietários geralmente tenham bom desempenho em benchmarks, eles não são necessariamente otimizados para a relação custo-benefício. Nem toda ferramenta de IA requer o desempenho mais moderno, e ter uma gama mais ampla de modelos para escolher permite que você selecione o mais eficaz para o trabalho.

Leia também:

CONTINUA DEPOIS DA PUBLICIDADE

Isso não quer dizer que um modelo proprietário não será o LLM certo para suas necessidades, especialmente ao criar protótipos. No entanto, ao selecionar um, você deve pelo menos considerar as opções abertas. A escolha entre um modelo proprietário e um Open-source LLMs depende das suas necessidades específicas, orçamento e tolerância ao risco em relação à privacidade dos dados.

Estratégias de seleção de modelos

Ao selecionar um modelo de IA para uma determinada tarefa, vários fatores devem ser considerados. Aqui estão alguns dos mais importantes.

Quais modalidades você precisa que ele suporte? Os LLMs apenas lidam com texto, embora haja modelos multimodais cada vez mais disponíveis que também podem trabalhar com imagens, áudio e vídeo. Se você só precisa de um modelo que lide com texto, lembre-se que eles operam em fragmentos de texto chamados tokens em vez de palavras ou frases. Isso afeta a forma como são precificados e como o desempenho é medido.

Qual o nível de desempenho que você precisa e qual o tamanho do modelo que o oferece? Modelos maiores têm melhor desempenho em benchmarks, mas custam mais para serem executados. O preço pode variar de cerca de US$ 0,06 por milhão de tokens (aproximadamente 750.000 palavras) a US$ 5 por milhão de tokens, portanto, a relação preço-desempenho pode fazer ou quebrar seu lucro.

Analise os benchmarks para encontrar alguns modelos que possam atender às suas necessidades e, em seguida, teste-os com um conjunto de dados de amostra para encontrar o modelo mais adequado para suas necessidades. A escolha ideal deve equilibrar custo e desempenho, garantindo que você obtenha o melhor retorno sobre o investimento.

CONTINUA DEPOIS DA PUBLICIDADE

Qual o tamanho da janela de contexto que sua aplicação precisa? Isso significa quantos tokens ela pode operar de uma só vez. Modelos com janelas de contexto maiores podem suportar entradas maiores e encontrar informações em documentos maiores. Embora 128 mil tokens estejam se tornando um padrão aproximado, você pode encontrar modelos com janelas de contexto menores e muito maiores.

Para resumo ou pesquisa de documentos, uma janela de contexto maior pode ser necessária, mas para um chatbot simples, você pode usar um modelo mais barato com uma janela de contexto menor. A escolha do tamanho da janela de contexto impacta diretamente na capacidade do modelo de lidar com tarefas complexas e na eficiência do processamento de informações.

Quão rápido você precisa que o modelo responda? A velocidade é medida de algumas maneiras, incluindo o tempo para o primeiro token (TTFT), a taxa de transferência do usuário (TPS) e a taxa de transferência do sistema. Para cenários interativos, você pode precisar de um modelo que responda rapidamente a uma consulta do usuário (TFTT). Em contrapartida, para sistemas de agentes, você pode estar mais preocupado com o TPS, para que possa executar mais inferências antes de responder a uma entrada. Com outras ferramentas, a velocidade pode nem ser uma prioridade importante.

Qual é o custo por token e ele varia entre tokens de entrada e saída? Com alguns fornecedores, ambos os tokens custam o mesmo e com outros, os tokens de saída custam mais do que os tokens de entrada. Verifique a proporção de tokens de entrada para saída do seu caso de uso e use-a para comparar o preço de quaisquer modelos que você esteja considerando. Em média, a proporção é de aproximadamente 10 tokens de entrada por token de saída.

Encontrar o equilíbrio certo entre todas essas prioridades concorrentes é a chave para selecionar o modelo certo para sua aplicação. Embora um modelo proprietário possa atender às suas necessidades, a variedade de modelos abertos disponíveis, como Meta Llama 7B, 70B e 405B, Mistral Nemo e Mixtral 8x22B, e Microsoft Phi-3, geralmente oferecem desempenho suficiente a um preço muito mais atraente. É crucial avaliar cada aspecto para tomar uma decisão informada e alinhada com seus objetivos.

O futuro do hardware de LLM

O hardware necessário para executar LLMs está em constante evolução. Alguns dos menores modelos atuais podem ser executados em dispositivos de computação de ponta, como smartphones, enquanto os modelos de última geração exigem hardware especializado em data centers de alto desempenho. À medida que os modelos e as GPUs continuam a avançar, espere que o poder dos pequenos modelos em hardware de consumo melhore, mas também o desempenho dos melhores modelos no hardware mais recente fique ainda melhor.

O software necessário para implantar LLMs também está mudando. Embora anteriormente você precisasse alugar tempo em uma GPU para executar a inferência com um LLM, agora você pode encontrar fornecedores que cobram por token para Open-source LLMs. Esta é uma grande mudança para os consumidores, pois significa que o provedor de computação lida com a otimização modelo-GPU, deixando você livre para se concentrar em empregá-lo de forma eficaz.

Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.
Via AI Business

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.