Aposta na eficiência: como a DeepSeek desafia a IA

A DeepSeek apresenta um novo modelo de IA que desafia gigantes do setor com foco em inovação e eficiência.
Atualizado há 8 horas
Aposta na eficiência: como a DeepSeek desafia a IA
DeepSeek revoluciona o setor com um inovador modelo de IA focado em eficiência. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • A DeepSeek lançou o modelo de IA DeepSeek-R1, desafiando grandes empresas de tecnologia.
    • Se você está interessado em inteligência artificial, o modelo DeepSeek pode impactar as futuras inovações no setor.
    • O desenvolvimento da DeepSeek pode influenciar novos padrões de eficiência em IA no mercado.
    • O cenário da IA pode mudar com novas contribuições acadêmicas, trazendo avanços tecnológicos significativos.
CONTINUA DEPOIS DA PUBLICIDADE

Janeiro de 2025 mexeu com o cenário da Inteligência Artificial (IA). A DeepSeek, uma empresa chinesa que não estava no radar de muita gente, surgiu desafiando gigantes como a OpenAI. O modelo DeepSeek-R1 não superou os modelos americanos em benchmarks, mas chegou perto, levantando questões sobre eficiência de hardware e energia.

Diante da dificuldade de acesso ao hardware de ponta, parece que a DeepSeek se motivou a inovar na eficiência, algo que talvez não fosse a principal preocupação dos grandes players. A OpenAI alega ter evidências de que a DeepSeek usou seu modelo para treinamento, mas não há provas concretas. Fica a dúvida se é verdade ou uma tentativa de acalmar investidores. De qualquer forma, a DeepSeek publicou seu trabalho, e os resultados foram verificados em menor escala.

Mas como a DeepSeek conseguiu essa economia de custos que as empresas americanas não alcançaram? A resposta curta é: eles tiveram mais motivação. A resposta longa exige um pouco mais de explicação técnica.

Otimização do Cache KV: Menos Memória, Mais Eficiência

CONTINUA DEPOIS DA PUBLICIDADE

Uma economia importante na memória da GPU veio da otimização do cache Key-Value (KV), usado em cada camada de atenção nos Modelos de Linguagem Grande (LLMs). Os LLMs são formados por blocos transformer, cada um com uma camada de atenção seguida por uma rede neural feed-forward.

A rede feed-forward busca modelar relações, mas nem sempre identifica padrões facilmente. A camada de atenção resolve isso para a modelagem de linguagem. O modelo processa textos usando tokens (basicamente, palavras ou partes delas). Cada palavra recebe um vetor de alta dimensão (ex: mil dimensões). Cada dimensão representa um conceito (quente/frio, verde, macio, substantivo, etc.). O vetor de uma palavra é seu significado.

Leia também:

Nossa linguagem permite que outras palavras modifiquem o significado de uma palavra. “Maçã” tem um significado, mas “maçã verde” é uma versão modificada. O contexto também muda tudo: “apple” no contexto de um iPhone é diferente de “apple” (maçã) no pomar. A atenção permite que o sistema ajuste o vetor de uma palavra com base em outra.

O modelo de atenção atribui mais dois vetores a cada palavra: uma key (chave) e uma query (consulta). A query representa qualidades modificáveis do significado da palavra; a key representa o tipo de modificação que ela pode aplicar a outras. Por exemplo, a key de “verde” terá um valor alto na dimensão “verdor”. A query de “maçã” também, pois uma maçã pode ser verde. O produto escalar entre a key de “verde” e a query de “maçã” será alto. A camada de atenção então adiciona uma fração do valor de “verde” ao valor de “maçã”, tornando-a “mais verde”.

Quando o LLM gera texto, palavra por palavra, as palavras anteriores formam o contexto. As keys e values dessas palavras já foram calculadas. Ao adicionar uma nova palavra, seu valor é atualizado com base em sua query e nas keys/values anteriores. Por isso, esses valores são guardados na memória da GPU – o cache KV. A DeepSeek percebeu que a key e o value de uma palavra estão relacionados (o significado de “verde” e sua capacidade de afetar o “verdor”). Assim, é possível comprimir ambos em um vetor único (e talvez menor) e descomprimir facilmente durante o processamento. Isso afeta um pouco o desempenho em benchmarks, mas economiza muita memória da GPU, sendo um ponto chave na inovação em IA.

MoE: A Estratégia de ‘Mistura de Especialistas’

CONTINUA DEPOIS DA PUBLICIDADE

Normalmente, toda a rede neural precisa ser avaliada para cada consulta, mesmo que partes dela não sejam relevantes para a resposta. Conhecimento sobre a Torre Eiffel não ajuda a responder sobre tribos sul-americanas. Saber que maçã é fruta é inútil para perguntas sobre relatividade geral. Mesmo assim, toda a rede é processada, gerando custos computacionais altos.

A ideia da Mixture-of-Experts (MoE) entra aqui. O modelo MoE divide a rede neural em várias redes menores, chamadas “especialistas”. Esses especialistas não são definidos manualmente; a rede aprende durante o treinamento. As redes atribuem uma pontuação de relevância a cada consulta e ativam apenas as partes com pontuações mais altas.

Isso gera uma enorme economia de custos computacionais. É importante notar que algumas perguntas exigem conhecimento de múltiplas áreas, e o desempenho nessas consultas pode ser um pouco degradado. No entanto, como as áreas são definidas a partir dos dados, o número dessas perguntas é minimizado. Essa abordagem mais eficiente em termos de processamento pode impactar até mesmo a infraestrutura necessária, algo relevante considerando a expansão global na fabricação de chips, como a construção de novas fábricas pela TSMC.

A Importância do Aprendizado por Reforço

Um LLM é ensinado a “pensar” usando um modelo de chain-of-thought (cadeia de pensamento), onde é ajustado para imitar o raciocínio antes de dar a resposta. O modelo verbaliza seu pensamento (gera o pensamento antes da resposta) e é avaliado tanto no pensamento quanto na resposta, sendo treinado com aprendizado por reforço (RL) – recompensado por acertos e penalizado por erros em relação aos dados de treinamento.

Isso exige dados de treinamento caros com o token de pensamento. A DeepSeek simplificou: pediu ao sistema para gerar os pensamentos entre as tags <think> e </think> e as respostas entre <answer> e </answer>. O modelo é recompensado ou penalizado apenas pela forma (uso das tags) e pela correspondência das respostas. Isso exigiu dados de treinamento muito mais baratos, um aspecto importante quando se considera a gestão e privacidade dos dados utilizados.

No início do RL, o modelo gerava pouco pensamento, resultando em respostas incorretas. Eventualmente, aprendeu a gerar pensamentos longos e coerentes – o que a DeepSeek chama de momento “a-ha”. A partir daí, a qualidade das respostas melhorou bastante. Esse processo demonstra como a inteligência artificial pode evoluir, sendo um campo onde estudos indicam que a inteligência pode superar a prática em certas tarefas.

A DeepSeek utiliza vários outros truques de otimização, mas são bastante técnicos e não serão detalhados aqui.

Contextualização sobre DeepSeek e o Mercado

Em qualquer pesquisa tecnológica, primeiro descobre-se o que é possível para depois melhorar a eficiência. É uma progressão natural. A contribuição da DeepSeek para o cenário dos LLMs é notável. A contribuição acadêmica é relevante, independentemente de terem usado ou não dados da OpenAI. Isso também pode transformar a operação de startups.

Não há motivo para desespero por parte da OpenAI ou outros gigantes americanos. É assim que a pesquisa funciona: um grupo se beneficia da pesquisa de outros. A DeepSeek certamente se beneficiou de pesquisas anteriores do Google, OpenAI e muitos outros pesquisadores. A expansão do Gemini do Google para novas plataformas mostra como esses avanços continuam.

Contudo, a ideia de que a OpenAI dominará o mundo dos LLMs indefinidamente agora parece improvável. Nenhum lobby regulatório ou acusação preservará seu monopólio. A tecnologia já está nas mãos de muitos e é aberta, tornando seu progresso imparável. Embora isso possa ser uma dor de cabeça para os investidores da OpenAI, é, no fim das contas, uma vitória para todos nós. O futuro pertence a muitos, mas sempre seremos gratos aos primeiros contribuidores como Google e OpenAI.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.