A China demonstra que não precisa dos aceleradores de ponta para continuar avançando na área de Inteligência Artificial (IA). A DeepSeek, com seu novo projeto “FlashMLA”, está impulsionando o desempenho das GPUs Hopper H800 da NVIDIA, alcançando um aumento de até 8 vezes em TFLOPS (trilhões de operações de ponto flutuante por segundo). Essa inovação desafia as expectativas e destaca o potencial da otimização de software para maximizar o poder de hardware existente.
DeepSeek e os Avanços com NVIDIA H800
A China parece cada vez mais independente no desenvolvimento de tecnologias de ponta. Empresas locais, como a DeepSeek, estão focando em soluções de software para otimizar o uso dos recursos de hardware disponíveis. Os últimos avanços da DeepSeek mostram que é possível obter um desempenho notável das GPUs Hopper H800 da NVIDIA, mesmo com as versões “reduzidas” desses aceleradores.
A DeepSeek anunciou o FlashMLA, um “decoding kernel” projetado especificamente para as GPUs Hopper da NVIDIA. Essa ferramenta promete revolucionar o desempenho dessas placas, otimizando o consumo de memória e a alocação de recursos durante as solicitações de inferência.
Como parte da “OpenSource Week“, a DeepSeek planeja disponibilizar suas tecnologias e ferramentas para o público geral por meio de repositórios Github. O FlashMLA é o primeiro lançamento dessa iniciativa e já demonstra o potencial de suas soluções.
A DeepSeek afirma que conseguiu extrair 580 TFLOPS para multiplicação de matrizes BF16 na Hopper H800. Esse número é aproximadamente oito vezes maior do que a avaliação padrão da indústria. Além disso, com o uso eficiente da memória, o FlashMLA permite uma largura de banda de até 3000 GB/s, quase o dobro do pico teórico da H800. O mais interessante é que tudo isso é alcançado por meio de linhas de código, sem necessidade de upgrades de hardware.
Leia também:
Detalhes Técnicos do FlashMLA
O FlashMLA da DeepSeek implementa a “compressão de valor-chave de baixo rank“. Em termos mais simples, ele divide grandes blocos de dados em porções menores, acelerando o processamento e reduzindo o consumo de memória em até 40% a 60%. Outro ponto importante é o uso de um sistema de paginação baseado em blocos, que aloca a memória dinamicamente dependendo da intensidade da tarefa, em vez de usar um valor fixo. Isso permite que os modelos processem sequências de comprimento variável de forma muito mais eficaz, melhorando o desempenho geral.
O desenvolvimento do FlashMLA mostra que o mundo da computação de IA não depende de um único fator, mas é um campo muito mais diversificado. No momento, a ferramenta parece ser específica para GPUs Hopper, mas será interessante observar o desempenho que ela pode trazer com a H100.
Afinal, quais são os aplicativos que não estão na Play Store e que valem a pena instalar?
E falando em futuro, você sabe se a Apple deve apresentar atualização do MacBook Air com chip M4 em março?
Será que a polêmica entre Blake Lively e Justin Baldoni vai dar em alguma coisa?
Para quem curte tecnologia, uma dúvida: Google NotebookLM Plus vale a pena o investimento?
Para finalizar essa sessão, você sabe Como Limpar o Cache no Windows 11 e Otimizar o Sistema?
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.