▲
- A EXO Labs rodou o modelo Llama 2 em um PC de 1997.
- Esse feito evidencia a reaproveitação de tecnologias antigas para IA.
- A solução pode reduzir custos e promover sustentabilidade no uso de tecnologia.
- Resultados mostram que hardware vintage pode ainda ser eficiente para novas aplicações.
Em um feito que desafia o senso comum sobre inteligência artificial, a EXO Labs conseguiu rodar o moderno modelo Llama 2 em um computador com Windows 98 e processador Pentium II, máquina lançada há mais de 25 anos. O experimento prova que a IA não está limitada a data centers de alto desempenho – tecnologias consideradas obsoletas podem ser reaproveitadas para tarefas avançadas.
O desafio de adaptar hardware vintage
A equipe liderada por Andrej Karpathy adquiriu o Pentium II por £118.88 no eBay. O primeiro obstáculo foi conectar periféricos modernos, já que a máquina não tinha portas USB – foi necessário usar conexões PS/2, com configuração específica: mouse na porta 1 e teclado na porta 2.
A transferência de arquivos também exigiu soluções criativas. Como pendrives eram incompatíveis com o sistema FAT32, a equipe usou FTP para enviar pesos do modelo, configurações do tokenizador e código de inferência. Um adaptador USB-C para Ethernet permitiu conectar o Windows 98 a um MacBook Pro.
Superando limitações de software
Compilar código moderno para o Windows 98 foi outro desafio. O mingw não funcionou no processador antigo, então a equipe recorreu ao Borland C++ 5.02, IDE de 26 anos atrás. Foram necessárias adaptações como:
- Substituição de tipos por DLONGWORD
- Declaração de variáveis no início das funções
- Simplificação do carregamento disco-memória
O projeto usou o llama2.c, código de 700 linhas em C capaz de rodar inferência em modelos baseados na arquitetura Llama 2. Essa abordagem lembra outros esforços para otimizar modelos de linguagem para hardware limitado.
Leia também:
Resultados impressionantes
A configuração final alcançou 39.31 tokens por segundo com um modelo de 260K parâmetros. Versões maiores tiveram desempenho reduzido:
- 15M parâmetros: 1.03 tokens/s
- 1B parâmetros (Llama 3.2): 0.0093 tokens/s
O segredo foi a arquitetura BitNet, que usa pesos ternários (-1, 0, 1) para reduzir demanda computacional. Essa eficiência permite que um modelo de 7B parâmetros ocupe apenas 1.38 GB, abrindo possibilidades para aplicações democratizadas de IA.
O potencial do BitNet
Além de funcionar em CPUs antigas, o BitNet demonstrou ser 50% mais eficiente energeticamente que modelos tradicionais. A EXO Labs já explora aplicações em modelagem de proteínas, mostrando como técnicas inovadoras podem revolucionar áreas científicas.
Esse experimento não é apenas uma curiosidade tecnológica – ele questiona a necessidade constante de hardware novo e aponta caminhos para sustentabilidade na computação. Enquanto empresas como Apple e Nvidia avançam em chips especializados, soluções como o BitNet mostram que o potencial da IA pode estar escondido em máquinas esquecidas.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via Jeuxvideo.com