No mundo da inteligência artificial, a qualidade dos modelos depende diretamente dos dados usados para treiná-los. A otimização de AI LLM (Large Language Model) sempre dependeu de dados bem rotulados, mas a Databricks está mudando esse cenário com uma nova abordagem que dispensa essa etapa, prometendo acelerar a implementação de aplicações de IA nas empresas.
O Desafio da Rotulagem de Dados
Durante muito tempo, a base do aprendizado de máquina e da IA generativa foi a utilização de dados rotulados, ou seja, informações marcadas para ajudar os modelos de IA a entender o contexto durante o treinamento. No entanto, o processo de coletar, organizar e rotular dados específicos para cada área de aplicação pode levar meses, criando um gargalo que atrasa a implementação de projetos de IA e força empresas a optarem por modelos genéricos com desempenho inferior.
A Databricks, conhecida por sua plataforma de data lakehouse e crescente foco em IA, resolveu encarar esse desafio de frente. Recentemente, a empresa divulgou uma pesquisa sobre uma nova técnica chamada Test-time Adaptive Optimization (TAO). A ideia central é permitir o ajuste fino de modelos de linguagem grandes (LLM) de nível empresarial, utilizando apenas os dados que as empresas já possuem, sem a necessidade de rótulos.
Brandon Cui, líder de aprendizado por reforço e cientista pesquisador sênior da Databricks, explica que a dificuldade em obter dados rotulados e a baixa qualidade desses rótulos são obstáculos para a adoção da IA em empresas. Com a TAO, a Databricks busca eliminar essa barreira e atender às necessidades dos clientes onde eles estão.
Como a TAO Reinventa o Ajuste Fino de LLMs
A TAO propõe uma mudança radical na forma como os desenvolvedores personalizam modelos para áreas específicas. Em vez da abordagem tradicional de ajuste fino supervisionado, que exige exemplos de entrada e saída correspondentes, a TAO utiliza aprendizado por reforço e exploração sistemática para aprimorar os modelos, usando apenas exemplos de consultas.
O processo técnico da TAO envolve quatro mecanismos distintos que atuam em conjunto:
- Geração exploratória de respostas: O sistema recebe exemplos de entrada não rotulados e gera múltiplas respostas potenciais para cada um, utilizando técnicas avançadas de engenharia de prompts que exploram o espaço de soluções.
- Modelagem de recompensa calibrada para empresas: As respostas geradas são avaliadas pelo Databricks Reward Model (DBRM), projetado para avaliar o desempenho em tarefas empresariais, com foco na correção.
- Otimização de modelo baseada em aprendizado por reforço: Os parâmetros do modelo são otimizados através do aprendizado por reforço, ensinando o modelo a gerar respostas com altas pontuações.
- Ciclo de dados contínuo: À medida que os usuários interagem com o sistema, novas entradas são coletadas automaticamente, criando um ciclo de autoaperfeiçoamento sem a necessidade de rotulagem humana adicional.
Embora a computação em tempo de teste não seja uma novidade, a TAO se diferencia por utilizar poder computacional extra apenas durante o treinamento, sem aumentar o custo de inferência do modelo final. Essa característica é crucial para implementações em produção, onde os custos de inferência aumentam com o uso.
Cui ressalta que, a longo prazo, a TAO e outras abordagens de computação em tempo de teste podem ser complementares. Modelos como o1 e R1, que utilizam computação adicional durante o teste, podem se beneficiar das otimizações proporcionadas pela TAO.
Desempenho Surpreendente em Benchmarks
As pesquisas da Databricks mostram que a TAO não apenas iguala o ajuste fino tradicional, mas o supera. Em diversos benchmarks relevantes para empresas, a TAO apresentou resultados superiores, mesmo utilizando menos esforço humano.
No FinanceBench, um benchmark de perguntas e respostas sobre documentos financeiros, a TAO melhorou o desempenho do Llama 3.1 8B em 24,7 pontos percentuais e do Llama 3.3 70B em 13,4 pontos. Para geração de SQL utilizando o benchmark BIRD-SQL adaptado ao dialeto da Databricks, a TAO proporcionou melhorias de 19,1 e 8,7 pontos, respectivamente.
O mais notável é que o Llama 3.3 70B ajustado com TAO alcançou um desempenho próximo ao do GPT-4o e o3-mini nesses benchmarks, modelos que geralmente custam de 10 a 20 vezes mais para serem executados em ambientes de produção. Isso representa uma proposta de valor atraente para tomadores de decisão técnicos: a capacidade de implementar modelos menores e mais acessíveis que oferecem desempenho comparável a seus concorrentes mais caros em tarefas específicas, sem os custos tradicionais de rotulagem.
Além das vantagens de custo, a TAO também acelera o tempo de lançamento de iniciativas de IA. Cui enfatiza que a TAO economiza tempo, permitindo que as empresas prototipem casos de uso de IA sem esperar meses pela rotulagem de dados.
Otimização de AI LLM e Vantagem no Tempo de Lançamento
A TAO permite que empresas implementem soluções de análise de contratos utilizando apenas amostras, em vez de aguardar que equipes jurídicas rotulem milhares de documentos. Organizações de saúde podem aprimorar sistemas de suporte a decisões clínicas usando apenas consultas de médicos, sem a necessidade de respostas de especialistas.
A Databricks já está aplicando a TAO em diversas aplicações empresariais, auxiliando clientes a aprimorar continuamente seus modelos. Para empresas que buscam liderar na adoção de IA, a TAO representa um ponto de inflexão, removendo uma das maiores barreiras para a implementação generalizada de IA: a necessidade de conjuntos de dados rotulados extensivos.
Essa abordagem beneficia especialmente organizações com grandes quantidades de dados não estruturados e requisitos específicos, mas com recursos limitados para rotulagem manual. À medida que a IA se torna crucial para a vantagem competitiva, tecnologias como a TAO, que aceleram o tempo de implementação e melhoram o desempenho, serão essenciais para separar os líderes dos retardatários.
Atualmente, a TAO está disponível apenas na plataforma Databricks, em versão de testes restrita.
Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.
Via VentureBeat