Roteamento inteligente de modelos de IA melhora direcionamento de consultas

Sistema aprimora a escolha do modelo de IA adequado, reduzindo custos e aumentando a eficiência na interação com os usuários.
Atualizado há 4 dias atrás
Roteamento inteligente de modelos de IA melhora direcionamento de consultas
Sistema otimiza a escolha de IA, cortando custos e melhorando a interação com usuários. (Imagem/Reprodução: Venturebeat)
Resumo da notícia
    • Pesquisadores desenvolveram o Arch-Router, um sistema de roteamento de LLM para direcionar consultas ao modelo mais adequado.
    • O objetivo é facilitar empresas na gestão de múltiplos modelos de IA, otimizando tarefas e custos.
    • O sistema pode impactar positivamente a experiência do usuário, com respostas mais rápidas e precisas.
    • Permite flexibilidade ao trocar modelos, sem a necessidade de retreinamento, adaptando-se às mudanças de uso.
CONTINUA DEPOIS DA PUBLICIDADE

Pesquisadores da Katanemo Labs apresentaram o Arch-Router, um novo modelo e estrutura de roteamento de LLM desenvolvido para direcionar consultas de usuários ao Modelo de Linguagem Grande (LLM) mais adequado. Para empresas que criam produtos com múltiplos LLMs, o Arch-Router oferece uma solução inteligente para encaminhar requisições sem lógicas fixas ou o caro processo de retreinamento a cada mudança.

Este sistema promete otimizar a forma como as empresas gerenciam suas interações com usuários, garantindo que a resposta venha do modelo mais eficiente para cada tipo de solicitação. A proposta é simplificar a complexidade de operar com diversas inteligências artificiais ao mesmo tempo, reduzindo custos e aumentando a precisão das entregas.

O objetivo é oferecer uma experiência mais fluida e assertiva para o usuário final. Imagine ter uma IA que entende o que você precisa e automaticamente escolhe a melhor ferramenta para te ajudar, seja para resumir um texto, gerar código ou editar uma imagem. É exatamente isso que o Arch-Router busca fazer.

Os desafios do roteamento inteligente de LLMs

CONTINUA DEPOIS DA PUBLICIDADE

Com o crescimento no número de Modelos de Linguagem Grande (LLMs), desenvolvedores estão mudando de sistemas de modelo único para configurações com múltiplos modelos. Essa transição permite aproveitar as forças específicas de cada LLM em tarefas distintas, como gerar código, resumir textos ou editar imagens, otimizando resultados.

O roteamento de LLM se tornou essencial para construir e implantar esses sistemas complexos. Ele funciona como um controlador de tráfego, direcionando cada consulta do usuário ao modelo de IA mais apropriado para a tarefa. Isso é crucial para garantir eficiência e relevância nas respostas, especialmente em cenários corporativos.

Os métodos de roteamento atuais se dividem em duas categorias: o “roteamento baseado em tarefas” e o “roteamento baseado em desempenho”. O primeiro roteia consultas com base em tarefas predefinidas, mas enfrenta dificuldades com intenções de usuário ambíguas ou que mudam, especialmente em conversas com múltiplas interações. Já o segundo prioriza rigidamente pontuações de referência, muitas vezes ignorando as preferências reais dos usuários e adaptando-se mal a novos modelos, a menos que passe por um caro processo de fine-tuning. Modelos avançados de IA podem apresentar complexidades que levam a IA pode manipular, mentir e fugir do controle, apontam modelos avançados.

Pesquisadores da Katanemo Labs apontam que as abordagens de roteamento existentes possuem limitações no uso cotidiano. Eles observam que essas abordagens, em geral, otimizam o desempenho em testes comparativos, mas negligenciam as preferências humanas, que são influenciadas por critérios de avaliação subjetivos e variados. Isso significa que a precisão técnica nem sempre se traduz em uma boa experiência para o usuário.

A pesquisa ressalta a necessidade de sistemas de roteamento que se alinhem com as preferências subjetivas dos usuários, ofereçam maior transparência e se adaptem facilmente à medida que os modelos e casos de uso evoluem. O foco é garantir que o sistema não apenas funcione bem, mas que também atenda às expectativas e necessidades reais das pessoas.

Uma nova estrutura para roteamento alinhado a preferências

Para resolver essas limitações, os pesquisadores propuseram uma estrutura de “roteamento alinhado a preferências”. Essa abordagem inovadora conecta as consultas dos usuários a políticas de roteamento que são definidas com base nas próprias preferências do usuário, facilitando a escolha do LLM mais adequado para cada situação.

CONTINUA DEPOIS DA PUBLICIDADE

Nesta estrutura, os usuários definem suas políticas de roteamento usando linguagem natural, por meio de uma “Taxonomia de Domínio-Ação”. Essa hierarquia de dois níveis reflete como as pessoas descrevem tarefas de forma intuitiva, começando com um tópico geral (o Domínio, como “jurídico” ou “finanças”) e afunilando para uma tarefa específica (a Ação, como “resumo” ou “geração de código”).

Cada uma dessas políticas é então vinculada a um modelo preferencial. Isso permite que os desenvolvedores tomem decisões de roteamento baseadas nas necessidades reais do dia a dia, e não apenas em pontuações de desempenho. Conforme o estudo, essa taxonomia “serve como um modelo mental para ajudar os usuários a definir políticas de roteamento claras e estruturadas”.

O processo de roteamento ocorre em duas etapas. Primeiro, o modelo roteador alinhado às preferências recebe a consulta do usuário e o conjunto completo de políticas, selecionando a mais adequada. Em seguida, uma função de mapeamento conecta a política escolhida ao LLM designado, garantindo que a solicitação seja processada pelo modelo ideal.

Como a lógica de seleção do modelo está separada da política, adicionar, remover ou trocar modelos é simples: basta editar as políticas de roteamento. Isso dispensa a necessidade de retreinar ou modificar o próprio roteador. Essa separação oferece a flexibilidade que é essencial para implementações práticas, onde os modelos e casos de uso mudam constantemente.

A seleção da política é impulsionada pelo Arch-Router, um modelo de linguagem compacto de 1.5 bilhão de parâmetros, ajustado especificamente para o roteamento alinhado a preferências. Ele recebe a consulta do usuário e todas as descrições de políticas em sua entrada, gerando o identificador da política que melhor se encaixa na solicitação.

Como as políticas fazem parte da entrada, o sistema se adapta a rotas novas ou modificadas em tempo de inferência através do in-context learning, sem precisar de retreinamento. Essa abordagem generativa permite que o Arch-Router utilize seu conhecimento pré-treinado para compreender a semântica da consulta e das políticas, processando todo o histórico da conversa de uma só vez.

Uma preocupação comum ao incluir muitas políticas em uma consulta é o risco de aumento da latência. No entanto, os pesquisadores projetaram o Arch-Router para ser eficiente. Salman Paracha, coautor do estudo e CEO da Katanemo Labs, explica que “embora o comprimento das políticas de roteamento possa ser longo, podemos facilmente aumentar a janela de contexto do Arch-Router com impacto mínimo na latência”. Ele destaca que a latência é impulsionada principalmente pelo comprimento da saída, e no caso do Arch-Router, a saída é apenas o nome curto de uma política, como “edição_de_imagem” ou “criação_de_documentos”.

Arch-Router em ação

Para criar o Arch-Router, os pesquisadores realizaram um fine-tuning em uma versão de 1.5 bilhão de parâmetros do modelo Qwen 2.5, utilizando um conjunto de dados selecionado com 43.000 exemplos. Em seguida, testaram seu desempenho contra modelos proprietários de ponta da OpenAI, Anthropic e Google, usando quatro conjuntos de dados públicos criados para avaliar sistemas de IA conversacional.

Os resultados mostram que o Arch-Router alcança uma pontuação geral de roteamento de 93,17%, superando todos os outros modelos, incluindo os proprietários de destaque, com uma vantagem média de 7,71%. O desempenho do modelo melhorou em conversas mais longas, indicando sua capacidade de manter o contexto ao longo de várias interações, o que é crucial para uma experiência fluida.

Na prática, essa abordagem já está sendo aplicada em diversos cenários, conforme Paracha. Por exemplo, em ferramentas de código aberto, desenvolvedores usam o Arch-Router para direcionar diferentes etapas de seus fluxos de trabalho, como “design de código”, “compreensão de código” e “geração de código”, para os LLMs mais adequados a cada tarefa. Isso é especialmente útil para quem trabalha com desenvolvimento de jogos com foco em IA.

De forma similar, empresas podem direcionar solicitações de criação de documentos para um modelo como o Claude 3.7 Sonnet, enquanto tarefas de edição de imagens são enviadas para o Gemini 2.5 Pro. Isso assegura que cada tipo de requisição seja tratada pela inteligência artificial mais especializada, otimizando tanto a qualidade quanto a eficiência do trabalho. Uma organização que usa sistemas de IA autônomos para gerenciar operações complexas sabe a importância dessa otimização.

O sistema também é ideal “para assistentes pessoais em diversas áreas, onde os usuários têm uma variedade de tarefas, desde a sumarização de textos até consultas factuais”, disse Paracha. Ele acrescentou que “nesses casos, o Arch-Router pode ajudar os desenvolvedores a unificar e aprimorar a experiência geral do usuário, tornando a interação mais fluida e eficiente”.

Essa estrutura está integrada ao Arch, o servidor proxy nativo de IA da Katanemo Labs para agentes, que permite aos desenvolvedores implementar regras de gerenciamento de tráfego avançadas. Por exemplo, ao integrar um novo LLM, uma equipe pode direcionar uma pequena parte do tráfego de uma política de roteamento específica para o novo modelo, verificar seu desempenho com métricas internas e, em seguida, fazer a transição total do tráfego com confiança.

A empresa também está trabalhando para integrar suas ferramentas a plataformas de avaliação. O objetivo é simplificar ainda mais esse processo para desenvolvedores empresariais, garantindo que a transição e otimização dos modelos sejam feitas de maneira eficiente e sem complicações. Essa automação visa aprimorar a capacidade de resposta e a adaptabilidade dos sistemas.

Em última análise, a meta é ir além das implementações de IA isoladas. “O Arch-Router — e o Arch de forma mais ampla — ajuda desenvolvedores e empresas a passar de implementações fragmentadas de LLM para um sistema unificado e orientado por políticas”, afirma Paracha. “Em cenários onde as tarefas do usuário são diversas, nossa estrutura ajuda a transformar essa fragmentação de tarefas e LLM em uma experiência unificada, fazendo com que o produto final pareça contínuo para o usuário.”

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.