▲
- A pesquisa da Bloomberg expõe que a técnica RAG pode comprometer a segurança de LLMs, revelando um efeito colateral inesperado.
- Se você utiliza IA, este estudo pode impactar a forma como você implementa soluções, exigindo maior atenção às salvaguardas.
- Os resultados indicam que o uso do RAG pode fazer com que modelos de IA respondam a consultas que deveriam ser bloqueadas, aumentando o risco geral.
- A pesquisa também sugere que para assegurar a segurança, as empresas devem desenvolver taxonomias de risco específicas para seus setores.
A técnica Retrieval Augmented Generation (RAG), usada para melhorar a precisão da IA com conteúdo contextualizado, pode ter um efeito colateral inesperado. Uma nova pesquisa da Bloomberg revela que o RAG pode, na verdade, tornar os Grandes Modelos de Linguagem (LLMs) menos seguros, contrariando a ideia de que ele sempre aumenta a segurança dos sistemas de IA.
RAG e a Surpreendente Redução na Segurança
A pesquisa da Bloomberg, intitulada ‘RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models’, avaliou 11 LLMs populares, como Claude-3.5-Sonnet, Llama-3-8B e GPT-4o. Os resultados desafiam a crença comum de que o RAG para LLMs inerentemente torna os sistemas de IA mais seguros.
A equipe descobriu que, ao usar RAG, modelos que normalmente recusam consultas prejudiciais em configurações padrão acabam produzindo respostas inseguras. Essa constatação levanta questões importantes sobre como essa tecnologia interage com os mecanismos de proteção já existentes nos modelos.
Por exemplo, as respostas inseguras do Llama-3-8B saltaram de 0,3% para 9,2% quando o RAG foi implementado. Esse aumento significativo sugere que a introdução de contexto externo pode, de alguma forma, influenciar o comportamento do modelo em relação a conteúdos sensíveis.
É importante notar que a pesquisa não questiona a eficácia do RAG para reduzir alucinações ou melhorar a precisão factual. O foco está especificamente no seu impacto inesperado sobre as barreiras de segurança (guardrails) que os LLMs possuem para evitar respostas inadequadas ou perigosas.
Leia também:
Como o RAG Pode Burlar as Barreiras de Segurança?
Sebastian Gehrmann, chefe de IA Responsável da Bloomberg, explicou que, sem RAG, uma consulta maliciosa geralmente é bloqueada pelos guardrails internos do LLM. O modelo identifica a natureza da pergunta e se recusa a responder.
No entanto, com o RAG, mesmo que os documentos recuperados para fornecer contexto sejam completamente seguros e não abordem diretamente a consulta maliciosa, o sistema pode, ainda assim, acabar respondendo à pergunta original que deveria ter sido bloqueada. Parece que o contexto adicional interfere no processo de filtragem.
Os pesquisadores não têm certeza absoluta do motivo exato, mas Gehrmann levanta a hipótese de que os LLMs podem não ter sido adequadamente treinados ou ajustados para manter a segurança com entradas muito longas, como as que frequentemente ocorrem quando se usa RAG (consulta original + documentos recuperados).
A pesquisa demonstrou que o tamanho do contexto fornecido ao LLM afeta diretamente a degradação da segurança. Quanto mais documentos são recuperados e adicionados à consulta, maior a tendência de vulnerabilidade do modelo, mesmo que um único documento seguro possa alterar o comportamento.
Amanda Stent, chefe de Estratégia e Pesquisa de IA da Bloomberg, reforça essa visão: “Você realmente não pode escapar desse risco. É inerente à forma como os sistemas RAG funcionam. A maneira de escapar é colocando lógica de negócios, verificações de fatos ou guardrails *em torno* do sistema RAG central.”
Falhas das Taxonomias Genéricas de Segurança em Setores Específicos
Um segundo estudo da Bloomberg, ‘Understanding and Mitigating Risks of Generative AI in Financial Services’, aprofunda a questão da segurança, focando nos riscos específicos do setor financeiro. A pesquisa argumenta que abordagens genéricas de segurança não são suficientes para todos os contextos.
O estudo introduz uma taxonomia especializada de risco de conteúdo de IA para serviços financeiros. Essa taxonomia aborda preocupações particulares do domínio, como má conduta financeira, divulgação de informações confidenciais e narrativas contrafactuais, que geralmente não são cobertas por modelos de segurança de propósito geral.
Os pesquisadores demonstraram empiricamente que sistemas de guardrail de código aberto existentes, como Llama Guard, AEGIS e ShieldGemma, falham em detectar esses riscos especializados. Eles foram testados contra dados coletados durante exercícios internos de red teaming.
“Desenvolvemos essa taxonomia e, em seguida, realizamos um experimento onde pegamos sistemas de guardrail disponíveis publicamente… e os executamos contra dados que coletamos”, explicou Gehrmann. “Descobrimos que esses guardrails de código aberto… não encontram nenhum dos problemas específicos de nossa indústria.” Isso levanta a questão de como saber se seu produto de IA está realmente funcionando em cenários reais.
A principal conclusão é que modelos de segurança genéricos são geralmente desenvolvidos com foco em riscos voltados ao consumidor, como toxicidade e viés generalizado. As organizações, especialmente em setores regulados, precisam desenvolver ou adotar taxonomias e guardrails específicos para seus próprios domínios e casos de uso.
A Abordagem da Bloomberg para IA Responsável
Como uma empresa conhecida por fornecer dados e sistemas financeiros, a Bloomberg poderia ser vista como tendo um viés contra o uso de IA generativa que pudesse competir com seus produtos tradicionais. No entanto, Amanda Stent discorda dessa percepção.
“Estamos no negócio de dar aos nossos clientes os melhores dados e análises… A IA generativa é uma ferramenta que pode realmente ajudar na descoberta, análise e síntese de informações em dados e análises, então, para nós, é um benefício”, afirmou Stent.
Ela acrescenta que as preocupações da Bloomberg com vieses em suas soluções de IA estão focadas especificamente no domínio financeiro. Questões como data drift (mudança nas características dos dados ao longo do tempo), model drift (degradação do desempenho do modelo) e garantir uma boa representação em toda a gama de ativos e títulos processados são cruciais.
Para os próprios esforços de IA da Bloomberg, Stent destacou o compromisso com a transparência como um pilar fundamental. “Tudo o que o sistema produz, você pode rastrear de volta, não apenas a um documento, mas ao local no documento de onde veio”, disse ela.
O Que Isso Significa para Empresas que Usam IA?
Para as empresas que buscam implementar soluções de IA, especialmente aquelas que utilizam RAG, a pesquisa da Bloomberg traz implicações práticas importantes. Ela sugere que a implementação de RAG requer uma reconsideração fundamental da arquitetura de segurança.
Os líderes empresariais e equipes de tecnologia precisam ir além de ver os guardrails e o RAG como componentes separados. Em vez disso, devem projetar sistemas de segurança integrados que antecipem especificamente como o conteúdo recuperado pelo RAG pode interagir com as salvaguardas do modelo LLM.
As organizações precisarão desenvolver taxonomias de risco específicas para seus domínios e ambientes regulatórios, afastando-se de modelos de segurança de IA genéricos. Isso é especialmente relevante à medida que novas tecnologias como processadores com foco em IA se tornam mais comuns e as aplicações se tornam mais complexas.
À medida que a IA se torna cada vez mais integrada em fluxos de trabalho críticos para os negócios, essa abordagem personalizada transforma a segurança. Deixa de ser apenas um exercício de conformidade para se tornar um diferencial competitivo que clientes e reguladores passarão a esperar.
“Realmente começa por estar ciente de que esses problemas podem ocorrer, tomar a ação de realmente medi-los e identificar esses problemas e, em seguida, desenvolver salvaguardas que são específicas para a aplicação que você está construindo”, concluiu Gehrmann.
A integração de tecnologias como RAG em LLMs continua a evoluir, e estudos como o da Bloomberg destacam a necessidade constante de vigilância e avaliação crítica. Fica claro que abordagens de segurança “tamanho único” podem não ser suficientes, especialmente em setores com riscos e requisitos únicos. A avaliação contínua e a adaptação das medidas de segurança são fundamentais para garantir o uso responsável e benéfico da inteligência artificial nas empresas.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat