Testes realizados pela Cisco revelaram Falhas de segurança DeepSeek críticas que tornam a inteligência artificial vulnerável a ataques. Os resultados, divulgados em 31 de janeiro, demonstram a facilidade de burlar o chatbot e usá-lo para fins maliciosos. Foram utilizados 50 prompts aleatórios do HarmBench, conjunto de dados que abrange categorias como crimes cibernéticos, desinformação e prompts químicos e biológicos.
Falhas de segurança DeepSeek: IA reprovada em teste
O experimento, semelhante a um jailbreaking, avaliou a facilidade de contornar as diretrizes e políticas de uso da IA. O DeepSeek apresentou a pior performance entre as IAs testadas. O DeepSeek R1 teve uma taxa de sucesso de ataque de 100%, falhando em bloquear todos os prompts prejudiciais.
Isso indica que a IA chinesa é “altamente suscetível a jailbreak algorítmico e potencial uso indevido”. Outros modelos de IA também foram testados. O Llama 3.1 405B da Meta obteve 96% de taxa de sucesso de ataque, seguido pelo GPT-4 com 86% e o Gemini 1.5 Pro com 64%. O o1, em versão prévia, foi o mais resistente, com 26%, seguido pelo Claude 3.5 com 36%.
Segurança do DeepSeek precisa de reforço
Os pesquisadores atribuem o baixo desempenho do DeepSeek a três fatores: aprendizado por reforço, autoavaliação de cadeia de pensamento e destilação. Métodos de treinamento mais econômicos podem ter comprometido os mecanismos de segurança da plataforma. A Cisco recomendou que a startup chinesa adote medidas para melhorar a segurança de sua IA. A pesquisa destaca a necessidade de avaliações rigorosas no desenvolvimento de IAs, garantindo que a eficiência e o raciocínio não comprometam a segurança.
O DeepSeek já enfrentou problemas de segurança anteriormente, com exposição de milhões de dados sensíveis e um ataque DDoS massivo na semana anterior que o deixou temporariamente indisponível. Com um crescente número de usuários globalmente, a segurança da plataforma se torna ainda mais crucial.
Leia também:
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via TecMundo