近日,实验室陈恺、孟国柱老师课题组在大模型及其生态安全领域取得了一系列重要进展。课题组的一年级博士生刘通和张英杰,以第一作者和第二作者的身份,凭借其对大模型越狱的研究成果,在USENIX Security 2024(CCF-A)上发表了题为“Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction”的论文。值得一提的是,同年USENIX Security仅接受了四篇与大模型越狱相关的论文。此外,刘通同学还以第一作者的身份在CCS 2024(CCF-A)上发表了另一篇论文:“Demystifying RCE Vulnerabilities in LLM-Integrated Apps”,深入探讨了大模型生态中的远程代码执行漏洞。此研究成果还成功入选BlackHat Asia 2024大会,刘通同学在大会上做了现场报告。
大型语言模型虽然在许多下游任务中展示了强大的能力,但其可信度问题仍然悬而未决。一个主要威胁是经过安全对齐的大模型仍然可能生成有害的回答,研究者们称之为越狱。“Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction”开创性地为大模型自身的安全性奠定了理论基础。与其他以结果为导向的越狱研究不同的是,作者们首先识别了安全对齐中引入的bias漏洞,以此为理论基础,设计了一种名为DRA(Disguise and Reconstruction Attack)的黑盒越狱方法。这种过程导向型研究具有可解释性,为后续的研究打下了基础。DRA通过伪装隐藏有害指令,并促使模型在生成的回答中重建原始的有害指令,从而触发bias漏洞。对多种开源和闭源模型的攻击实验表示,DRA与其他先进的越狱方法相比,都取得了SOTA的越狱成功率和攻击效率。
DRA攻击概览
除了针对大模型自身的安全研究外,“Demystifying RCE Vulnerabilities in LLM-Integrated Apps”主要关注大模型生态的安全,首次探讨了大模型集成框架和应用中的RCE漏洞。研究中指出,大模型有时可以使得传统的攻击“迎来第二春”,产生新的攻击面。RCE在大模型时代下变得更加地容易,有时攻击者甚至不需要扎实的计算机安全背景,只需要几句简单的自然语言就可以完成攻击。为了系统地度量这种新型的漏洞,作者们提出了LLMSmith来检测、验证和利用LLM集成框架和应用中的RCE漏洞。研究共发现了11个框架中的20个漏洞,包括19个RCE漏洞和1个任意文件读写漏洞,其中17个已被框架开发者确认,11个已分配CVE编号,并获得致谢和bug bounty。在LLMSmith有针对性地收集了真实世界中51个潜在受影响的应用后,成功对17个应用进行了攻击,其中16个易受RCE攻击,1个易受SQL注入攻击。这些发现验证了漏洞在现实世界中的影响,得到了相关社区和安全研究人员的广泛关注,为LLM生态的安全发展提供了重要参考。
LLMSmith整体流程概览
论文信息:
Tong Liu, Zizhuang Deng, Guozhu Meng, Yuekang Li, Kai Chen, "Demystifying RCE Vulnerabilities in LLM-Integrated Apps", The 31th ACM Conference on Computer and Communications Security (CCS),2024.
Tong Liu, Yingjie Zhang, Zhe Zhao, YinPeng Dong, Guozhu Meng, Kai Chen, "Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction", The 33rd USENIX Security Symposium (USENIX Security),2024.