第46届 IEEE Symposium on Security and Privacy(IEEE S&P 2025)于2025年5月12日至15日在美国旧金山举行。网络空间安全防御全国重点实验室侯锐研究员团队关于大语言模型隐私推理的最新研究成果在大会上成功发表。IEEE S&P 自1980年创办以来,一直被公认为计算机安全领域的顶级国际会议,同时也是中国计算机学会推荐的A类国际学术会议(CCF-A)。本届会议共收到投稿1740篇,最终接收257篇,录用率为14.8%。
论文题为《Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity》,第一作者为博士生颜广,通讯作者为侯锐研究员和张玉会副研究员,合作作者包括郭紫苜、赵路坦、陈小军、王文浩、王晨(清华大学)、孟丹。该研究聚焦于隐私保护下的大语言模型推理加速这一前沿难题,创新性地利用推理过程中的激活稀疏性降低计算与通信开销,为实现高效、安全的大模型推理提供了新的系统设计思路,拓展了隐私计算在人工智能基础设施中的应用边界。
研究背景:当前,大语言模型推理通常依赖云端执行,要求用户上传私有数据,存在显著隐私风险。尽管密码学方案能够在密态数据下实现推理,保障用户隐私,但常伴随巨大的计算和通信开销,导致较高推理延迟。
论文简介:论文提出了新型隐私推理系统Comet,利用大语言模型在推理过程中的激活稀疏性来降低密态计算和通信开销。具体而言,Comet 通过稀疏性预测器识别推理中未激活的神经元,并设计安全协议跳过其计算和通信,从而加速推理。同时,该系统还设计了新的KV cache管理策略,通过缓存填充和预取,确保稀疏推理与KV cache之间的高效协同。实验结果表明,Comet在多个主流模型与推理任务中均显著减少了推理延迟和通信负载,其推理速度较现有系统提升了1.87至2.63倍,通信开销减少了1.94至2.64倍,表现出良好的通用性与实际部署潜力。
Comet系统架构
论文信息:Guang Yan, Yuhui Zhang, Zimu Guo, Lutan Zhao, Xiaojun Chen, Chen Wang, Wenhao Wang, Dan Meng, Rui Hou. Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity. IEEE Symposium on Security and Privacy (S&P), 2025.