面向优化的大语言模型黑盒越狱攻击研究综述

陶佳玲; 黄松; 高心怡; 方勇; 曲豫宾; 李瑞阳; 陆江涛

doi:10.19907/j.0490-6756.250250

四川大学学报(自然科学版) ›› 2026, Vol. 63 ›› Issue (02) : 241 -258. DOI: 10.19907/j.0490-6756.250250

面向优化的大语言模型黑盒越狱攻击研究综述

陶佳玲, 黄松, 高心怡, 方勇, 曲豫宾, 李瑞阳, 陆江涛

作者信息 +

Author information +

文章历史 +

PDF

摘要

大型语言模型（Large Language Models,LLMs）在自然语言处理领域展现出强大的能力，但其安全漏洞，尤其是越狱攻击已成为当前的核心挑战。越狱攻击利用精心构造的对抗性提示突破模型的安全对齐机制，揭示了基于人类反馈强化学习（Reinforcement Learning from Human Feedback,RLHF）等对齐技术的局限性。当前基于模版或者手工设计的越狱方法因其成功率低且泛化性差，在持续迭代的LLMs安全机制下迅速失效。而基于优化的越狱方法凭借其自动生成对抗性提示的能力，在攻击成功率和隐蔽性方面表现显著，能够有效规避常规检测手段。针对白盒攻击对梯度信息的依赖与迁移性差等问题，本文聚焦黑盒优化范式，首次系统性地将现有越狱方法归纳为4类框架：基于遗传算法的优化、基于强化学习的优化、基于模糊测试的优化和基于LLMs对抗生成的优化。深入剖析各类方法的核心机制、技术优势与约束。本文的主要贡献在于提出一种新颖的分类体系与研究视角，明确指出现有防御手段在实时性、泛化性和攻防平衡方面的严重不足，并进一步倡导构建动态化防御架构与标准化评估基准，为探索LLMs在对抗环境中的安全性与性能平衡机制提供理论支持与实践指引。