面向优化的大语言模型黑盒越狱攻击研究综述

陶佳玲, 黄松, 高心怡, 方勇, 曲豫宾, 李瑞阳, 陆江涛

四川大学学报(自然科学版) ›› 2026, Vol. 63 ›› Issue (02) : 241 -258.

PDF
四川大学学报(自然科学版) ›› 2026, Vol. 63 ›› Issue (02) : 241 -258. DOI: 10.19907/j.0490-6756.250250

面向优化的大语言模型黑盒越狱攻击研究综述

    陶佳玲, 黄松, 高心怡, 方勇, 曲豫宾, 李瑞阳, 陆江涛
作者信息 +

Author information +
文章历史 +
PDF

摘要

大型语言模型(Large Language Models,LLMs)在自然语言处理领域展现出强大的能力,但其安全漏洞,尤其是越狱攻击已成为当前的核心挑战。越狱攻击利用精心构造的对抗性提示突破模型的安全对齐机制,揭示了基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)等对齐技术的局限性。当前基于模版或者手工设计的越狱方法因其成功率低且泛化性差,在持续迭代的LLMs安全机制下迅速失效。而基于优化的越狱方法凭借其自动生成对抗性提示的能力,在攻击成功率和隐蔽性方面表现显著,能够有效规避常规检测手段。针对白盒攻击对梯度信息的依赖与迁移性差等问题,本文聚焦黑盒优化范式,首次系统性地将现有越狱方法归纳为4类框架:基于遗传算法的优化、基于强化学习的优化、基于模糊测试的优化和基于LLMs对抗生成的优化。深入剖析各类方法的核心机制、技术优势与约束。本文的主要贡献在于提出一种新颖的分类体系与研究视角,明确指出现有防御手段在实时性、泛化性和攻防平衡方面的严重不足,并进一步倡导构建动态化防御架构与标准化评估基准,为探索LLMs在对抗环境中的安全性与性能平衡机制提供理论支持与实践指引。

关键词

大语言模型 / 优化 / 越狱攻击 / 越狱防御

Key words

引用本文

引用格式 ▾
面向优化的大语言模型黑盒越狱攻击研究综述[J]. 四川大学学报(自然科学版), 2026, 63(02): 241-258 DOI:10.19907/j.0490-6756.250250

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

3

访问

0

被引

详细

导航
相关文章

AI思维导图

/