针对文本分类模型的高效硬标签对抗攻击方法

邱士林, 刘启和, 周世杰, 曾逸

电子科技大学学报 ›› 2026, Vol. 55 ›› Issue (1) : 116 -128.

PDF
电子科技大学学报 ›› 2026, Vol. 55 ›› Issue (1) : 116 -128.

针对文本分类模型的高效硬标签对抗攻击方法

    邱士林, 刘启和, 周世杰, 曾逸
作者信息 +

Author information +
文章历史 +
PDF

摘要

为了评估自然语言处理模型在真实应用场景下的对抗鲁棒性,硬标签设置下的黑盒对抗攻击技术逐渐引发关注。然而,受限于文本的离散性、反馈信息有限、查询次数限制等因素,现有硬标签对抗攻击方法通常存在查询次数多、对抗文本语义一致性低等问题,难以满足真实应用场景需求。因此,提出了一种高效的硬标签对抗攻击方法,该方法在对抗文本初始化阶段引入注意力机制,并在对抗文本语义优化阶段中提出了基于语义聚类的同义词搜索、基于语义梯度的动态扩展同义词搜索两个策略。实验结果表明,该方法能以少量查询来生成语义一致性高、自然流畅的高质量对抗文本。

关键词

对抗攻击 / 对抗样本 / 鲁棒性 / 自然语言处理 / 人工智能

Key words

引用本文

引用格式 ▾
针对文本分类模型的高效硬标签对抗攻击方法[J]. 电子科技大学学报, 2026, 55(1): 116-128 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

4

访问

0

被引

详细

导航
相关文章

AI思维导图

/