中文文本去毒任务的研究

刘江盛, 左家莉, 胡玉婷, 万剑怡, 王明文

山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (03) : 528 -538.

PDF (1745KB)
山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (03) : 528 -538. DOI: 10.13451/j.sxu.ns.2024001

中文文本去毒任务的研究

作者信息 +

Author information +
文章历史 +
PDF (1786K)

摘要

文章旨在研究如何有效去除中文文本的毒性。针对此任务,文章重构了一个中文毒性语料集,以此作为任务研究的数据基础。基于此数据集文章探究了文本的毒性表现形式,同时对特定类别的毒性文本成因展开了分析。基于上述分析结果,文章使用基于编辑式、生成式两类文本风格迁移模型进行文本去毒,并进一步探究了大语言模型基于不同Prompt时去除文本毒性的表现。据实验结果表明,基于编辑式的模型能有效去除显式毒性文本的毒性,且具有较高的内容保存度,生成式模型生成的文本则有更高的流畅度。基于Prompt的大语言模型在一定程度上可以去除句子毒性,但相较于特定的风格迁移模型而言,小参数大语言模型的去毒能力还有待提高。

关键词

文本风格迁移 / 文本去毒 / 大语言模型

Key words

引用本文

引用格式 ▾
刘江盛, 左家莉, 胡玉婷, 万剑怡, 王明文. 中文文本去毒任务的研究[J]. 山西大学学报(自然科学版), 2024, 47(03): 528-538 DOI:10.13451/j.sxu.ns.2024001

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF (1745KB)

59

访问

0

被引

详细

导航
相关文章

AI思维导图

/