面向短文本分类的ChatGLM数据增强方法

陈晓江, 陈广豪, 胡舜邦

辽宁开放大学学报(自然科学版) ›› 2026, Vol. 0 ›› Issue (01) : 8 -17.

PDF
辽宁开放大学学报(自然科学版) ›› 2026, Vol. 0 ›› Issue (01) : 8 -17. DOI: 10.19469/j.cnki.2097-552X.2026.01.0008

面向短文本分类的ChatGLM数据增强方法

    陈晓江, 陈广豪, 胡舜邦
作者信息 +

Author information +
文章历史 +
PDF

摘要

短文本分类在社交媒体分析、即时评论处理等场景中应用广泛,但模型的性能往往受限于标注数据稀缺。尽管数据增强(Data Augmentation,DA)是缓解该问题的有效手段,但传统方法如简易数据增强(Easy Data Augmentation,EDA)和更简易数据增强(An Easier Data Augmentation,AEDA)在实施中易引入语义噪声或生成质量不稳定。近年来,生成式大模型如对话通用语言模型(Chat General Language Model,ChatGLM)在文本重构与风格转换方面展现出显著潜力。因此,文章提出一种面向短文本分类的ChatGLM数据增强(Chat General Language Model Data Augmentation,CDA)方法。该方法通过结构化提示模板引导ChatGLM生成语义一致、文本风格多样的增强文本,并利用BERTscore进行质量筛选与融合,从而构建增强数据集。在5个公共数据集上对基于Transformers的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的文本分类模型进行训练,实验结果表明,相较于未采用数据增强的原始数据集,CDA显著提升了BERT模型的分类准确率,提升幅度分别为0.50%、1.11%、0.59%、1.30%及0.18%。此外,相较于EDA和AEDA,CDA在BERT、RoBERTa和ALBERT模型上亦展现出更为优越的性能。这证实了生成式语言模型在短文本数据增强中的有效性,为小样本场景下的文本分类任务提供了可靠且易实施的增强方案。

关键词

数据增强 / ChatGLM / 短文本分类 / BERT

Key words

引用本文

引用格式 ▾
陈晓江, 陈广豪, 胡舜邦. 面向短文本分类的ChatGLM数据增强方法[J]. 辽宁开放大学学报(自然科学版), 2026, 0(01): 8-17 DOI:10.19469/j.cnki.2097-552X.2026.01.0008

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

1

访问

0

被引

详细

导航
相关文章

AI思维导图

/