面向短文本分类的ChatGLM数据增强方法

陈晓江; 陈广豪; 胡舜邦

doi:10.19469/j.cnki.2097-552X.2026.01.0008

辽宁开放大学学报（自然科学版） ›› 2026, Vol. 0 ›› Issue (01) : 8 -17. DOI: 10.19469/j.cnki.2097-552X.2026.01.0008

面向短文本分类的ChatGLM数据增强方法

陈晓江, 陈广豪, 胡舜邦

作者信息 +

Author information +

文章历史 +

PDF

摘要

短文本分类在社交媒体分析、即时评论处理等场景中应用广泛，但模型的性能往往受限于标注数据稀缺。尽管数据增强（Data Augmentation,DA）是缓解该问题的有效手段，但传统方法如简易数据增强（Easy Data Augmentation,EDA）和更简易数据增强（An Easier Data Augmentation,AEDA）在实施中易引入语义噪声或生成质量不稳定。近年来，生成式大模型如对话通用语言模型（Chat General Language Model,ChatGLM）在文本重构与风格转换方面展现出显著潜力。因此，文章提出一种面向短文本分类的ChatGLM数据增强（Chat General Language Model Data Augmentation,CDA）方法。该方法通过结构化提示模板引导ChatGLM生成语义一致、文本风格多样的增强文本，并利用BERTscore进行质量筛选与融合，从而构建增强数据集。在5个公共数据集上对基于Transformers的双向编码器表示（Bidirectional Encoder Representations from Transformers,BERT）的文本分类模型进行训练，实验结果表明，相较于未采用数据增强的原始数据集，CDA显著提升了BERT模型的分类准确率，提升幅度分别为0.50%、1.11%、0.59%、1.30%及0.18%。此外，相较于EDA和AEDA,CDA在BERT、RoBERTa和ALBERT模型上亦展现出更为优越的性能。这证实了生成式语言模型在短文本数据增强中的有效性，为小样本场景下的文本分类任务提供了可靠且易实施的增强方案。