PDF
摘要
短文本分类在社交媒体分析、即时评论处理等场景中应用广泛,但模型的性能往往受限于标注数据稀缺。尽管数据增强(Data Augmentation,DA)是缓解该问题的有效手段,但传统方法如简易数据增强(Easy Data Augmentation,EDA)和更简易数据增强(An Easier Data Augmentation,AEDA)在实施中易引入语义噪声或生成质量不稳定。近年来,生成式大模型如对话通用语言模型(Chat General Language Model,ChatGLM)在文本重构与风格转换方面展现出显著潜力。因此,文章提出一种面向短文本分类的ChatGLM数据增强(Chat General Language Model Data Augmentation,CDA)方法。该方法通过结构化提示模板引导ChatGLM生成语义一致、文本风格多样的增强文本,并利用BERTscore进行质量筛选与融合,从而构建增强数据集。在5个公共数据集上对基于Transformers的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的文本分类模型进行训练,实验结果表明,相较于未采用数据增强的原始数据集,CDA显著提升了BERT模型的分类准确率,提升幅度分别为0.50%、1.11%、0.59%、1.30%及0.18%。此外,相较于EDA和AEDA,CDA在BERT、RoBERTa和ALBERT模型上亦展现出更为优越的性能。这证实了生成式语言模型在短文本数据增强中的有效性,为小样本场景下的文本分类任务提供了可靠且易实施的增强方案。
关键词
Key words
陈晓江, 陈广豪, 胡舜邦.
面向短文本分类的ChatGLM数据增强方法[J].
辽宁开放大学学报(自然科学版), 2026, 0(01): 8-17 DOI:10.19469/j.cnki.2097-552X.2026.01.0008