PDF
摘要
中文语法纠错旨在通过模型自动识别并修正中文文本中的语法错误,从而提升文本的准确性和可读性.然而,现有的中文语法纠错模型在纠错过程中常面临暴露偏差问题,并且对大模型的应用仍显不足,导致纠错效果欠佳.为此,本文提出了一种基于类型驱动的中文语法纠错模型CTDGC(Chinese Types Driven Grammatical Correction).该模型通过深入探讨中文四种主要语法错误(冗余、缺失、错词、乱序)之间的依赖关系,设计了两阶段训练策略,有效缓解了训练与预测的不匹配问题,在CGED2020数据集上单模型F0.5达到34.18%,优于以往的方法.此外,本文还提出了一种基于ChatGLM的中文语法纠错模型CorGLM(Chinese Grammatical Correction Model based on ChatGLM),并对Baichuan大模型设计了特定的Prompt.通过与CTDGC等模型的融合,F0.5显著提升至40.33%,验证了本文方法的有效性和优越性.
关键词
中文语法纠错
/
类型依赖关系
/
两阶段训练
/
大规模语言模型
/
模型融合
Key words
基于类型驱动及模型融合的中文语法纠错研究[J].
南京师大学报(自然科学版), 2025, 48(03): 139-148 DOI:CNKI:SUN:NJSF.0.2025-03-016