一种基于联合检测编辑机制的司法文本智能纠错方法

王嘉宝; 翁洋; 李鑫

doi:10.19907/j.0490-6756.250293

四川大学学报(自然科学版) ›› 2026, Vol. 63 ›› Issue (01) : 208 -217. DOI: 10.19907/j.0490-6756.250293

一种基于联合检测编辑机制的司法文本智能纠错方法

王嘉宝, 翁洋, 李鑫

作者信息 +

Author information +

文章历史 +

PDF

摘要

在司法实践中，庭审记录往往存在语法不规范或表述含糊，如果不加处理就被用于计算机自动判决就可能出现理解错误，影响判决结果。因此，对庭审记录进行语法纠错十分必要。在实际应用中，语法纠错通常被建模为序列到序列的生成任务，即生产式语言模型。在细粒度纠错中，生成式语言模型容易产生流畅但语义偏离的输出，可靠性较为有限。为了解决这个问题，本文提出了一种基于联合检测编辑机制的纠错模型，将语法纠错任务重构为token级标签预测任务，对每个token直接进行预测编辑操作，实现精确纠错。本文设计了一个融合基础编辑操作和五类针对常见中文语法错误模式的专项转换标签丰富标签集，每个标签显式地编码错误类型和目标token，以提供可解释的纠错结果。为了提升模型的训练效率与预测准确率，token级连续相同的操作被合并为单一组合标签。基于联合训练策略，模型采用联合loss同步优化错误检测与类型分类任务，有效提高了模型的鲁棒性与语义忠实性。本文对多种预训练模型进行微调，使模型在多项指标上超越现有的生成式大语言模型，显著提升推理速度。实证分析表明，模型能够在保持语义忠实度的同时更加稳健地处理常见中文语法错误。