基于大语言模型的两阶段小麦品种审定文本结构化信息抽取方法

车银超; 熊民民; 王顺; 马新明; 熊淑萍; 席磊

中国农业大学学报 ›› 2026, Vol. 31 ›› Issue (5) : 36 -51.

车银超, 熊民民, 王顺, 马新明, 熊淑萍, 席磊

作者信息 +

Author information +

文章历史 +

摘要

为提升小麦品种审定文本的结构化信息抽取能力，针对该类文本术语密集、数据异构、多重关系并存及实体间跨度大等特征，以及现有方法在标注依赖、领域迁移、示例选择与预测优化等方面的局限，提出一种基于大语言模型的两阶段小麦品种审定文本结构化信息抽取方法（Semantic-masked and progressive-optimization,SMPO）。该方法以语义脱敏机制和递进动态知识校准框架为核心，构建面向少样本上下文学习的信息抽取流程。在自建的小麦品种审定数据集（Wheat Variety Registration Dataset,WVRD）、公开的纽约时报数据集（New York Times Dataset, NYT）和CoNLL04数据集上，对所提方法进行了实验验证，并与上下文学习方法和判别式方法进行了对比分析。结果表明：1）在第一阶段，语义脱敏机制能够构建深层语义表征，提升了示例检索的语义对齐度与初始预测精度。2）在第二阶段，知识驱动的多策略递进优化有效缓解了关系遗漏、语义混淆和关系幻觉等问题，提高了抽取结果的完整性、准确性和真实性。3)SMPO在WVRD、NYT和CoNLL04数据集上的F1值分别达到98.25%、74.83%和67.01%；相比传统判别式方法CasRel,SMPO在WVRD数据集上的F1值提升6.39%，在NYT和CoNLL04数据集上也整体优于C-ICL和CodeIE等上下文学习方法。综上，SMPO在无需微调的少样本上下文学习范式下，实现了灵活高效的结构化信息抽取，并具有一定的泛化性，可为小麦品种审定及其他专业文本智能理解与知识结构化表达提供技术支撑。