PDF
摘要
针对交通事故文本关键信息挖掘不充分、提取效率低的问题,提出一种基于RoBERTa-WWM-BiLSTM-CRF的交通事故命名实体识别(Named Entity Recognition, NER)方法。根据交通事故实体的语义复杂性和强上下文依赖性,引入RoBERTa-WWM(Robustly Optimized BERT Approach with Whole Word Masking)在更大规模的文本语料库进行整词掩蔽预训练,生成包含全局序列信息和词级特征的嵌入表示;采用双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)捕捉局部上下文依赖;通过条件随机场(Conditional Random Field, CRF)获得最优预测序列。对自建的交通事故文本数据集进行命名实体识别,结果表明,文中模型的各项评价指标均优于其他3种模型,精确率为87.79%,召回率为91.13%,F1值为89.43%,比基准模型提升3.34%,验证了其对识别并提取交通事故文本关键信息的有效性。
关键词
Key words
基于RoBERTa-WWM的交通事故命名实体识别[J].
公路与汽运, 2025, 41(06): 30-35 DOI:10.20035/j.issn.1671-2668.2025.06.006