大规模中文金融情感分析数据集自动构建

李大宇, 李旸, 王素格

山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (04) : 776 -785.

PDF (2736KB)
山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (04) : 776 -785. DOI: 10.13451/j.sxu.ns.2024111

大规模中文金融情感分析数据集自动构建

作者信息 +

Author information +
文章历史 +
PDF (2800K)

摘要

金融文本中蕴含着丰富的情感信息,对于捕捉金融市场情绪波动、辅助投资者决策以及实施金融风险管理等都具有重要意义。然而,金融文本的情感标注需要大量领域专家知识,人工标注成本高昂。文章设计了一种基于表情符号远监督指导的自动标注策略,将金融文本中表情符号所表达的情感含义作为指导信息,自动标注文本的情感倾向,构建基础标注数据集;在此基础上,采用持续学习算法训练金融文本情感分类器,预测未标注数据,生成伪标签样本,进一步扩展标注数据集。最终,自动构建了一个包含923万余条股市评论的大规模中文金融情感分析数据集StockSentCN。在人工评估体系下,该数据集的Kappa一致性系数达到0.85,加权平均F1值达到90.34%,证明了所构建数据集的高质量与可靠性。数据集公开下载地址为:https://github.com/lidayuls/StockSentCN/。

关键词

中文金融情感分析 / 股市情感 / 数据集构建 / 表情符号 / 持续学习

Key words

引用本文

引用格式 ▾
李大宇, 李旸, 王素格. 大规模中文金融情感分析数据集自动构建[J]. 山西大学学报(自然科学版), 2024, 47(04): 776-785 DOI:10.13451/j.sxu.ns.2024111

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF (2736KB)

150

访问

0

被引

详细

导航
相关文章

AI思维导图

/