PDF
摘要
针对智慧校园数据挖掘中存在的高维稀疏数据处理效率低、时空关联分析不足等问题,设计了一个基于改进Spark MLlib的数据挖掘系统.系统由感知层、网络层、数据层和应用层构成.研究了改进的TDDBSCAN聚类算法、STAM时空异常度量算法和D-Apriori关联规则挖掘算法在学生群体行为分析中的应用效果,结果显示:相比传统DBSCAN算法,改进的TD-DBSCAN在处理100万条行为序列数据时,聚类处理时间从286.5s降至184.3s,内存占用降低至12.1GB,准确率提升了6.3个百分点;相比基准方法,STAM的异常检测时间从165.2s降至95.7s;相比传统Apriori算法,D-Apriori的规则挖掘准确率提升了14.1个百分点,处理时间缩短至198.4s.系统在教室、图书馆和食堂3个场景对学生行为数据进行挖掘分析表明,该分布式数据挖掘框架能有效提高校园场景资源的预测与智能管理能力,验证了系统框架的可行性和有效性.研究结果可为智慧校园的精细化运用提供良好技术参考.
关键词
Spark MLlib
/
智慧校园
/
学生课程行为序列
/
数据挖掘
/
预测模型
Key words
基于改进Spark MLlib的校园学生课程行为预测研究[J].
延边大学学报(自然科学版), 2025, 51(4): 91-97 DOI:10.16379/j.cnki.issn.1004-4353.2025.04.003