大语言模型在开源项目主题标注中的应用与评估研究

何德鑫, 韩凡宇, 王伟

华东师范大学学报(自然科学版) ›› 2025, Vol. 0 ›› Issue (5) : 14 -24.

PDF
华东师范大学学报(自然科学版) ›› 2025, Vol. 0 ›› Issue (5) : 14 -24.

大语言模型在开源项目主题标注中的应用与评估研究

    何德鑫, 韩凡宇, 王伟
作者信息 +

Author information +
文章历史 +
PDF

摘要

随着开源社区的快速发展, GitHub项目的数量持续激增;然而一部分项目未提供明确的主题标签,给开发者在技术选型和项目检索的过程中带来了挑战.现有的主题生成方法主要依赖于监督学习范式,存在对高质量标注数据有较强依赖性等问题.针对开源项目主题标注的准确性及效率问题,首次研究了大语言模型在GitHub项目主题预测任务中的应用效果;构建了包含3 000个GitHub热门项目的数据集,涵盖项目仓库名、README文档和描述信息等多维度特征;选择Claude 3.7 Sonnet、DeepSeek-V3、Gemini 2.0Flash、GPT-4o和Qwen-Plus等数个国内外主流大语言模型进行了对比实验.实验结果表明, Claude 3.7Sonnet在多数评估指标上表现最优,且随着数据集规模扩大,各模型的性能表现趋于稳定.实验证明,大语言模型在项目主题标注任务中展现出了良好的适用性,但不同模型间存在显著性能差异,这为开源项目管理和智能化标注系统设计提供了重要参考依据.

关键词

大语言模型 / 仓库挖掘 / 主题标注 / 开源数据集

Key words

引用本文

引用格式 ▾
大语言模型在开源项目主题标注中的应用与评估研究[J]. 华东师范大学学报(自然科学版), 2025, 0(5): 14-24 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

1

访问

0

被引

详细

导航
相关文章

AI思维导图

/