大语言模型在开源项目主题标注中的应用与评估研究

何德鑫; 韩凡宇; 王伟

华东师范大学学报（自然科学版） ›› 2025, Vol. 0 ›› Issue (5) : 14 -24.

何德鑫, 韩凡宇, 王伟

作者信息 +

Author information +

文章历史 +

PDF

摘要

随着开源社区的快速发展, GitHub项目的数量持续激增;然而一部分项目未提供明确的主题标签,给开发者在技术选型和项目检索的过程中带来了挑战.现有的主题生成方法主要依赖于监督学习范式,存在对高质量标注数据有较强依赖性等问题.针对开源项目主题标注的准确性及效率问题,首次研究了大语言模型在GitHub项目主题预测任务中的应用效果;构建了包含3 000个GitHub热门项目的数据集,涵盖项目仓库名、README文档和描述信息等多维度特征;选择Claude 3.7 Sonnet、DeepSeek-V3、Gemini 2.0Flash、GPT-4o和Qwen-Plus等数个国内外主流大语言模型进行了对比实验.实验结果表明, Claude 3.7Sonnet在多数评估指标上表现最优,且随着数据集规模扩大,各模型的性能表现趋于稳定.实验证明,大语言模型在项目主题标注任务中展现出了良好的适用性,但不同模型间存在显著性能差异,这为开源项目管理和智能化标注系统设计提供了重要参考依据.