基于大语言模型的中国民航公务员考试测评

杨凯杰, 秦雪峰, 莫济懋, 王楚为, 李冠霖, DINGH.Q.Chris, 蔡元哲

中国民航大学学报 ›› 2025, Vol. 43 ›› Issue (06) : 88 -96.

PDF
中国民航大学学报 ›› 2025, Vol. 43 ›› Issue (06) : 88 -96.

基于大语言模型的中国民航公务员考试测评

    杨凯杰, 秦雪峰, 莫济懋, 王楚为, 李冠霖, DINGH.Q.Chris, 蔡元哲
作者信息 +

Author information +
文章历史 +
PDF

摘要

本文对包括ChatGPT-4o在内的5种大型语言模型(LLM,large language model)在中国民航国家公务员考试(NCSE,national civil servant exam)中的应试能力进行了系统评估与分析。研究选取2022—2024年NCSE真题,以预设的标准化提问范式向5种LLM分别输入题目并记录其输出结果 ,进而统计5种LLM的答题正确率以衡量其综合能力。实验结果显示,DeepSeek-V3、DeepSeek-R1、ChatGPT-4o、Gemini-1.5 Flash 、ERNIE Bot-4.0 Turbo总分分别为145.20 、145.41 、127.47 、107.56 、86.40,除ERNIE Bot-4.0Turbo之外,均高于人类考生平均成绩93.50,其中DeepSeek-V3、DeepSeek-R1的分数达到NCSE的高分区间。此外,本文深入讨论5种LLM的优势与不足,对常识判断、言语理解与表达、数量关系、判断推理、资料分析等不同题型的答题表现进行了细分对比,并归纳了5种LLM在应对复杂逻辑推理与多步骤运算题目时的典型错误类型。

关键词

大语言模型(LLM) / 国家公务员考试(NCSE) / 模型性能评估

Key words

引用本文

引用格式 ▾
基于大语言模型的中国民航公务员考试测评[J]. 中国民航大学学报, 2025, 43(06): 88-96 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

78

访问

0

被引

详细

导航
相关文章

AI思维导图

/