基于大语言模型的中国民航公务员考试测评

杨凯杰; 秦雪峰; 莫济懋; 王楚为; 李冠霖; DINGH.Q.Chris; 蔡元哲

中国民航大学学报 ›› 2025, Vol. 43 ›› Issue (06) : 88 -96.

基于大语言模型的中国民航公务员考试测评

杨凯杰, 秦雪峰, 莫济懋, 王楚为, 李冠霖, DINGH.Q.Chris, 蔡元哲

作者信息 +

Author information +

文章历史 +

PDF

摘要

本文对包括ChatGPT-4o在内的5种大型语言模型（LLM,large language model）在中国民航国家公务员考试（NCSE,national civil servant exam）中的应试能力进行了系统评估与分析。研究选取2022—2024年NCSE真题，以预设的标准化提问范式向5种LLM分别输入题目并记录其输出结果，进而统计5种LLM的答题正确率以衡量其综合能力。实验结果显示，DeepSeek-V3、DeepSeek-R1、ChatGPT-4o、Gemini-1.5 Flash 、ERNIE Bot-4.0 Turbo总分分别为145.20 、145.41 、127.47 、107.56 、86.40，除ERNIE Bot-4.0Turbo之外，均高于人类考生平均成绩93.50，其中DeepSeek-V3、DeepSeek-R1的分数达到NCSE的高分区间。此外，本文深入讨论5种LLM的优势与不足，对常识判断、言语理解与表达、数量关系、判断推理、资料分析等不同题型的答题表现进行了细分对比，并归纳了5种LLM在应对复杂逻辑推理与多步骤运算题目时的典型错误类型。