PDF
摘要
本文对包括ChatGPT-4o在内的5种大型语言模型(LLM,large language model)在中国民航国家公务员考试(NCSE,national civil servant exam)中的应试能力进行了系统评估与分析。研究选取2022—2024年NCSE真题,以预设的标准化提问范式向5种LLM分别输入题目并记录其输出结果 ,进而统计5种LLM的答题正确率以衡量其综合能力。实验结果显示,DeepSeek-V3、DeepSeek-R1、ChatGPT-4o、Gemini-1.5 Flash 、ERNIE Bot-4.0 Turbo总分分别为145.20 、145.41 、127.47 、107.56 、86.40,除ERNIE Bot-4.0Turbo之外,均高于人类考生平均成绩93.50,其中DeepSeek-V3、DeepSeek-R1的分数达到NCSE的高分区间。此外,本文深入讨论5种LLM的优势与不足,对常识判断、言语理解与表达、数量关系、判断推理、资料分析等不同题型的答题表现进行了细分对比,并归纳了5种LLM在应对复杂逻辑推理与多步骤运算题目时的典型错误类型。
关键词
大语言模型(LLM)
/
国家公务员考试(NCSE)
/
模型性能评估
Key words
基于大语言模型的中国民航公务员考试测评[J].
中国民航大学学报, 2025, 43(06): 88-96 DOI: