近年来,以大模型为代表的生成式人工智能技术迅速发展,在教育领域的应用不断深化
[1],已在教案设计
[2]、试题生成
[3]等任务中展现出良好潜力.教师教育作为教育体系的重要组成部分,也面临着与时俱进的转型需求.《教育强国建设规划纲要(2024-2035年)》
[4]明确指出,要“深化人工智能助推教师队伍建设,打造人工智能教育大模型”.在此背景下,探索大模型等人工智能技术赋能教师成长的新路径,尤其是聚焦教学关键能力的培养,具有重要的现实意义和应用价值.
在教师专业发展中,答疑能力是教学过程中的核心能力之一,尤其是在逻辑链条较长、思维难度较高的数理学科教学中更为关键
[5].例如数学教学过程中,因学生常常因推理链条断裂、概念混淆等原因陷入困境,亟需教师针对其具体思维路径给予有效干预,教师常面临大量具有模糊、跳跃、偏差特征的学生提问.然而,当前师范生和青年教师在正式走上讲台前,往往缺乏高质量、可反复练习的答疑训练机会,限制了其教学实践能力的提升
[6-7].基于上述背景,构建一个能够支持教师反复练习、贴近真实学生行为的答疑训练环境,成为当前教师教育领域发展亟待攻关的重要课题.
随着大模型的迅速发展,其潜在的角色扮演能力与复杂推理能力得到挖掘
[8].许多学科领域尝试借助大模型模拟典型个体以支持专业训练
[9-10],如心理学中利用大模型模拟心理障碍患者
[11],从而提升心理咨询师的临床访谈能力;教育领域中借助大模型来模拟教师
[12],为学生提供随时随地的问题解答服务.受此启发,本研究拟基于大模型构建虚拟学生,在知识表现上模拟不同能力层次学生的答题思考过程,营造真实教学场景,实现与教师的高仿真互动对话,帮助教师反复训练教学策略与答疑技巧,提升实战能力.
应用大模型于答疑场景的学生模拟面临一项关键挑战:如何真实再现具有不同认知水平的学生表现.尤其是在模拟低能力学生时,理想的虚拟学生不仅应体现出典型的知识性错误与逻辑偏差,还应在与教师的交互中呈现出“从不懂到逐渐掌握”的认知演变过程.当前的大模型多以提升任务准确率为训练目标,侧重对问题的快速、精准回应.例如,DeepSeek-R1
[13]等先进模型在GSM8K
[14]等数学推理基准上已达到接近 100% 的准确率,但它们普遍忽略了对认知状态演化与错误行为模式的建模.总体而言,尽管大模型跟随技术的演进“已掌握”了诸多正确的解法,但其在模拟不同程度下“尚未掌握”这一特定状态时仍面临巨大的挑战.
大模型的“认知固化”直接导致基于大模型构建的虚拟学生在与教师答疑交互的过程中缺乏类人错误表现.由于模型本身具备高度完备的知识储备,一旦接收到教师的简单提示,便可迅速给出标准答案,从而使对话显得生硬、不自然,教师也难以通过互动获得真实有效的答疑能力训练.
针对上述问题,本文提出学生模拟引擎(student simulation engine, SSE),该系统由基于大模型驱动的多智能体协作构成,旨在生成具有多层次人类学生特征的自然语言响应.受认知心理学中著名的IDEAL问题解决理论
[15]启发,SSE将学生解决问题的过程划分为读题、思考、解题和检查四个子步骤,并通过分析历史对话,动态推断学生在答疑交互中应体现的认知水平及可能发生的类人错误.具体来说,SSE由控制模块与执行模块构成:控制模块包含一个控制器智能体,负责综合分析上下文对话,追踪学生的知识状态,并规划在各子步骤中应暴露的错误类型与程度,以保证学生的表现符合其能力设定,同时使对话过程具备自然性与认知渐变性;执行模块则由四个功能性智能体组成,分别对应学生在解题过程中的阅读、思考、计算与检查四个阶段,每个智能体在控制器的调度下完成各自任务,并在指定环节中注入合适的类人错误,从而实现对不同认知水平学生的真实模拟.
在公开数据集GSM8K上的实验结果表明,相较于QwQ-32B、Qwen2.5-32B-Instruct等通用大模型,SSE在与教师的交互过程中更能有效模拟不同能力水平的学生.SSE所生成的学生回复不仅体现出人类学生在解题过程中常见的错误类型与混淆点,具备更高的类人特性,同时整体对话在连贯性、认知渐变性与角色契合性等维度上表现更优,从而显著提升了答疑过程的质量与教师的交互体验.
本研究的主要贡献如下:1) 基于认知心理学中著名的IDEAL问题解决理论,构建了一套由多智能体组成的学生模拟引擎(SSE),能够模拟不同能力水平学生在解题过程中的行为特征.2) 实验证明,SSE能够模拟不同类型学生在解题过程中的典型错误与认知偏差,在与教师的多轮答疑互动中展现出自然的认知演化过程,整体对话质量得到提升.3) SSE为教师答疑能力的训练与评估提供了新的路径,拓展了大模型在教师教育领域的应用边界.
1 方法
1.1 问题定义
在本研究中,答疑任务可形式化定义为二元组,其中,为一个具体问题,为虚拟学生的能力水平.答疑过程中,师生之间将形成多轮对话,记为,式中,和分别第轮中学生与教师的发言内容.
本研究旨在设计基于大模型的智能体系统,使其能够作为虚拟学生与人类教师围绕问题进行多轮交互,并尽可能提升答疑的整体质量.答疑质量可表示为,其中,为度量对话质量的函数,综合考虑角色契合性、对话连贯性、认知渐变性等多个维度.
1.2 整体框架
为实现对不同能力水平学生的真实模拟,模型生成的回复需适当融入类人的错误表现,并在教师引导下逐步、渐进地加以修正.因此,有必要在答疑过程中实时追踪学生的知识状态,并在读题、思考、计算等关键环节中有策略地引入类人错误,以增强模拟的合理性与拟真度.
SSE的设计受到了IDEAL问题解决理论的启发,该理论将问题解决划分为五个阶段,分别为问题的识别、定义、探索、行动与反思,强调从问题识别到结果反思的全过程.结合IDEAL理论,SSE将学生的答题过程拆解为四个主要子任务,分别由以下四个智能体执行:1) 阅读智能体(reader):对应IDEAL理论的“识别与定义”,由于学生在学习中遇到的作业、试题等往往结构明确,任务边界清晰,在SSE中,问题识别和定义两步自然合并为理解问题,即由阅读智能体负责理解题目内容,识别关键信息与题设条件;2) 思考智能体(thinker):对应“探索”,设计解题思路,生成潜在的解决路径;3) 计算智能体(solver):对应“行动”,进行数值计算,生成具体答案;4) 检查智能体(checker):对应“反思”,对解题过程与最终结果进行反思和核查.上述四个智能体分别作为功能性智能体在SSE的执行模块中发生作用.
SSE由控制模块与执行模块协同构成,分别用于学生状态追踪与类人行为生成.具体而言,控制模块负责分析历史对话,推断学生当前的知识状态,并据此决定其在读题、思考、计算、检查等子环节中的行为表现,包括是否应出现错误、错误的类型及程度.执行模块则依据控制模块的决策,调度下属的功能性智能体分别完成题目阅读、解题思路设计、数值计算与结果检查等任务,从而生成符合虚拟学生设定的自然语言回复.SSE的整体框架如
图1所示.
1.3 控制模块
控制模块是SSE的核心组件,该模块有1个控制器智能体,主要负责对学生的知识状态进行动态建模,并据此生成符合认知水平的响应策略.其主要功能包括对话历史分析、典型错误生成、调度规划生成.
1.3.1 对话历史分析
该部分的主要目的是判断学生在当前时刻应处于的反应状态,即决定其对教师提问的反应.例如,决定是保持“尚未掌握”的困惑,还是体现“已经理解”的顿悟.具体来说,设学生能力水平为,当前为第轮对话,学生需响应教师的问题,其中历史对话为,则控制器智能体判断学生在当前对话中应表现的反应状态为
其中,和分别为该学生在第轮和第轮对话中表现的反应状态,为评估学生反应状态变化的函数.
1.3.2 典型错误生成
该步骤首先需构建常见错误模式库.考虑到不同学科、学段和知识专题具有各自的特点,学生在其中所表现的常见错误也存在差异,而现有研究多聚焦在对错误类型的宏观分类,缺乏面向具体学科任务的细致化描述,这在一定程度上限制了虚拟学生模拟的真实度.为弥补这一不足,本研究在错误模式库的构建中采用了以下方法.
1) 引入专家经验:参考教育学与学科教育领域的相关文献,并结合教师的教学经验与学生的真实答题情况,归纳出典型的错误类型.
2) 示例化扩展:在上述分类的基础上,对典型错误进行细粒度划分,并为每类错误构造对应的错误解答样例,以增强错误模式的可操作性与覆盖度.
本研究综合专家经验与示例化扩展以形成用于支撑SSE模拟的错误模式库,然后采用提示工程的方式将提供给控制器智能体作为参考,控制器智能体再依据学生在当前对话中应表现的反应状态和教师问题来判断是否需注入错误,以及应选择哪类错误,该部分可形式化定义为
其中,为控制器智能体为该学生在第轮设置的错误,可为空.执行模块的功能性智能体将体现这些错误,为对错误的度量,用于确定错误的注入机制.
1.3.3 调度规划生成
调度规划生成旨在基于预期反应状态和预期错误结果,生成对执行模块中四个功能性智能体的调度结果,功能性智能体表示为,该部分生成有序调度规划, 其中,表示为了生成对教师问题的回应,需按序调度的智能体数量.和分别表示第次被调度的智能体以及该智能体被要求表现出的错误,.
1.4 执行模块
执行模块依照控制器智能体生成的有序调度规划逐步调度下属的功能性智能体进行工作,具体来说,在对智能体的调度中,
其中,智能体作为主体生成回复,表示智能体的输出.
当所有智能体的响应均生成完毕,控制器对这些响应进行总结聚合,形成最终的对教师问题的回应,即
式中,为对多个输出进行总结的函数,由控制器进行完成.
2 实验
2.1 对比模型
2.1.1 数据集
本研究以数学学科答疑为例,通过实验评估SSE的学生模拟效果.首先选择公开数学试题数据集作为师生对话的素材,由SSE以及各对比模型分别扮演不同能力水平的学生,学生依据能力水平在数学题目上进行解答,强调模拟对应的能力水平,而不以做对题目为唯一标准.然后围绕该题目和教师进行对话,教师则在对话中应用教学策略来为学生答疑解惑.
GSM8K
[14]是一个高质量的初中难度数学应用题数据集,包含7 473个训练样本和1 319个测试样本.每个问题都需要2~8个步骤来解决.为避免数据泄露,本研究仅使用该数据集的测试集部分,且实验过程中使用数据集的中文版本,以贴合中文教学场景.
2.1.2 对比模型
本研究共选择6个对比模型,涵盖7B、14B、32B等多类参数规模,其中包括以下三个推理模型:
1) DeepSeek-R1-Distill-Qwen-32B
[13]:该模型基于Qwen2.5-32B预训练模型,通过知识蒸馏技术,模仿DeepSeek-R1的推理过程进行优化训练,从而提升其推理能力和生成质量,本文将其简记DS-Qwen-32B.
2) DeepSeek-R1-Distill-Llama-8B:该模型采用和上者相同的训练路线,但基座模型为Llama-3.1-8B, 本文将其简记DS-Llama-8B.
3) QwQ-32B
[17]:该模型由阿里巴巴提出,使用大规模强化学习训练所得,性能和DeepSeek-R1相当.
此外,本研究还选择了Qwen2.5
[18]系列模型的Qwen2.5-7B/14B/32B-Instruct三个非推理模型参与实验对比,该设置有助于分析不同模型规模与训练范式对虚拟学生表现的影响.
2.2 评价指标
理想的虚拟学生应尽可能符合人物设定,在和教师的交互中体现出其能力水平,且随着教学的进行,体现出从不懂到懂的认知演化过程.为此,本研究将SSE的学生模拟效果分为题目解答情况和多轮答疑对话质量两类情形分别进行评价,其中,题目解答情况指学生解答教师布置的问题时,是否能够给出符合其能力水平的解答;多轮答疑对话质量为师生围绕待解决的问题进行完整对话的效果.
2.2.1 题目解答情况
本文提出错误合理性指标来评估模型的题目解答情况:该指标用于判断模型在单轮解题过程中的错误是否具有真实学生常见错误的特征,衡量模型的错误是否具备可教学性和典型性,避免出现随意错误或逻辑完全错误的情况.
2.2.2 多轮答疑对话质量
针对多轮答疑对话质量的评估,本文提出如下3个指标.
1) 角色契合性:评估模型在对话中生成的学生回复是否符合其设定的能力水平,是否能体现出应有的知识盲点或错误逻辑.
2) 对话连贯性:评估模拟对话是否具有上下文衔接性,学生的发言是否紧密回应教师提问或前文内容,是否存在跳跃式回答等情况.
3) 认知渐变性:对话中是否体现出学生状态的动态变化,由“不理解”逐步过渡到“部分掌握”或“完全掌握”,而非“一问就会”或“始终不会”.
2.2.1节和2.2.2节中提出的错误合理性、角色契合性、对话连贯性和认知渐变性4项指标均为主观指标.对于每组对话,本研究采用大模型作为裁判(LLM-as-a-Judge)
[19]的范式对这些主观指标进行打分,评分范围为1~10分,得分越高,说明模型用于虚拟学生模拟的效果越好.模型在这些指标上的得分为其在数据集中进行的多组对话得分的平均值.裁判用到的提示词如
表1所示.
2.3 实验设置
本文将学生划分为三类能力水平:较弱、中等与优秀,并在提示词中显式地设定能力水平、知识状态与错误倾向,引导模型模拟具有不同认知特征的学生.同时,本文选择经典教学方法“苏格拉底教学法”来作为教师练习的主要策略.该方法以提问和引导思考来代替直接讲授,被广泛应用于各类教学场景中,本研究将其作为典型策略,以检验虚拟学生是否能够配合教师的逐步引导,展现出合理的认知变化过程.
考虑到实验所用的GSM8K数据集为初中难度数学应用题,本研究参考数学教育领域的相关文献
[16,21-22],结合专家经验,以马文杰提出的知识性、逻辑性、策略性、心理性四类错误
[16]为一级错误.在此基础上,结合GSM8K数据集中题目的特征——以生活化应用场景为背景,主要涉及四则运算、分数与比例、方程求解等基础算术与代数问题——对一级错误进行了细粒度划分,形成二级错误.例如,将心理性错误细化为看漏条件、看错数字等,并为每类错误生成典型题目与错误解答样例.
为高效生成大规模的答疑对话并提升实验结果的可重现性,本研究使用大模型作为教师,具体采用Qwen2.5-72B-Instruct模型来模拟教师,实验中为教师和学生设定的提示词仍如
表1所示.
本研究中所有实验均部署在NVIDIA A800 80G GPU上.所有模型的推理参数保持统一:温度设置为0.3,随机种子为42,模型生成的最大词元数为2 048.此外,本研究所提出的SSE基于Qwen-Agent
[20]智能体开发框架构建.SSE中所有智能体均由QwQ-32B模型驱动.
2.4 题目解答情况
评价解答情况错误合理性的初衷是避免模型为了扮演对应能力水平的学生而生成一些无意义的错误,这反而造成教学不具备可执行性.为此,在这项实验中,本研究选取各模型在GSM8K数据集中解答发生错误的回复,统计这些回复的错误合理性的评分平均值.
本研究首先对比了两种设置下的SSE表现.
1) SSE(粗粒度):常见错误模式设置为基于四类常见错误(知识性、逻辑性、策略性、心理性).
2) SSE(细粒度):在此基础上进一步引入细粒度定义的错误模式.
SSE(粗粒度)和SSE(细粒度)的其他设置保持一致,仅错误模式相关的设定存在差异.对比结果如
表2所示.
结果表明,在引入细粒度错误模式后,SSE模拟学生在解题过程中的错误合理性指标得到了显著提升.这一发现进一步验证了:常见错误模式的细粒度定义与SSE整体模拟效果密切相关,能够有效增强虚拟学生行为的合理性与拟真度.
此外,可以发现,在和其他所有开源模型的对比中,SSE在各个能力级别中都具有最高的错误合理性,这和SSE基于IDEAL理论将学生解题过程拆解为多个子步骤有关,由于进行了步骤拆解,SSE可以实现在各个步骤中进行错误的注入,从而避免发生无意义错误,生成更类人的题目解答结果.
表2的实验结果显示,模型生成回复的错误合理性和模型参数基本成正相关关系,Qwen2.5系列的三个模型中,32B参数模型的得分普遍高于14B和7B模型,仅在扮演优秀学生时,以0.01分的差距低于14B模型.同时,从
表2的结果中,还可以观察到一个反常的现象,即经过蒸馏的模型在错误合理性上的指标评分反而低于蒸馏之前的模型,例如,当模型扮演较弱的学生时,Qwen2.5-32B-Instruct的错误合理性评分为7.74分,而蒸馏后的DeepSeek-R1-Distill-Qwen-32B的评分为7.48,出现了0.25分的下降,这可能是因为蒸馏技术重视模型复杂推理能力的提升,鼓励生成正确的回复,在训练过程中,模型对指令的理解能力出现下降,导致模型在生成错误回复时,其错误合理性出现下滑.
上述实验结果证明了SSE在扮演不同能力水平的学生时均能较好地“装不懂”,即保持较高的错误合理性.在此基础上,本研究进一步分析了SSE在扮演不同学生时的错误注入规则,即分析SSE生成的调度规划中,各智能体被注入错误的比例.从
图2的统计结果中可以看出,对于能力较弱的学生,其错误分布比较平均,其中读题错误略微突出,这也呈现出SSE很大的模拟了能力较弱的学生在对题目理解上产生的偏差;对于能力水平为中等的学生,SSE将错误更多的分配到了计算环节,以模拟计算失误;对于能力优秀的学生,由于该类学生对基本解题方法和知识掌握程度均较好,其错误不具备偏好性,SSE将其错误平均分配到读题、思考、解题、检查四个环节中(
图2).
2.5 多轮答疑对话质量
在多轮答疑对话质量评估中,本研究基于Qwen2.5-72B-Instruct模型扮演教师,以提示词的形式指导教师在答疑过程中训练苏格拉底教学法,在各模型与教师的对话中,评估对话的角色契合性、对话连贯性和认知渐变性.本研究选取了GSM8K数据集中的100个题目作为对话素材,教师和学生围绕题目开展答疑对话,当教师认为学生已经完全理解该题目后,对话结束.
表3列出了各模型在三项指标上的得分.
结果显示,即便是SSE(粗粒度),也能在各类情形下均能以最高或者次高的角色契合性、对话连贯性、认知渐变性实现学生模拟.同时,模型蒸馏后出现性能下滑的现象也在这项实验中被观察到,DeepSeek-R1-Distill-Qwen-32B的各项得分普遍低于基座模型Qwen2.5-32B-Instruct.
进一步,本研究比较了SSE在粗粒度与细粒度错误模式下的表现.实验结果表明,SSE(细粒度)在角色契合性与认知渐变性上的表现显著优于SSE(粗粒度),例如在模拟较弱学生时,角色契合性从4.90提升至6.11,认知渐变性从3.26提升至5.04.这说明在提示词工程中引入更细粒度的错误模式定义,能够有效提升SSE在学生模拟中的合理性与真实性.
此外,在三项指标中,SSE和各对比模型的对话连贯性得分明显高于角色契合性与认知渐变性的得分,以模拟优秀学生为例,SSE(细粒度)在认知渐变性的得分最高,为4.81分,而其对话连贯性得分高达9.24,相对而言,认知渐变性的分数较低,其他模型也呈现出这样的趋势.造成角色契合性与认知渐变性普遍分数偏低的原因在于:一方面,大模型对学生的知识状态与思维过程的建模能力有限,难以展现出逐步过渡的认知轨迹;另一方面,真实学生的错误往往具有随机性与情境依赖性,而这类复杂特征尚未被模型充分捕捉.尽管SSE采用控制器机制提升了各项分数,但依然有着提升空间,这也为未来研究指明了方向.
为更直观展示SSE系统在教师答疑训练中的应用效果,本研究进一步选取了一个典型案例(
表4).虚拟学生设定为中等水平、知识基本合格但易粗心,模拟其在解答一道数学应用题中的完整互动过程.答疑过程中,教师引导学生自我检查,并识别其在题意理解上的偏差.SSE基于控制智能体对学生当前状态的理解和各功能性智能体的执行,模拟出坚持自己的答案→发现错误→修正错误→给出正确答案的典型学习路径,该案例体现了较高的角色契合性、对话连贯性和认知渐变性,印证了SSE在学生状态动态建模与多智能体协同生成自然对话方面的能力.
3 总结
本研究提出了学生模拟引擎(SSE),一个基于IDEAL问题解决理论的多智能体学生模拟系统.SSE将学生的解题过程拆解为四个阶段,通过动态建模学生状态并注入类人错误,实现对不同能力学生的真实模拟.实验证明,SSE能有效提升答疑训练的真实性与教学价值.然而,本研究仍存在若干局限性:首先,SSE目前仅在数学学科进行了验证;其次,SSE基于多智能体协同构建,在推理时间和计算资源上存在一定压力.未来的研究可从以下几个方向拓展:将SSE拓展至其他学科,同时,将SSE引入真实教师培训场景,系统评估其在教师教学能力提升中的实际效果和可行性.