PDF
摘要
为了深入探索大型语言模型(Large Language Models, LLMs)在模拟人类智能,特别是辩论能力方面的潜力与局限性,将思维链(Chain-of-Thought, CoT)与检索增强生成(Retrieval-Augmented Generation, RAG)技术相结合应用到多代理辩论(Multi-Agent Debate, MAD)中,构建了一套多代理辩论框架——CoRAG-MAD,旨在模拟人类辩论比赛流程,包括开篇立论、质询环节、自由辩论和总结陈词四个阶段。设计了公平辩论(Fair Debate)、不平等辩论(Unequal Debate)和混合辩论(Mixed Debate)三种不同的辩论场景,通过自动化评估工具与人工专家评审相结合的方式,对辩论内容进行了深度分析。以OrChiD数据集为测试平台,实验结果表明,CoRAG-MAD可以有效提高LLMs在各个辩论场景中的多项能力。具体而言,在不平等辩论中,LLMs的逻辑推理得分提升57.56%,创造力得分提升49.77%;在混合辩论中,LLMs的协作能力提升23.36%,整体性能提升28.20%。本文进行了消融实验和对比实验,验证了CoT模块在增强逻辑推理能力方面、 RAG模块在提升事实准确性和激发创新思维方面以及CoRAG方法在MAD中的有效性。
关键词
多代理辩论
/
检索增强生成
/
思维链
/
大语言模型
/
NLP
Key words
大语言模型在多代理辩论中作为辩论者表现的比较分析[J].
中北大学学报(自然科学版), 2025, 46(02): 219-229 DOI: