大语言模型在多代理辩论中作为辩论者表现的比较分析

张立炎; 梁志剑

中北大学学报（自然科学版） ›› 2025, Vol. 46 ›› Issue (02) : 219 -229.

张立炎, 梁志剑

作者信息 +

Author information +

文章历史 +

PDF

摘要

为了深入探索大型语言模型（Large Language Models, LLMs）在模拟人类智能，特别是辩论能力方面的潜力与局限性，将思维链（Chain-of-Thought, CoT）与检索增强生成（Retrieval-Augmented Generation, RAG）技术相结合应用到多代理辩论（Multi-Agent Debate, MAD）中，构建了一套多代理辩论框架——CoRAG-MAD，旨在模拟人类辩论比赛流程，包括开篇立论、质询环节、自由辩论和总结陈词四个阶段。设计了公平辩论（Fair Debate）、不平等辩论（Unequal Debate）和混合辩论（Mixed Debate）三种不同的辩论场景，通过自动化评估工具与人工专家评审相结合的方式，对辩论内容进行了深度分析。以OrChiD数据集为测试平台，实验结果表明，CoRAG-MAD可以有效提高LLMs在各个辩论场景中的多项能力。具体而言，在不平等辩论中，LLMs的逻辑推理得分提升57.56%，创造力得分提升49.77%；在混合辩论中，LLMs的协作能力提升23.36%，整体性能提升28.20%。本文进行了消融实验和对比实验，验证了CoT模块在增强逻辑推理能力方面、 RAG模块在提升事实准确性和激发创新思维方面以及CoRAG方法在MAD中的有效性。