PDF
摘要
针对多模态大模型在处理如树木倒伏等复杂视觉场景时,因依赖单路径推理而导致的决策鲁棒性不足问题,提出了一种基于束搜索思维链(Beam Search Chain-of-Thought, BS-CoT)的推理优化方法.该方法通过并行探索和评估多条潜在的推理路径,有效克服了传统模型易陷入单一错误逻辑的缺陷,显著增强了模型在复杂场景下的视觉决策能力.为验证该方法的有效性,构建了一个面向城市治理中树木倒伏场景的专用数据集.实验结果表明,与基线模型相比,本方法在事件召回率和关键信息捕获率上均有显著提升.本研究不仅为解决城市公共安全领域的视觉决策难题提供了可靠的技术方案,也为提升大模型在关键任务中的推理可靠性提供了新的范式.
关键词
Key words
树木倒伏场景中多模态大模型的应用挑战与优化研究[J].
华东师范大学学报(自然科学版), 2025, 0(5): 53-65 DOI: