信息熵图下融合注意力机制与近端策略优化的机器人自主探索方法

殷辰堃; 孙浩翔

北京工业大学学报 ›› 2026, Vol. 52 ›› Issue (05) : 485 -497.

殷辰堃, 孙浩翔

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对机器人在未知环境中的自主探索需求，提出一种在地图信息熵预测下基于强化学习的目标点选择方法。首先，设计轻量化的信息熵预测网络UtilityNet,以在较低时延下生成合理的信息熵图；其次，采用非极大值抑制技术在信息熵图上生成空间分布均衡、冗余度低的候选目标点集；最后，构建融合自注意力机制和近端策略优化(proximal policy optimization, PPO)的强化学习网络，得到机器人搜索目标点的优化选择策略。在策略完成目标点选择后，机器人将移动到所选的目标点并更新占用地图，通过多次选择和移动完成对未知环境的快速探索。仿真结果表明，与多个基线方法相比，所提方法能有效提升机器人完成自主探索任务的性能。