面向多目标协同搜索的多无人船模糊满意强化学习方法

胡超芳; 朱琦

天津大学学报（自然科学与工程技术版） ›› 2025, Vol. 58 ›› Issue (11) : 1132 -1144.

胡超芳, 朱琦

作者信息 +

Author information +

文章历史 +

PDF

摘要

无人船因其高效率、低成本、强抗风险的特点，被广泛应用于各种复杂环境中执行海洋任务.针对多无人船在未知水域内的多目标协同搜索问题，提出了一种基于模糊满意多指标优化和双经验回放池的改进强化学习方法.首先构建了包含环境认知度和目标存在概率两个信息指标的二维栅格环境地图.其次针对单经验回放池随机采样数据训练效率低的问题，提出使用双经验回放池分类存储数据，为提高初期训练速度和后期稳定性，按照时变比例分别调用数据改进训练.此外，为实现对目标的快速搜索，同时保证搜索区域的覆盖度和无人船间的安全避撞，提出了目标存在概率变化量、环境搜索覆盖度和无人船分布距离3个奖励函数.为满足3个奖励函数重要性等级要求，使用基于松弛优先级满意度的模糊多指标优化方法对奖励函数进行重新建模，从而形成了改进模糊满意D3QN算法.最后，对所提算法的有效性和不同数量目标搜索任务的适用性进行仿真验证，证实了算法可以满足设计要求.同时，考虑到无人船实际底层控制误差对上层搜索算法的影响，将所提模糊满意强化学习算法用做上层规划与下层线性自抗扰控制结合，进行了多目标协同搜索的应用仿真验证，并与其他强化学习方法进行了对比.结果表明：使用所提算法不但可以对环境内的多个未知目标实现快速有效搜索，而且可以有效适应实际控制误差的存在，所提算法在搜索速度、环境搜索覆盖度和无人船分布性上均优于对比算法.