这篇文章提出了一种优化的无人机搜索与救援路径规划方法,基于POMDP(部分可观测马尔可夫决策过程)模型,结合Shrinking POMCP算法,旨在提高在复杂环境中的决策效率。文章通过在AirSim和ROS2仿真平台上进行实验,评估了不同信念类型下算法的表现,并与现有的MCTS、Lawnmower和贪婪算法进行了对比。实验结果表明,Shrinking POMCP算法在所有信念场景下均显著减少了决策周期数,表现出更高的效率,特别是在复杂的信念分布(如稀疏信念)下,能够有效优化路径规划,提升搜索与救援任务的执行效率。
原文链接:ICAA’24 突破性路径规划算法!Shrinking POMCP:从马尔可夫决策更新到高效决策!
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Mini-Splatting2: Building 360 Scenes within Minutes via Aggressive Gaussian Densification
作者:Guangchi Fang, Bing Wang
作者机构:The Hong Kong Polytechnic University
论文链接:https://arxiv.org/pdf/2411.12788
2. 摘要
在搜救任务中,无人机路径优化面临着诸多挑战,包括有限的可见性、时间约束和复杂的城市环境信息采集问题。我们提出了一种综合方法,通过利用3D AirSim-ROS2模拟器和2D模拟器来优化基于无人机的邻里区域搜救操作。路径规划问题被形式化为部分可观察马尔可夫决策过程(POMDP),并提出了一种新的“Shrinking POMCP”方法以应对时间约束。在AirSim环境中,我们将该方法与用于信念维护的概率世界模型和用于避障的神经符号导航器集成。2D模拟器采用具有等效功能的替代ROS2节点。我们在2D模拟器中比较了不同方法生成的轨迹,并在3D AirSim-ROS模拟器中评估了不同信念类型下的性能。来自两个模拟器的实验结果表明,与替代方法相比,我们提出的Shrinking POMCP解决方案在搜索时间上取得了显著改进,展示了其在提升无人机辅助搜救任务效率方面的潜力。

3. 效果展示
四旋翼无人机区域搜索使命的X-Y里程图(东北向下坐标),显示无人机的路径(黄色)、地面真实目标(六边形)、探测到的目标(编号圆圈)、禁飞区(红色)、建筑物(灰色)和搜索区域(绿色)。图例列出了检测到的目标及其概率。

4. 主要贡献
- 优化的无人机搜索与救援方法: 本文提出了一种优化的基于无人机(UAV)的邻域搜索与救援方法,结合了真实环境模拟与路径规划问题的数学建模。我们利用AirSim和ROS2开发了一个真实的模拟器,并将路径规划问题形式化为部分可观测马尔科夫决策过程(POMDP),以应对复杂的环境和时间限制问题。
- Shrinking POMCP方法的提出: 提出了Shrinking POMCP方法,解决了高概率集中区域的时间约束问题。该方法通过有效的信念分布更新,能够根据环境的不同先验知识,动态调整路径规划策略,从而提高了搜索与救援任务的效率。
- 超参数优化与性能评估: 我们进行了全面的超参数搜索,评估了不同折扣因子和奖励alpha值组合对框架性能的影响。通过在均匀信念、单峰信念和三峰信念等不同场景下的实验,找到了最佳的超参数设置,并确保在不同模拟环境中表现一致。
- 与现有方法的对比: 与MCTS、Lawnmower和贪婪算法等传统方法进行了性能对比。结果表明,Shrinking POMCP方法显著减少了找到所有目标所需的决策周期数,证明了其在效率上的优势。其关键优势在于每个决策周期输出动作序列,从而提高了导航和规划的灵活性。
- 统一的实验平台: 通过在2D环境和AirSim环境中统一使用最佳超参数组合,确保了不同模拟平台上的标准化方法,并提供了对不同环境下搜索与救援任务的可靠评估。
5. 基本原理是啥?
本文提出的优化方法基于部分可观测马尔科夫决策过程(POMDP)模型,并通过Shrinking POMCP(Shrinking Partially Observable Monte Carlo Planning)方法进行求解:
- 部分可观测马尔科夫决策过程(POMDP):
- POMDP是一种处理部分可观测环境下决策问题的数学框架。在此框架下,智能体无法完全观察到环境的状态,而是依赖于来自环境的观察(belief)来推断当前状态。决策过程的目标是基于当前的信念(belief state)选择最优动作。
- 本文将无人机搜索与救援任务建模为一个POMDP问题,智能体(无人机)根据其对环境的部分观测信息(如目标位置的概率分布)来进行路径规划和决策。
2. Shrinking POMCP方法:
- Shrinking POMCP是本文提出的一种基于蒙特卡罗树搜索(MCTS)的改进方法。其核心思想是通过缩小搜索空间和逐步更新信念分布来提高决策效率。
- 在每个决策周期,Shrinking POMCP方法不直接输出一个单一的动作,而是输出一个动作序列。这使得智能体能够更加灵活地规划路径,避免了仅依赖单一动作可能导致的效率低下问题。
- 该方法特别适用于高概率集中区域的时间约束问题,可以更有效地探索和利用高优先级的区域,从而提高搜索效率。推荐课程:如何快速上手全球最强开源飞控px4?
3. 超参数优化:
- 在POMDP求解过程中,折扣因子(discount factor)和奖励参数(reward alpha)对算法的表现有显著影响。通过对不同折扣因子和奖励参数组合的全面搜索,选择最佳的超参数设置,使得方法在各种环境下能够表现出最佳的性能。
- 本文的超参数搜索包括不同的信念类型场景(如均匀信念、单峰信念和三峰信念),并通过实验验证了不同组合下的性能表现。
4. 环境模拟与实验平台:
- 本文使用AirSim和ROS2开发了一个真实的模拟环境来进行无人机路径规划的测试。AirSim提供了一个虚拟的3D环境,能够模拟不同天气和地形条件下的飞行任务,ROS2则负责无人机的控制和任务调度。
- 在实验中,本文将不同信念分布下的任务进行了测试,并与现有的MCTS、Lawnmower和贪婪算法进行了对比,证明了Shrinking POMCP方法在效率上的优势。


6. 实验结果
在本文中,实验部分主要通过对比不同的信念类型和算法方法,验证了Shrinking POMCP方法在无人机搜索与救援任务中的表现:
- 超参数优化实验:
基于这些实验结果,我们选择了适合每种信念类型的最佳超参数组合,并在后续的实验中应用了这些最优的超参数设置。
- 在不同的信念场景下(均匀信念、单峰稀疏信念、三峰稀疏信念),我们进行了超参数的全面搜索,测试了折扣因子(0.8、0.9、0.995)和奖励系数(0、1、10)的不同组合。
- 均匀信念场景:实验表明,在均匀分布的信念场景中,较高的折扣因子(0.995)通常能取得更好的表现,说明在均匀分布的信念场景下,考虑长期奖励能提高决策效率。
- 单峰稀疏信念场景:类似于均匀信念场景,较高的折扣因子也通常表现较好。这表明,尽管信念分布存在稀疏性,但较高的折扣因子仍能帮助算法作出更合理的决策。
- 三峰稀疏信念场景:在此场景中,较高的折扣因子与较高的奖励系数(例如奖励系数为10)结合表现最佳,说明在具有多个高概率区域的复杂信念分布中,结合长期规划(较高的折扣因子)与即时奖励(较高的奖励系数)能提高算法的表现。
2. Shrinking POMCP与其他算法的对比:
- 实验对比:在不同信念类型(均匀信念、单峰稀疏信念)下,我们将Shrinking POMCP方法与现有的三种基准算法(MCTS、Lawnmower、贪婪算法)进行了性能对比。
- 实验结果:如图5所示,Shrinking POMCP方法在所有信念类型下都显著减少了决策周期数,表现出更高的效率。具体而言,Shrinking POMCP在均匀信念和单峰稀疏信念场景中,所需的决策周期数远少于MCTS、Lawnmower和贪婪算法。这表明,Shrinking POMCP在这些情况下能够更高效地找到目标位置。
- 优势分析:Shrinking POMCP的关键优势在于其能够在每个决策周期输出一个动作序列,而不是单一的动作。这使得无人机能够更灵活地导航到下一个最优的非稀疏区域,进行更有效的路径规划,从而减少了决策周期的数量,并提高了整体任务的完成效率。
3. 实验平台与环境设置:
- AirSim与ROS2:所有的实验均在一个真实的模拟环境中进行,使用AirSim和ROS2进行仿真。AirSim为我们提供了一个虚拟的3D环境,模拟不同的天气和地形条件,ROS2则负责控制无人机的动作和调度任务。
- 在这些实验中,我们测试了不同信念分布下的路径规划效果,并使用上述的不同算法进行了对比,结果表明Shrinking POMCP方法在各种环境和信念类型下都表现出较高的效率。
4. 性能指标:
- 决策周期数:所有实验中,Shrinking POMCP方法所需的决策周期数均少于其他算法。该指标反映了每种方法解决问题的效率,Shrinking POMCP明显优于MCTS、Lawnmower和贪婪算法。
- 任务完成时间:Shrinking POMCP方法通过减少决策周期的数量,有效降低了任务完成的总体时间,特别是在复杂的信念分布下(如三峰稀疏信念场景),表现尤为突出。




7. 总结 & 未来工作
在本文中,我们提出了一种针对基于无人机(UAV)的邻域搜索与救援操作的优化方法。我们开发了一个使用AirSim和ROS2的真实模拟器,并将路径规划问题表述为部分可观测马尔科夫决策过程(POMDP)。我们的Shrinking POMCP方法解决了时间限制和高概率集中区域的问题。在所有场景中,信念分布会随着对环境先验知识的不同水平变化而改变。
超参数搜索:
我们进行了全面的超参数搜索,以评估在不同条件下框架的表现,并与基准算法进行比较。实验在三种类型的信念图下进行:
- 均匀信念场景: 如表I所示,在均匀信念场景中,我们探索了不同折扣因子(0.8, 0.9, 0.995)和奖励alpha值(0, 1, 10)的组合。性能度量是找到所有目标所需的决策周期数,最大限制为100个周期。结果表明,较高的折扣因子通常能带来更好的表现。这表明,在均匀分布的信念场景中,我们的框架通过更加重视长期奖励而获益。
- 稀疏信念单峰场景: 如表I所示,在稀疏信念单峰场景中,我们使用了类似的实验设置。与均匀信念类似,较高的折扣因子通常能带来更好的表现。
- 稀疏信念三峰场景: 在稀疏信念三峰场景中,较高的折扣因子,特别是与较高的奖励alpha值结合时,表明我们的方案具有更好的性能。这表明,在具有多个高概率区域的复杂信念分布中,我们的框架通过结合长期规划(较高的折扣因子)和更强烈关注即时奖励(较高的奖励alpha)来获得优势。
基于超参数搜索的结果,我们选择了每种信念类型下表现最佳的折扣因子和奖励alpha组合。这些最优超参数值在我们的2D环境和AirSim环境实验中一致使用,确保了不同模拟平台上的标准化方法。
Shrinking POMCP与其他方法的比较:
Shrinking POMCP与其他方法(MCTS、Lawnmower和贪婪算法)之间的性能比较显示了我们提出的方法在效率上的优势。如图5所示,Shrinking方法在均匀和单峰信念类型下,始终需要显著较少的决策周期来定位所有目标。我们Shrinking POMCP的关键优势在于,它能够在每个决策周期输出一个动作序列,而不是单一的动作。这使得代理能够在每个周期中高效地规划到下一个最佳的非稀疏区域。

发表回复