三篇强化学习用于多智能体路径规划的论文

article/2025/1/12 12:18:48

Multi-Robot Path Planning Method Using Reinforcement Learning

期刊:applied science MDPI
总结:使用VGG进行特征提取,再使用DQN进行决策。论文质量较低,缺乏很多重要内容,如:环境搭建、数据集介绍、action和state的相关描述,还有很多typo;而且论文中并未体现出多机器人的思想。

论文模型图非常简单,画了跟没画似的。。。和常见的强化学习交互图一样。
在这里插入图片描述
用到了CNN来处理像素信息(应该后续会作为state),但文中并未说明图像信息来源:
在这里插入图片描述
reward设置:离目标近,reward +0.2;碰撞,reward -20;到达目标点,reward +100;
在这里插入图片描述
算法流程:并未说清楚s,a是怎么来的;猜测action是停在原地以及上下左右移动五种情形
在这里插入图片描述
强化学习算法:DQN
模拟环境:we built a simulator using C++ and Python in a Linux environment;障碍物的数量和位置是随机的;最终目标始终是右上角

Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm

arxiv 2020

总结:将传统的A star算法选择路径作为强化学习算法中的action(相当于用A*进行保底)
action:
在这里插入图片描述
state:作者在unity3D上的简要环境,一个机器人带有45方向个传感器,45个方向感知的东西, 传感器的感知范围为d长度。
在这里插入图片描述
reward r n a v i g a t i o n + r s c e n a r i o + r p e n a l t y r_{navigation}+r_{scenario}+r_{penalty} rnavigation+rscenario+rpenalty

  1. r n a v i g a t i o n r_{navigation} rnavigation: 如果action是 a 0 a_0 a0,即采用传统方法,则为正奖励,否则为0
  2. r s c e n a r i o r_{scenario} rscenario:若发生碰撞,则为负奖励;若到达终点,则为正奖励
  3. r p e n a l t y r_{penalty} rpenalty:每走一步,都有一个负奖励

RL算法:PPO

模拟环境:Unity3D + Tensorflow

PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning(经典)

发表于2019 Robotics and Automation Letters

总结:结合了强化学习和模仿学习,能用于多个智能体(1024);分布式算法
设计了expert centralized MAPF planner,各个agent的决策都是有益于全体的;agent不需要显式通信,但可以在路径规划中表现出隐式协同。
单agent的决策靠的是RL + 模仿集中专家
(有点类似于:集中式训练,分布式执行)

state

observation space是有限的,不知道全局地图;每个agent视野范围不一定有goal,但是知道goal方向。
state:由四个channel组成(二值矩阵),障碍物、其他agent位置、agent的目标、其他可见的agent目标
在这里插入图片描述

action:

action:上下左右或者不动
存在无效action,规定只在有效action中采取行动(比给无效action一个负反馈,效果更好)。
鼓励探索,禁止agent返回上一个位置,可以静止不动

reward:

reward:发生碰撞就扣分,达到目的地就加分
静止不动,惩罚更多
在这里插入图片描述

Netword:

使用A3C来训练,policy network由CNN, LSTM, pooling组成:
在这里插入图片描述
输入是四个channel和goal position
输出有三部分,policy和value相当于actor和critic(他们共享了参数),还多了一个blocking,代表是否阻碍了别的agent。
使用A*算法估计路程,如果说去掉所有的agent后的路程变少了十步,那就视为blocking

Learning

分布式策略,但是得互相合作。常用的协同策略:① shared critics,当FOV并非有限的时候是有用的 ② joint rewards
本文的策略:

  1. blocking penalty:如果agent在goal待着不动,阻碍了别的agent到达,扣分。虽然别的agent可能有另外的路线,但当前路径可能是最短的
  2. combining RL and IL :RL允许探索,IL能快速找到高质量区域;在线生成专家演示?(利用ODrM* optimal multirobot path planning in low dimensional search spaces生成高质量路径)
  3. environment sampling
    在这里插入图片描述

知乎解析
模拟环境:YouTube视频 , github代码 (python搭的环境)

总结对比:

paperstateactionreward补充
Multi-Robot Path Planning Method Using Reinforcement LearningCNN分析环境的结果未说明,猜测是上下左右和停在原地离目标越近越好,碰撞会赋负值质量低
Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm45个方向的传感器结果,障碍物or合作智能体六种action,A*, stay, backward, forward,left,right r n a v i g a t i o n + r s c e n a r i o + r p e n a l t y r_{navigation}+r_{scenario}+r_{penalty} rnavigation+rscenario+rpenaltyA*作为保底
PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning不同视野的四通道(障碍位置、当前agent位置、邻居位置、agent目标)东南西北移动、不移动靠近目标就加分,发生碰撞减分推出了PRIMAL2

http://chatgpt.dhexx.cn/article/KTFMDV0o.shtml

相关文章

网络工程(计算机网络)毕业论文+PPT【中学实验楼综合布线和无线网络规划】

我有两位优秀的小兄弟毕业了,在他们的允许下,把这两篇毕业论文写成博客,作为网络专业同学的参考!仅供参考,切勿用作其他用途! 论文一:网络工程(计算机网络)毕业论文PPT【…

2009-2021网络规划设计师论文题汇总

1、历年论文题目速览 分类 论文题目 网络规划与设计 2009-11:论电子政务专用网络的规划与设计 2010-05:论网络规划与设计中的可扩展性问题 2010-05:论大中型网络的逻辑网络设计 2010-11:论校园网/企业网的网络规划与设计 2010-…

2023网络规划师论文怎么准备

网络规划设计师是软考高级考试科目之一,也是比较难的科目,据官方数据统计网规每年的通过率很低,而且每年只有下半年11月份考一次,如果是直接裸考,估计很悬哦~ 参加考试获得证书的过程就是一个学习网络规划系统知识的过…

自动驾驶路径规划论文解析(1)

解析论文:A real_time motion planner with trajectory optimization for autonomous vehicles 论文的核心结构是这样的: 1,规划上是时空分离的,横向规划是建立曲率kappa关于位置s的函数,纵向上建立速度v关于位置s的函…

城市规划设计毕业论文范文

一、内容说明 之前在写论文的时候,也看了很多相关的文章和大神的帖子,对于定题,写作等方面有很多经验和大家分享下。 总的来说,最重要的就是定的题目要确保后续能够写的出来,写的顺畅。论文需要的数据提前准备好&…

轨迹规划论文阅读20220109-A Real-Time Motion Planner with Trajectory Optimization for Autonomous Vehicles

0、摘要 提出了一种基于轨迹优化的高效实时自动驾驶运动规划方法。将轨迹空间离散化->利用cost functions 来找到最佳轨迹。 引[CSDN1]: 规划器首先把规划空间离散化 ,并根据一组代价函数搜索最优轨迹,然后对轨迹的path和speed进行迭代优化…

为何国内“程序员”是秃头代名词?来看看国外程序员的一天

程序员在我国可以说是较受理工科男生欢迎的一份职业,但程序员可不是那么好当的。程序员除了拥有“高薪”外,还有着“996”。在国内一提起“程序员”,很多人都会想到掉头发。程序员真的很辛苦吗?看了美国硅谷谷歌程序员的一天&…

笑死,别再黑程序员了好吗? | 每日趣闻

往 期 趣 闻 ☞程序员学历低,该被歧视吗?| 每日趣闻 ☞如果重新一次高考,你还会选择软件专业当程序员吗?| 每日趣闻 ☞啧啧,这种程序员……| 每日趣闻 ☞程序员掉头发的原因找到了 | 每日趣闻 ☞程序员,什么…

啧啧,这种程序员……| 每日趣闻

往 期 趣 闻 ☞程序员学历低,该被歧视吗?| 每日趣闻 ☞如果重新一次高考,你还会选择软件专业当程序员吗?| 每日趣闻 ☞改变程序员的一本书 | 每日趣闻 ☞程序员掉头发的原因找到了 | 每日趣闻 ☞据说只有程序员才看得懂 | 每日趣闻…

程序员掉头发的原因找到了 | 每日趣闻

往 期 趣 闻 ☞研发团队来了高颜值的妹子,这结局万万没想到 | 每日趣闻 ☞知道用手机写代码是什么感受吗?| 每日趣闻 ☞当前端接收到后端的数据 | 每日趣闻 ☞程序员哪个时间敲代码效率最高?| 每日趣闻 ☞如何优雅地拒 Offer?| 每…

30岁女子跟程序员相亲,结果见面后秒拒:秃顶工资再多也不要

大家印象当中秃顶的人往往知识更渊博,就是用脑过度才会产生,而有一个职业秃顶的概率就其他行业的人偏多,那就是程序员,毕竟他们经常加班,而且还天天面对着电脑,工作压力以及身心压力导致掉头发严重。 最近在职业论坛看到自己很多热门的帖子,“30岁女子跟程序员相亲,结…

数学149的女学霸,直言想当程序员!女生当程序员到底行不行?

最近一段时间,全国多个省市的高考分数线录像出炉,各地又多了一堆学霸秀分数了,他们的专业选择也成为网友们津津乐道的闲谈。这两天有报道称,四川成都一学校的女学霸出名了,在采访中她透露自己高考分数达到了692分&…

程序员为什么多数秃头?看完这15个瞬间,终于懂了

自从成为一名程序员后,总有一些事发生后,有种打人的冲动。虽然码农工资高、社会地位也不错,但谁能明白,当一个程序员,每时每刻都要面对那些奇奇怪怪的事情,程序员为什么多数秃顶,还是有原因的。 Part.1 听说客户还在用IE时 Part.2 每次开会最想说的话,结果… Part.3 客…

为什么测试/开发程序员有很多都是秃头?现实居然是这样......

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结 前言 为什么测试/开发程序员有很多都是秃头? 先…

作为一个成功的程序员,你需要掉头发吗?

2019独角兽企业重金招聘Python工程师标准>>> 混迹IT行业不知不觉已经两年了,从事这写代码的行业,到目前为止,没有什么很惊心动魄的举动,从杭州一家小型IT公司跳槽到深圳的一家中型IT公司,现在感觉写代码都没…

java工程师容易秃头吗_程序员更容易秃头?原因是什么?

程序员脱发多不仅是因为这个职业,其实更多的是因为程序员男性居多。而男性脱发多是以雄脱为主,这是杀伤力的一种脱发类型。 而且程序员的职业特点也导致脱发发生或雄脱提前。 经常会发现有很多脑力工作者都面临了脱发的危机,比如说程序员和科…

这是什么“虎狼之词”啊!!!程序员的健康问题,看一线老中医怎么说!!!

文章目录 缘起掉头发问题防治大法秘访老中医:胃、肝、脾、肾易筋经、洗髓经腰间盘内啥,心照不宣 缘起 为什么会做这么一期呢?有需求,就会有市场嘛,这是最直接的了。 我有一个程序员的大群,群里三百六十行…

程序员该如何避免掉头发?

web前端教程 用大白话,来讲编程 调查表明脱发最多职业的前五名分别是:科研人员、程序员、户外工作者、销售人员以及运动员。 在人们的印象中,科学家和程序员确实是更容易脱发的人群,这其中到底是为什么呢?主要有下面这么一些原因&…

除了加班、掉头发,程序员还在承受些什么?

转自:除了加班、掉头发,程序员还在承受些什么?

太烧脑了,怪不得程序员会掉头发

前言 更多内容,请访问我的 个人博客。 有人晚上会刷抖音,有人晚上会追剧,有人晚上有约会。。。而程序员的夜晚,只有编程!​公元 2020 年 5 月 27 日,这天,一个小小的程序员,居然花了…