论文研读笔记（五）——通过单机器人进化策略搜索增强多机器人导航的深度强化学习方法

admin • 2022-08-31 12:17 • 人工智能

通过单机器人进化策略搜索增强多机器人导航的深度强化学习方法（Enhancing Deep Reinforcement Learning Approaches for Multi-Robot Navigation Via Single-Robot Evolutionary Policy Search）

最近我在学习多机器人编队导航的论文，此篇文章为“Marchesini E, Farinelli A. Enhancing deep reinforcement learning approaches for multi-robot navigation via single-robot evolutionary policy search[C]//2022 International Conference on Robotics and Automation (ICRA). IEEE, 2022: 5525-5531.”的论文学习笔记，只供学习使用，不作商业用途，侵权删除。并且本人学术功底有限，如果有思路不正确的地方欢迎批评指正！

摘要

最近的多智能体深度强化学习方法将全局动作值分解以解决非平稳性并支持合作。然而，这些方法通过引入约束（例如，附加值分解）来保证分解，从而阻碍了探索。文中的目标是通过结合周期性进化策略搜索（EPS）来增强多机器人无地图导航的探索和提高样本效率。详细地说，多智能体训练“**专门化”**了机器人的策略，以学习任务所必需的防撞技能。同时，在这项工作中，文中建议使用 进化算法在只有一个机器人的环境中探索策略空间的不同区域。这个想法是核心导航技能，起源于使用变异算子的多机器人策略，在单机器人 EPS 中提高得更快。因此，可以使用交叉将 策略参数注入 多机器人设置，从而提高性能和采样效率。多达 12 个机器人的任务实验证实了导航技能从 EPS 到多机器人设置的有益转移，提高了先前方法的性能。

个人总结：解决非平稳性的多智能体合作，结合EPS增强机器人的探索以及提高样本效率，使用DRL训练机器人策略，并利用进化算法优化策略空间，最后将策略参数交叉注入多机器人设置以提高性能和采样效率。

一、介绍

机器人导航是深度强化学习 (DRL) 文献中的一个关键主题，范围从室内移动机器人 [1] 到室外水上平台 [2]。由于其广泛的适用性（例如，搜索和救援 [3]），这一特定任务也已扩展到多智能体深度强化学习（MARL）领域。
MARL 可以以许多不同的方式形式化，例如，机器人（或代理）可以是竞争的或合作的，并且可以优化个人或联合奖励 [4]。然后可以在各种范式下表达 MARL 方法，例如集中式或独立学习，或最近流行的具有分散执行的集中式培训 (CTDE) [5]-[9]。 CTDE 成功的原因在于它结合了以前范式的优点，同时自然地解决了它们的局限性。更详细地说，集中式学习使用联合观察（即所有机器人状态的知识）来解决多智能体环境的非静止性质，但几乎不会增加机器人的数量。相比之下，独立学习的规模很好，因为它只使用局部观察，但由于其他机器人引起的环境变化，不能促进合作，也不能成功解决非平稳性。因此，CTDE 集中了学习过程的全局信息，分散执行因为它只依赖于局部观察来计算每个机器人的动作。直观地说，这结合了集中学习和独立学习的好处，同时具有可扩展性、有利于合作和解决非平稳性。
鉴于 CTDE 的好处，已经朝着这个方向设计了几种基于价值的 MARL 方法。具体来说，价值分解网络 (VDN)、QMIX、WQMIX 和 QTRAN [7]-[10] 利用了为学习过程分解全局（或联合）动作价值函数的想法。潜在的问题是，由于用于确保分解的约束（例如，单调性、可加性），它们限制了探索（因此，它们在寻找更好的导航行为方面受到限制）。相比之下，最近的趋势利用决斗网络的洞察力来维持对状态和优势值的单独估计，学习联合状态值。这允许避免约束 [11]，解决先前方法的探索问题（有关这些 CTDE 方法的更多细节将在第 II 节中讨论）。
在此背景下，文中旨在通过从不同的角度分析问题，改进 MARL 在多机器人无地图导航问题中的探索。具体来说，在这种情况下，导航策略可以解耦为两个（所谓的）子策略：（i）到达目标的导航技能； (ii) 避免其他机器人的碰撞避免行为。根据相关文献，这两种策略都可以作为单个导航策略 [1]、[12] 来学习，但是文中认为通过训练单个策略来学习这两种技能会隐含地阻碍样本效率和探索，而且动机很简单。机器人之间的碰撞结束了一个训练时期，因为机器人应该返回到非碰撞状态（即环境通常被重置）。然而，机器人本可以继续探索当前的路径，以探索和获得有助于学习其最终目标的新技能。
为此，文中提出了一种在现有 MARL 方法之上工作的进化策略搜索 (EPS)。文中目标是使当前的多机器人策略具有基本的导航技能，这些技能可以在单独的单个机器人环境中通过 EPS 轻松获得。直观地说，使用单个机器人在静止环境中提高导航技能比在复杂的非静止环境（例如多机器人任务）中从头开始学习要简单得多（并且很少发生碰撞，从而改善了探索）。
更详细地说，文中建议使用从机器人的策略中定期生成的进化种群，使用变异算子来探索策略空间的不同区域。这些变异版本的策略是在单机器人环境中通过一组试验独立评估的。因此，文中选择具有最高回报的个体，这意味着更好的导航行为，并通过使用交叉算子将其技能注入 MARL 策略。进化算法和基于梯度的 DRL [13]-[17] 的先前组合突出了这种信息传递的有益效果。但是，这些框架仅限于单代理场景，旨在提高整体回报。相比之下，EPS 使用文中的解耦形式化促进在线（即在 MARL 训练期间）学习基本导航技能，以提高现有方法的性能和样本效率。文中在第四节中的消融研究表明，这改进了预训练单机器人导航策略的更直观的解决方案，并使用它来初始化多机器人任务的策略，类似于迁移学习 [18]。
文中在多智能体（即协作导航）的基准测试任务上评估 EPS，它是多智能体粒子环境的一部分，是 DRL 方法的广泛使用的基准 [19]。结果证实，文中提出的方法比以前的 MARL 方法（即独立学习者和 GDQ）有所改进。因此，文中使用最多 12 个机器人的基于 TurtleBot31 的环境来展示 EPS 在多机器人导航中的有益效果，突出其在日益复杂的场景中的可扩展性和性能改进。

二、前言与相关工作

文中将多机器人导航建模为 Dec-POMDP [20]，参考先前的 CTDE 工作以获得更正式的定义 [8]。在本节中，文中首先讨论用于机器人导航的 DRL 和先前的 MARL 方法，然后提供文中的 CTDE 基线 GDQ [11] 背后的直觉。

A.机器人导航的深度强化学习

由于其实际意义，导航已成为机器人 [1]、[21] 的 DRL 的强大基准。最近的工作 [12] 展示了在该领域中使用基于值的 DRL 的好处，大大降低了计算复杂性，同时保持了与策略梯度（或演员-批评者）解决方案相当的性能。此外，最近的几项工作重新激发了使用具有离散动作空间的基于值的 DRL 的兴趣，表明它可以处理高维域 [22]-[24]。

B.分散执行的集中训练

多智能体 DDPG (MADDPG) [5] 是最早基于 CTDE 的 MARL 算法之一，其中每个智能体使用集中信息进行训练，但它仅依赖于决策过程的本地动作观察历史。最近，一些研究工作转向基于价值的 MARL [7]-[10]（这也是由于上一节的见解）。这些方法侧重于确保所谓的个体全局最大值（IGM），它指出使用全局动作值选择的最佳联合动作

[

]

{rm a}:=[a_i]^n_i=1

$a := [a_{i}]_{i n} = 1$ （其中

$n$ 是代理的数量）

(

)

Q_G(τ,a)

$Q_{G} (τ, a)$ 必须返回每个代理在其分散执行中选择的相同操作。形式上，文中可以分解

(

)

Q_G(τ,a)

$Q_{G} (τ, a)$ 当且仅当存在

[

→

]

[Q_i:T_i×A_i→mathbb{R}]^n_ i=1

$[Q_{i} : T_{i} \times A_{i} \to R]_{i n} = 1$ （其中

T_i, A_i

$T_{i}, A_{i}$ 分别是单个智能体的动作观察历史空间和动作空间）使得

∀

∈

∀τ∈T

$\forall τ \in T$ ：

其中

$τ$ 是联合动作观察历史，但对于每个个体

$i$ ，

Q_i, τ_i, a_i

$Q_{i}, τ_{i}, a_{i}$ 是相同的函数。
先前的工作提出了不同的结构约束来确保这种分解，例如可加性（VDN [7]）和单调性（QMIX [8]，在 WQMIX [10] 中得到了改进）。然而，这限制了联合动作值的表示表达能力[25]。沿着这条线，QTRAN [9] 使用线性软正则化和线性约束来放松 IGM 约束，但尽管有理论上的保证，但它会导致性能不佳 [10]。
相比之下，文中最近称为 Global Dueling Q-learning (GDQ) [11] 的解决方案通过估计联合状态值

(

)

V_G({rm v})

$V_{G} (v)$ 并利用 Dueling Architecture [26] 的见解（其中

[

(

)

]

{rm v}:=[V_i(τ_i)]^n_i=1

$v := [V_{i} (τ_{i})]_{i n} = 1$ 是个人的状态值）。文中使用 GDQ 作为 EPS 的基准，因为它的性能优于以前的工作。此外，在第四节中，文中展示了一个将 EPS 应用于独立学习者的额外实验，以展示其即使在非协作架构中的好处。

Global Dueling Q-learning：文中简要介绍GDQ背后的主要思想。在 Dueling Architecture [26] 中，Q 网络维护两个独立的流来估计形成动作值的两个分量，即状态值 V (s) 和优势 A(s, a) 函数。2 这些然后在最后一个网络层中组合流以获得实际的动作值函数 Q(s, a)。在最简单的形式中，这种聚合层计算 Q(s, a) = V (s) + A(s, a)，而在实践中使用以下等式，因为它会产生更好的性能：

其中 $V_G({rm v}) VG(v)。该值替换了个人目标计算中的状态值。因此，将有关系统状态的全局知识引入所有代理。至关重要的是，GDQ 确保 IGM 不受约束，因为 V G ( v ) V_G({rm v}) VG(v)不会影响代理的决策过程，这仅取决于优势：文中参考作者的GDQ 论文 [11] 以获取有关其实施的更多详细信息。$

三、进化策略搜索

作者提出了一个新的框架，该框架在先前的 MARL 算法之上工作，以在多机器人任务的训练期间改进核心导航技能的学习（即在简化的静止环境中导航）。
文中的进化策略搜索的一般流程总结在算法 1 中。更详细地说，选择的 MARL 基线在遵循算法规范的多机器人任务上运行（第 2 行）。文中定期利用进化算法 (EA) [27] 和基于梯度的突变 [28] 来生成机器人策略的突变版本群体（第 3-6 行）。为此，文中从内存缓冲区中采样

$b$ 批次，以计算网络输出对其权重

θ^e

$θ^{e}$ 的每个权重敏感度

$ω$ (第 7-8 行以及下一节中的更多详细信息)。这用于生成具有权重

θ_{mathcal{P}}

$θ_{P}$ 的

$m$ 个个体

mathcal{P}

$P$ 的种群，文中向其中添加原始网络权重的副本（第 9 行）。文中在单个机器人环境的多个独立实例上的一组固定时期评估

mathcal{P}

$P$ 。这用于收集代表文中的适应度分数

F_{mathcal P}

$F_{P}$ （第 10 行）的个人平均奖励，然后用于选择最佳权重集 θ∗，即获得更高回报的权重（第 11 行）：

因此，文中使用基于 Polyak 平均的平均交叉算子（第 13-14 行）在多机器人场景的策略中注入人口中突出显示的最佳行为，这在文中的初步实验中显示出更好的性能：

其中

$α$ 是一个超参数，用于控制从最佳个体和 MARL 算法注入的信息量。文中注意到，由于在注入的静态单代理环境中导航的大量信息，

$α$ (即

≥

0.4

α ge 0.4

$α \geq 0.4$ )的高值会以有害的方式影响 MARL 网络。相反，当

0.4

α<0.4

$α < 0.4$ 时，作者发现信息传递是有益的具有显着的性能改进（在第 IV 节中讨论），这证实了文中在第（一）节中的想法和 EPS 的好处。

A.基于梯度的突变

通过简单的高斯噪声干扰 DNN 的权重可能会导致破坏性的策略更改 [28]。因此，文中使用梯度信息来设计避免这种有害行为的突变，通过每权重灵敏度

$ω$ 对高斯扰动进行归一化。文中将高斯噪声

mathcal G

$G$ 视为扰动的基线，并使用文中的灵敏度

$ω$ 对其进行归一化，文中使用内存缓冲区中过去访问的状态来计算它。然后，文中将得到的基于梯度的突变应用于总体权重。形式上，文中使用输出

(

)

y = f_{θ_e}(b)

$y = f_{θ_{e}} (b)$ 的梯度的每个权重大小（其中

$b$ 是过去访问状态的随机抽样批次，

f_{θ_e}

$f_{θ_{e}}$ 是权重为

θ_e

$θ_{e}$ 的网络表示的函数）来估计使用一阶近似值对权重的灵敏度

$ω$ ：

其中

$b$ 的每个样本对

$ω$ 的贡献相同，以减少对策略的整体变化。文中参考关于基于梯度的突变的原始工作 [28] 以获取更多详细信息。但是，作者注意到这是该运算符在 MARL 上下文中的第一次应用。

B.进化策略搜索的局限性

作者注意到 EPS 与之前的工作 [13]、[14] 有一个限制，需要模拟器来执行进化搜索。然而，一般来说，DRL、机器人技术和组合方法的最新成果主要是通过模拟和在真实平台上转移策略来实现的[29]、[30]。此外，作者在算法 1 中对 EPS 的形式化需要在考虑的 MARL 基线中共享权重。虽然这通常用于 MARL [8]、[11]，但作者注意到 EPS 也与每个机器人保持其单独的权重集的场景兼容。在这种情况下，使用每个机器人的权重集的副本（即种群大小等于机器人数量 m = n）来实例化种群 P 并使用个人经验单独计算灵敏度就足够了。最后，鉴于 EPS 在现有算法之上工作，它适用于任何 MARL 基线。

四、实验

文中首先研究 EPS 应用于基于最先进的基于值的算法（即 Rainbow [31]）和 GDQ [11] 的独立学习者（IL）算法的好处，该算法最近显示出优于先前的性能基于价值的MARL。文中将这些实现分别称为 EPS-IL 和 EPS-GDQ。因此，文中引入了多机器人导航环境，文中对多达 12 个机器人进行了更全面的评估，以确认通过进化搜索同时探索核心导航行为是否可以提高 MARL 的性能。
数据是在 RTX 2070 和 i7-9700k 上收集的，使用作者之前工作中报告的相同网络架构和超参数 [11]。在导航任务中，文中包含了原始 QMIX [8] 的性能，以便更全面地了解 MARL 在多机器人导航中的性能（请注意，文中考虑了 QMIX [8] 而不是 WQMIX [10]，因为文中获得了在作者的初步实验中表现相当）。文中不考虑 VDN，因为它的性能优于 QMIX [8]、[11] 和 QTRAN，因为它通常会导致性能不佳 [10]。4 鉴于评估的统计显着性的重要性，以下图表和结果考虑了使用不同的随机种子在五次独立运行中收集的平均值和标准偏差。这导致与原始实现略有不同的结果。
鉴于评估的统计显着性的重要性，以下图表和结果考虑了在使用不同随机种子的五次独立运行中收集的平均值和标准偏差。这导致与原始实现略有不同的结果。
为了公平比较，作者在所有结果中包括 EPS 所需的额外时期，因为这在组合方法中是典型的 [13]。然而，作者注意到，由于并行化，训练时间开销可以忽略不计（即，每个单机器人环境都是严格独立的，在文中的实验中，基于 EPS 的方法训练的开销约为 MARL 基线的 4 ± 3% ）。

A.基准示例

文中将多智能体粒子环境任务 [19] 的协作导航视为确认 EPS 优势的初步基准。图 2 描述了这种环境，其中 3 个代理必须学习如何导航和覆盖地标。他们会根据每个代理与每个地标的距离以及碰撞时的惩罚来获得积极的奖励。

表 I 中的结果显示了 IL、EPS-IL、GDQ、EPS-GDQ 在整个训练阶段（所有方法持续约 100 分钟）的平均奖励和碰撞百分比。这些初步实验证实了 EPS 背后的想法，即同时搜索更好的核心导航行为会带来更好的性能（即更高的奖励和更少的碰撞）

B.多机器人导航

对于作者的机器人导航实验，文中使用与之前的 DRL 和 MARL 导航工作类似的设置 [11]、[12]。
详细地说，文中的多机器人任务模拟了一个 Turtlebot3 室内导航环境，最多有 12 个机器人（文中的实验使用 n = {2, 4, 8, 12} 个机器人），每个机器人必须导航到它的目标并避开碰撞。目标在每个 epoch 的环境中随机生成，并保证无障碍（即它们不会在机器人的初始位置生成）并且彼此相距至少 0.5m。

按照 Turtlebot3 的规范，文中使用最大 90 度/秒的角速度和最大 = 0.2 米/秒的线速度。在每个实验中，机器人的决策频率为 20Hz，以反映LDS-01 激光雷达传感器。文中对 EPS 的单机器人环境使用相同的规范。后一种环境中唯一的其他区别是静态障碍物的存在，引入以保持 MARL 策略中存在的关键避障行为。图 3 中描述的这两个环境是使用 Unity ml-agents 工具包 [32] 构建的，原因有以下三个： (ii) 它可以加快模拟速度； (iii) 并行化 EPS 评估独立处理每个单机器人环境是很简单的。
每个机器人在每个时间步

$t$ 收到一个奖励信号

$r$ ：

即，如果它在距离

0.1

d_t = 0.1m

$d_{t} = 0.1 m$ 内到达目标，或者与其他机器人（或墙壁）发生碰撞，则为两个稀疏值，导航时为一个密集值，其中

−

d_{t−1}

$d_{t - 1}$ ，

d_t

$d_{t}$ 是机器人与其机器人之间的欧式距离连续两个时间步的目标。

网络架构：作者使用一个 30 维向量，其激光扫描值在 [-120, 120] 度和机器人目标位置（定义为与机器人的距离和相对航向）之间均匀分布为网络的输入。输出层考虑离散线速度
实证评估：根据作者在协作导航领域的初步实验，这里作者只考虑性能最佳的算法（即 GDQ、EPS-GDQ）和 QMIX，以提供更全面的 MARL 在多机器人导航中的概述。作者的目标是调查 EPS 是否有利于在 MARL 训练期间学习核心导航技能，从而提高组合方法的性能和样本效率。

对于

n={2,4,8,12}

$n = 2, 4, 8, 12$ 机器人的每个实验，作者绘制以下曲线，报告多次运行的平均值和标准偏差，平滑超过 100 个 epoch。更详细地说，作者将平均奖励绘制为主要评估指标，这清楚地表明了导航性能。作者还讨论了相对成功率，它表示在 100 个 epoch 上执行了多少成功的无碰撞轨迹（即，当环境中的所有机器人都达到其目标时，作者认为成功）。
图 4 显示了 IL、QMIX、GDQ 和 EPS-GDQ 在具有越来越多机器人的导航任务中的结果，其目标是学习如何到达不同的目标位置，同时避免与墙壁和彼此的碰撞。

作者注意到，在考虑 2 个机器人时，结果具有可比性，而 EPS 的好处随着机器人数量的增加而变得明显。更详细地说，当 n = 4 时，EPS-GDQ 以 ≈100000 步稳定在 ≈35 平均奖励（即 ≈ 90%）。相比之下，标准 GDQ 和 QMIX 在 175000 和 110000 步中分别达到 ≈88% 和 ≈90% 的成功率。 EPS-GDQ 的性能改进在 n = {8, 12} 个机器人时很明显，其中 QMIX 没有学习如何在与环境的很少交互中分解全局动作值，而 EPS 提供了明显优于 GDQ 的性能优势，尤其是在训练的初始阶段，核心导航行为的学习速度更快。

对未知场景的泛化：用 MARL 训练的多机器人任务策略可以以分散的方式在环境中导航，仅利用前面部分讨论的本地信息。为了测试文中的模型是否概括了机器人导航的关键方面（例如，起始和目标位置和速度），给定基于激光扫描的观察，文中执行在以前看不见的场景中对 4 个机器人进行了额外的实验。这个测试环境如图 5 所示，其中每种颜色代表一个代理及其目标。5 为了公平评估，文中选择了所有模型都可以达到的目标序列。表2中的结果证实了训练期间突出显示的趋势，其中 EPS-GDQ 在平均奖励方面优于基线。文中还测量了检测到的碰撞百分比，进一步证实了通过文中的进化搜索获得的性能改进，它返回了与 GDQ 相当的碰撞，但奖励更高。

C.消融研究

为了进一步证实文中的想法，即 EPS 提高了先前算法的探索和采样效率，文中在 4 个机器人的场景中进行了额外的消融研究。详细地说，文中最初在单机器人场景（预训练）中训练导航策略。因此，作者以与迁移学习类似的方式使用预训练的权重集（文中将其称为 Pre-GDQ）初始化网络的 GDQ 权重。文中的目标是验证 EPS 定期搜索是否比 Pre-GDQ 更直观的解决方案提供了更好的性能。
文中在预训练的不同阶段进行了三个具有不同初始化的实验（即，单机器人预训练的成功率约为 50%、75% 和 95%，对应于约12、20、30 的平均值分别奖励）。图6显示了Pre-GDQ不同运行的平均奖励，初始成功率约为 75%，而表3显示了文中在不同运行条件下的试验的性能初始化（作者以千为单位表示步骤）。至关重要的是，每个实验都证实了文中对 EPS 背后的直觉，因为文中的 EPS-GDQ 在 100000 步中实现了约等于35 的平均奖励（即，比表现最好的 Pre-GDQ 的步数少了大约两倍）。

五、结论

文中提出了 EPS，这是一种在现有算法之上工作的多机器人导航新方法，保持其 CTDE 时尚。其想法是执行周期性进化搜索以找到更好的核心导航行为以注入 MARL 训练。文中的合作导航中的初步评估强调了将 EPS 与先前的 MARL 算法（即 IL、GDQ）一起使用时的性能改进。因此，文中在多达 12 个机器人的多机器人机器人导航场景中评估了文中的框架。这个实证评估表明EPS-GDQ 显着提高了先前 MARL 方法的性能，尤其是在机器人数量不断增加的情况下。这项工作为多个研究方向铺平了道路，因为将 EA 应用于多智能体场景是一种培养期望行为的新方法进入训练循环，可能会探索更安全的行为来解决安全 MARL。另一个有趣的方向是最近使用形式验证的趋势阳离子 [33], [34] 来量化和培养智能体的安全行为，文中认为这是复杂多智能体任务的关键方面。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

人工智能多智能体深度强化学习强化学习方法机器人机器学习

二维码

深度学习（PyTorch）——生成对抗网络（GAN)

< <上一篇

为什么基于树的模型在表格数据上仍然优于深度学习

下一篇>>

搜索内容