强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey

最近一直在看用cv的方法进行轨迹预测,大老板说也许可以用强化学习来做,于是读了21年的 “Deep Reinforcement Learning for Autonomous Driving: A Survey” 这篇文章。这里对文章进行了简单的概括分享,作为我之后工作的一个基础,也希望能帮助到同样做自动驾驶的同学。

原文链接:https://ieeexplore.ieee.org/document/9351818

监督学习不适合自动驾驶任务

机器学习分为监督学习、非监督学习以及强化学习(RL)。自动驾驶研究是一个解决序列决策的问题,得到的最优行动就等于强化学习中的策略。而监督学习不适用于这类研究,原因如下:

  1. 智能体的行为预测改变了未来传感器从环境中接收到的观察结果
  2. 碰撞时间等参数在环境中不确定。需要最大化的随机代价函数来解决;
  3. 学习的环境时刻在变化。有些任务要在驾驶的每一刻预测最优,就要一直学习环境的新配置。

自动驾驶的感知模块(perception module)

  1. 车道位置;
  2. 可行驶区域;
  3. 车辆、行人;
  4. 交通灯状态。

以上的这些从感知模块中获得,为中级抽象表示,经过Scene Understanding生成高级动作或决策模块。这个过程包括场景理解、决策以及规划,而且这个过程往往综合了激光雷达、相机以及雷达所获得的信息。

自动驾驶的控制器

控制器基于经典最优控制理论。其从预先确定的地图或专家驾驶记录获得路径上每个点所需的速度,转向角度,制动动作。

强化学习的一些基础概念

  1. 一个奖励函数 r 评估一个智能体(agent)的表现;
  2. 用ε-greedy和softmax来管理权衡策略以达到探索未知东西的目的;
  3. 马尔可夫决策过程(MDPs)用来解决单个智能体的序列决策问题。

应用强化学习可以应用在控制器优化、路径优化、高级驾驶策略开发、交叉口合并与分割策略学习等任务。深度强化学习(DRL)包括状态空间、行动空间和奖励功能。在自动驾驶这个课题下,状态空间就是自己车辆的位置、方向和速度,以及其它障碍物。

已有的自动驾驶(AD)任务

  1. 车道保持;
  2. 车道改变;
  3. 斜坡合并;
  4. 超车;
  5. 十字路口;
  6. 运动规划。

设计自动驾驶的奖励函数仍然是一个非常开放的问题,因为会受速度、人行道等因素的影响。

自动驾驶安全政策

已有系统对失去控制、看不见的障碍物作出反应。此时的外在奖励是专家,内在奖励是预测的误差。用多智能体强化学习(MARL)制定自动驾驶安全策略,可以应用于平衡高速公路上的超车行为,通过没有信号控制的十字路口等。

未来挑战

作者认为多智能体在自动驾驶领域会有更大的发展空间。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>