衡量自动驾驶汽车的一大关键标准是看自动驾驶汽车能否正确穿过没有信号的交叉路口。宾夕法尼亚大学等多个机构的研究者提出使用深度强化学习来帮助自动驾驶汽车通过交叉路口,结果取得了非常优良的表现。
论文地址:https://arxiv.org/abs/1705.01196
无人驾驶汽车的研究已经不再只是识别交通灯或道路标志那样的简单过程了,它已经延伸到了生活中的很多场景中。衡量自动驾驶汽车的一大关键标准是看自动驾驶汽车能否正确穿过没有信号的交叉路口。在这篇论文中,研究者提供了一种使用深度强化学习的新策略。与当前的基于规则方法相比,这能以一种有用的方式存储和操作知识以及解读信息。这篇论文向我们表明,使用深度强化学习可以在任务完成时实现更优的表现和目标成功率等。平均成功率可高达 99.64%,一次试验成功平均所用的时间缩短到了平均 5.5 秒。但是,他们指出在稳健性提升方面还需要更多努力。
1.引言
对于人类驾驶者而言,20% 的交通事故都发生在交叉路口 [1]。自动驾驶汽车能够多好地学习通过交叉路口呢?为了成功做到这一点,必须要做到三件事:
- 理解车辆动态
- 解读其它驾驶者的意图
- 采取可预测的行为以便其他驾驶者有时间采取适当的响应
这应该就能平衡多个互相冲突的目标,比如安全性、效率以及最大限度减少交通中断。
已经有两类主要的基于规则的方法被应用到了交叉路口处理上:协作方法 [2] 和启发式方法 [3]。协作方法不能扩展用于一般的交叉路口处理,因为这需要车辆之间的通信。之前最佳的方法是一种基于碰撞时间(TTC:time-to-collision)的基于规则的方法 [4]。TTC 有很多优势,比如可靠性,但仍有局限性。首先,由于假设速度恒定,TTC 模型会忽视几乎所有有关驾驶者意图的信息。其次,人类驾驶者难以预测的行为会让基于规则的算法的应用变得很复杂。最后,很多情况表明使用 TCC 可能会过度谨慎,这会造成不必要的延迟。
正如该论文提到的那样,用于处理交叉路口情况的机器学习方法主要有三种,即:模拟学习、在线规划和离线学习。该论文选择了离线学习方法,并解释了模拟学习和在线规划不适用的原因。对于模拟学习而言,如果智能体发现自己处于一个并未学习过的状态,它将无法提供解决方案。在线规划则依赖于已有的准确的生成模型。图 1 展示了穿过繁忙交叉路口的过程。
图 1:穿过一个繁忙的交叉路口。红车是自动驾驶车辆,黄车是交通中的其它车。其目标是在安全地避免碰撞的同时确定沿途的速度控制方案。
2. 方法
在这一节,研究者将交叉路口处理问题看作是一个强化学习问题。他们使用了深度 Q 网络(DQN)来学习状态-动作价值 Q 函数。该方法分为 5 部分:
- 强化学习(RL)
这部分是介绍强化学习,我将使用最简单的方式来描述强化学习的过程。在强化学习模型中,在时间 t,处于状态 s_t 的智能体根据策略 p 采取动作 a_t。然后该智能体的状态变成 s_(t+1) 并获得奖励 r_t。这被形式化为了一个马尔可夫决策过程(MDP),并使用了 Q 学习来执行优化。
- Q 学习
这部分介绍 Q 学习,我建议读者先学习一下 Q 学习,这能帮助你更轻松地阅读这篇论文。Q 学习的本质是使用动作价值函数 Qp(s,a) 的平均值来估计实际值。当添加数据时,结果会更新。
- 动态帧跳过
动态帧跳过是将选择简化 [5],这让智能体可以在更长的时间内选择动作,这能改善智能体的学习时间。
- 优先经历重放
该论文使用了经历重放来破除智能体的连续步骤之间的关联。之前的轨迹由一个经历重放缓冲存储,这意味着出现次数更少的重要序列也可以得到采样。这能避免计算排序列表,在轨迹上平衡奖励的样本将会取代这种计算。
- 状态-动作表征
由于自动驾驶汽车会使用很多传感器,所以会有大量状态和动作表征。研究者在这篇论文中提出了两种表征。第一种是连续动作(Sequential Actions),即将所需路径提供给智能体,让智能体决定加速、减速或保持速度。第二种是行动时间(Time-to-Go),即智能体决定等待或前进的时间。前者能让我们观察更复杂的行为能否带来优势;后者重在出发时间,这让我们可以探索出发时间的改变对表现水平的影响方式。
3.实验
在这一部分,研究者基于多种不同的交叉路口场景训练了两个 DQN(连续动作和行动时间)。他们将结果与启发式碰撞时间(TTC)算法进行了比较。TTC 策略使用了单个阈值来决定是否通过,这篇论文也将其用作了分析的基准。研究者使用了 Sumo 模拟器 [6] 来运行实验。这个模拟软件包可以帮助用户模拟各种不同场景下的交通状况。这能帮助建模道路网络、道路标志、交通灯、大量车辆,而且还能促进在线交互和车辆控制。如图 2 所示,这里有 5 种不同的交叉路口场景。研究者给出了一系列用于设置场景的参数以及 4 个用于评估方法的指标:成功百分比、碰撞百分比、平均时间和平均刹车时间。对于 TTC 和出发时间 DQN,所有的状态表征都忽略了遮挡情况,并且假设可以看到所有车辆。
连续动作网络是一个使用了 leaky ReLU 激活函数的全连接网络。其中有 3 个各有 100 个节点的隐藏层,最后的线性层有 12 个输出,对应 3 个动作(加速、减速和速度保持)和 4 个时间尺度(1、2、4、8 个时间步骤)。出发时间 DQN 网络使用了一个卷积神经网络,其有 2 个卷积层和 1 个全连接层。第一个卷积层有 32 个步幅为 2 的 6×6 过滤器,第二个卷积层有 64 个步幅为 2 的 3×3 过滤器。全连接层有 100 个节点。所有层都使用了 leaky ReLU 激活函数。最后的线性输出层有 5 个输出:单个 go 动作和一个 4 个时间尺度(1、2、4、8 个时间步骤)的 wait 动作。在实验中,经历重放缓存会保存 100 000 个时间步骤,并且有两个用于碰撞以及用于成功和超时的缓存。对于奖励,成功的奖励为 +1,碰撞的奖励为 -10,步骤成本为 -0.01。
4.结果
表 I、图 3、图 4 给出了结果。我们可以看到这些特点:
- TTC 方法在任何场景中都没有碰撞。在 DQN 方法中,DQN Time-to-Go 的碰撞率显著低于 DQN-sequential。
- DQN 方法在达成目标方面比 TTC 方法高效很多。平均而言,DQN Time-to-Go 达成目标的速度比 TTC 快 28%,DQN Sequential 则比 TTC 快 19%。这意味着 DQN 方法有降低交通拥堵的潜力。
- 除了其中一种情况,DQN Time-to-Go 有最高的成功率,如图 3 所示。
- 尽管 DQN 要高效很多,但它们在最小化碰撞次数上还比不上 TTC。
- 在图 4 中,我们可以看到,经过速度与安全性的权衡之后,DQN 的表现全面压制 TTC。这说明设计一种零碰撞率的算法是可能的。
由于事实上 DQN 没有实现零碰撞率,所以研究者试图找到一种解决这一问题的方法,因为零碰撞率是非常重要的。根据多任务学习 [7] 的核心原理,作者猜想在多种场景上训练将能够提升模型的表现。图 5 给出了迁移表现,表 II 和表 III 给出了具体数据。迁移表现有助于研究者了解深度网络系统的泛化能力。我们可以看到,更有难度的场景能更容易迁移到更容易的场景,但车道数量变化会产生干扰。
然后研究者给出了一个定性分析。他们指出能够准确预测远处车道交通情况的 DQN 将能够在该车到达该车道时通过。另外,DQN 驾驶者还能预测即将到来的车辆是否有足够多的时间制动。研究者还解释了会有一些碰撞的原因。这些碰撞的原因是车辆几乎与即将到来的车辆插肩而过的离散化效应(discretization effects)。研究者还指出 TTC 通常会等到道路完全清空后才出发,如图 6 所示,在实际应用可不能这么做。
5.结论
该论文提到了三大贡献。第一是结合多种近期的深度学习技术来提升表现水平的全新思想。第二是分析和比较了 DQN 与 TTC 在 5 种不同的交叉路口模拟场景中的表现情况。第三是分析了训练后的 DQN 策略在不同场景中的迁移情况。
在我看来,未来仍有两个可以改进的方向。第一是卷积神经网络架构。对于更复杂的场景,更深度的神经网络可能会好很多。我们可以在参考文献 [8] 中看到同样的结论,其中一家自动驾驶公司将深度学习视为实现可信任无人驾驶汽车的唯一可行途径,因为有大量道路状况和很多事情都很困难和微妙难解。第二是关于碰撞率。我认为应该还存在另一种将碰撞率降至零的方法,因为对于无人驾驶汽车来说,安全性是头等大事。我们无法只通过模型或算法来实现这一目标,还存在其它解决这一问题的途径。奥迪的工程师应用了毫米波雷达、激光雷达、摄像头、超声波探头等感知设备来互相补偿和验证,这也有助于汽车正确地决策。
6. 参考文献
[1] National Highway Traffic Safety Administration, “Traffic Safety Facts, Tech. Rep. DOT HS 812 261, 2014. [Online]. Available: https://crashstats.nhtsa.dot.gov/Api/Public/Publication/812261
[2] Hafner, Michael R., et al. "Cooperative collision avoidance at intersections: Algorithms and experiments." IEEE Transactions on Intelligent Transportation Systems 14.3 (2013): 1162-1175.
[3] Alonso, Javier, et al. "Autonomous vehicle control systems for safe crossroads." Transportation research part C: emerging technologies 19.6 (2011): 1095-1110.
[4] Minderhoud, Michiel M., and Piet HL Bovy. "Extended time-to-collision measures for road traffic safety assessment." Accident Analysis & Prevention 33.1 (2001): 89-97.
[5] Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. Vol. 1. No. 1. Cambridge: MIT press, 1998.
[6] Krajzewicz, Daniel, et al. "Recent development and applications of SUMO-Simulation of Urban MObility." International Journal On Advances in Systems and Measurements 5.3&4 (2012).
[7] Caruana, Rich. "Multitask learning." Learning to learn. Springer US, 1998. 95-133.