扩展用于交通平滑的强化学习:100辆自动驾驶汽车的高速公路部署
扩展用于交通平滑的强化学习:100辆自动驾驶汽车的高速公路部署
Nathan Lichtlé, Kathy Jang, Eugene Vinitsky, Adit Shah,Jonathan W. Lee, 和 Alexandre M. Bayen Mar 25, 2025
我们部署了100辆由强化学习 (RL) 控制的汽车到高峰时段的高速公路交通中,以缓解拥堵并降低所有人的油耗。 我们的目标是解决“走走停停”的交通波问题,这些令人沮丧的减速和加速通常没有明确的原因,但会导致拥堵和大量的能源浪费。 为了训练高效的流量平滑控制器,我们构建了快速、数据驱动的模拟环境,供 RL 智能体与之交互,学习在保持吞吐量和安全地在人类驾驶员周围行驶的同时,最大化能源效率。
总的来说,一小部分控制良好的自动驾驶汽车 (AV) 就足以显著改善所有道路使用者的交通流量和燃油效率。 此外,经过训练的控制器旨在部署在大多数现代车辆上,以分散的方式运行,并依赖于标准的雷达传感器。 在我们最新的论文中,我们探讨了在大规模部署 RL 控制器时所面临的挑战,从仿真到实际应用,贯穿了这次 100 辆汽车的实验。
幻影拥堵的挑战
一个走走停停的交通波在高速公路交通中向后移动。
如果你开车,你肯定经历过走走停停交通波的挫败感,这些看似无法解释的交通减速会毫无征兆地出现,然后又突然消失。 这些波通常是由我们驾驶行为中的微小波动引起的,这些波动通过交通流被放大。 我们自然会根据前方车辆调整速度。 如果间隙打开,我们会加速以跟上。 如果他们刹车,我们也会减速。 但由于我们非零的反应时间,我们可能会比前面的车辆稍微用力地刹车。 我们后面的下一个司机也这样做,并且不断放大。 随着时间的推移,最初微不足道的减速会变成交通中更后方的完全停止。 这些波在交通流中向后移动,由于频繁的加速导致能源效率显著下降,同时增加了二氧化碳排放和事故风险。
而且这并非孤立现象! 当交通密度超过临界阈值时,这些波在繁忙的道路上无处不在。 那么我们该如何解决这个问题呢? 诸如匝道计量和可变限速之类的传统方法试图管理交通流量,但它们通常需要昂贵的基础设施和集中协调。 一种更具可扩展性的方法是使用 AV,它可以实时动态调整其驾驶行为。 然而,仅仅将 AV 插入人类驾驶员中是不够的:它们还必须以更智能的方式驾驶,从而为所有人改善交通状况,而这正是 RL 的用武之地。
交通流的基本图。 道路上的汽车数量(密度)会影响交通向前移动的程度(流量)。 在低密度下,增加更多的汽车会增加流量,因为更多的车辆可以通过。 但是,超过临界阈值后,汽车开始互相阻塞,导致拥堵,从而导致添加更多的汽车实际上会减慢整体移动速度。
用于波浪平滑 AV 的强化学习
RL 是一种强大的控制方法,其中智能体通过与环境交互来学习最大化奖励信号。 智能体通过试错来收集经验,从错误中吸取教训,并随着时间的推移而改进。 在我们的案例中,环境是混合自主交通场景,其中 AV 学习驾驶策略以抑制走走停停的交通波,并降低自身和附近人类驾驶车辆的燃油消耗。
训练这些 RL 智能体需要具有真实交通动态的快速模拟,该动态可以复制高速公路走走停停的行为。 为了实现这一目标,我们利用了在田纳西州纳什维尔附近的 24 号州际公路 (I-24) 上收集的实验数据,并使用它来构建模拟,其中车辆重播高速公路轨迹,从而创建不稳定的交通状况,而后面的 AV 则学习平滑交通。
模拟重播了一个展现了多个走走停停交通波的高速公路轨迹。
我们在设计 AV 时考虑了部署问题,确保它们只能使用关于自身和前方车辆的基本传感器信息来运行。 观测包括 AV 的速度、前车的速度以及它们之间的空间间隙。 给定这些输入,RL 智能体然后为 AV 规定瞬时加速度或期望速度。 仅使用这些本地测量值的关键优势在于,RL 控制器可以以分散的方式部署在大多数现代车辆上,而无需额外基础设施。
奖励设计
最具挑战性的部分是设计一个奖励函数,该函数在最大化时与我们希望 AV 实现的不同目标保持一致:
- 波浪平滑: 减少走走停停的振荡。
- 能源效率: 降低所有车辆(而不仅仅是 AV)的燃料消耗。
- 安全性: 确保合理的跟随距离并避免突然刹车。
- 驾驶舒适性: 避免激进的加速和减速。
- 遵守人类驾驶规范: 确保“正常”的驾驶行为,不会让周围的驾驶员感到不舒服。
一起平衡这些目标很困难,因为必须找到每个术语的合适系数。 例如,如果最小化燃料消耗在奖励中占主导地位,则 RL AV 会学习停在高速公路中间,因为这是能量最优的。 为了防止这种情况,我们引入了动态最小和最大间隙阈值,以确保在优化燃料效率的同时获得安全合理的行为。 我们还惩罚了 AV 后方人类驾驶车辆的燃料消耗,以阻止它学习自私的行为,即以牺牲周围交通为代价来优化 AV 的节能。 总的来说,我们的目标是在节能和拥有合理且安全的驾驶行为之间取得平衡。
模拟结果
动态最小和最大间隙阈值的图示,AV 可以在其中自由运行,以尽可能有效地平滑交通。
AV 学习的典型行为是保持比人类驾驶员稍大的间隙,从而使它们能够更有效地吸收即将发生的、可能突然发生的交通减速。 在模拟中,这种方法在最拥堵的情况下,使所有道路使用者的燃料节省高达 20%,而道路上的 AV 不到 5%。 而且这些 AV 不必是特殊的车辆! 它们可以只是配备智能自适应巡航控制 (ACC) 的标准消费类汽车,这就是我们大规模测试的内容。
RL AV 的平滑行为。 红色:来自数据集的人类轨迹。 蓝色:车队中的连续 AV,其中 AV 1 是最接近人类轨迹的后方。 在 AV 之间通常有 20 到 25 辆人类车辆。 每个 AV 的减速或加速都不如其领先者那么快,从而导致波幅随时间降低,从而节省能源。
100 辆 AV 现场测试:大规模部署 RL
我们的 100 辆汽车在实验周期间停放在我们的运营中心。
鉴于有希望的模拟结果,自然的下一步是弥合从模拟到高速公路的差距。 我们在高峰时段将经过训练的 RL 控制器部署在 I-24 上的 100 辆汽车上,持续了几天。 这项大规模实验被称为 MegaVanderTest,是有史以来规模最大的混合自主交通平滑实验。
在现场部署 RL 控制器之前,我们在模拟中对其进行了广泛的训练和评估,并在硬件上对其进行了验证。 总的来说,部署的步骤包括:
- 在数据驱动的模拟中进行训练: 我们使用了来自 I-24 的高速公路交通数据来创建一个具有真实波浪动力学的训练环境,然后在各种新的交通场景中验证经过训练的智能体的性能和鲁棒性。
- 在硬件上部署: 在机器人软件中验证后,经过训练的控制器被上传到汽车上,并且能够控制车辆的设定速度。 我们通过车辆的内置巡航控制系统进行操作,该系统充当较低级别的安全控制器。
- 模块化控制框架: 测试期间的一个关键挑战是无法访问领先的车辆信息传感器。 为了克服这个问题,RL 控制器被集成到一个分层系统中,即 MegaController,该系统将考虑下游交通状况的速度规划器指南与作为最终决策者的 RL 控制器结合在一起。
- 在硬件上进行验证: RL 智能体旨在在大多数车辆由人类驾驶的环境中运行,需要适应不可预测行为的鲁棒策略。 我们通过在仔细的人工监督下在道路上驾驶 RL 控制的车辆来验证这一点,并根据反馈对控制进行更改。
100 辆汽车中的每一辆都连接到一台 Raspberry Pi,RL 控制器(一个小型神经网络)部署在该 Raspberry Pi 上。
RL 控制器直接控制车载自适应巡航控制 (ACC) 系统,设置其速度和期望的跟随距离。
验证后,RL 控制器被部署在 100 辆汽车上,并在早高峰期间在 I-24 上行驶。 周围的交通不知道该实验,从而确保了公正的驾驶员行为。 在实验期间,从沿着高速公路放置的数十个高架摄像头收集了数据,这导致通过计算机视觉管道提取了数百万条单个车辆轨迹。 根据这些轨迹计算的指标表明,正如模拟结果和之前较小的验证部署所预期的那样,AV 周围的燃料消耗呈减少趋势。 例如,我们可以观察到,人们驾驶在我们的 AV 后面的距离越近,他们的平均燃料消耗似乎越少(这是使用校准的能量模型计算得出的):
平均燃料消耗量与下游交通中最近的 RL 控制 AV 后面的距离的函数关系。 随着人类驾驶员越来越远离 AV 后方,他们的平均燃料消耗量会增加。
衡量影响的另一种方法是测量速度和加速度的方差:方差越低,波的幅度应该越小,这正是我们从现场测试数据中观察到的。 总的来说,尽管从大量摄像头视频数据中获得精确的测量值很复杂,但我们观察到我们控制的汽车周围有 15% 到 20% 的节能趋势。
在实验的单一天内,高速公路上所有车辆的数据点都绘制在速度-加速度空间中。 红色线左侧的集群代表拥堵,而右侧的集群对应于自由流动。 我们观察到,当 AV 存在时,拥堵集群较小,这可以通过计算软凸包的面积或拟合高斯核来测量。
最后的想法
100 辆汽车的现场运行测试是分散的,AV 之间没有明确的合作或通信,反映了当前的自主部署,并使我们离更平稳、更节能的高速公路更近了一步。 然而,仍有巨大的改进潜力。 扩大模拟规模,使其更快、更准确,并拥有更好的人类驾驶模型,对于弥合从模拟到现实的差距至关重要。 为 AV 配备额外的交通数据,无论是通过高级传感器还是集中规划,都可以进一步提高控制器的性能。 例如,虽然多智能体 RL 在改进协作控制策略方面很有前景,但通过 5G 网络在 AV 之间启用显式通信如何进一步提高稳定性并进一步缓解走走停停的交通波仍然是一个悬而未决的问题。 至关重要的是,我们的控制器与现有的自适应巡航控制 (ACC) 系统无缝集成,使得大规模的现场部署成为可能。 配备智能交通平滑控制的车辆越多,我们在道路上看到的交通波就越少,这意味着每个人的污染更少,燃料节省更多!
许多贡献者参与了 MegaVanderTest 的实现! 完整列表可在 CIRCLES 项目 页面上找到,以及有关该项目的更多详细信息。
阅读更多:[论文]