【浙江大学和阿里达摩院】基于多智能体强化学习对高度交互的自动驾驶场景中的不同驾驶行为建模

点击下方卡片，关注“自动驾驶专栏”公众号

自动驾驶干货，即可获取

论文链接： https://arxiv.org/pdf/2402.13481.pdf

摘要

本文介绍了基于多智能体强化学习对高度交互的自动驾驶场景中的不同驾驶行为建模。基于多智能体强化学习（MARL）训练的自动驾驶汽车在很多驾驶场景中均取得了令人印象深刻的成绩。然而，当面临不同的驾驶风格和个性时，这些经过训练的策略的性能可能会受到影响，特别是在高度交互的场景中。这是因为传统的MARL算法通常在所有智能体之间完全协作行为的假设下运行，并且着重于在训练阶段最大化团队奖励。为了解决这个问题，本文引入了个性建模网络（PeMN），其中包括了协作价值函数和个性参数，用于对高度交互的场景中的不同交互进行建模。PeMN还能够训练具有不同行为的背景交通流，从而提高自车的性能和泛化性。本文大量的实验研究包含了高度交互的驾驶场景中不同的个性参数，证明了个性参数有效地建模了不同的驾驶风格，并且相比于传统的MARL方法，基于PeMN训练的策略展现出更好的泛化能力。

主要贡献

本文的贡献总结如下：

1）本文提出了PeMN，以有效地将奖励解耦映射到行为解耦，智能体的价值函数分为自身价值函数和协作价值函数；

2）本文通过个性参数，使用PeMN来建模各种驾驶风格，并且所提出的PeMN能够构建各种交互驾驶数据；

3）本文进行了大量的实验研究，以探索和分析自动驾驶在交互场景中的车辆行为建模。此外，本文还发现，使用不同个性的背景交通来训练策略可以获得更好的性能。

论文图片和表格

总结

本文引入了PeMN，这是一种表征智能体个性的模型。此外，本文还利用这些车辆的复杂行为模式作为隐含的交通流，通过自适应协作能力来增强自车的训练。交通参与者的行为建模研究（特别是在高度交互的场景中）仍然是一个具有挑战性和开放性的研究课题。本文工作旨在通过探索不同驾驶数据生成的行为建模和研究高度交互的场景中的行为来应对这一挑战。本文还证明了所提出的建模方法在高度交互的场景中实现了更好的性能和泛化性。

今后，将探索个性建模网络与多智能体强化学习算法中的信用分配问题之间的联系。这一探索旨在增强智能体之间的协作能力。

点击下方卡片，关注“自动驾驶专栏”公众号

自动驾驶干货，即可获取

【自动驾驶专栏论文速递】是自动驾驶专栏推出的板块，争取每日更新！旨在引领自动驾驶领域相关人员快速了解行业最新技术，对于具有代表性的研究成果，也会进行详细解读！请大家多多支持！蟹蟹~

来源：专业技术网站

【浙江大学和阿里达摩院】基于多智能体强化学习对高度交互的自动驾驶场景中的不同驾驶行为建模

请登录

前瞻技术信息服务平台

登录

前瞻技术信息服务平台

注册