分享

导读 | 网约车场景下的强化学习算法综述

 非著名问天 2022-10-27 发布于内蒙古

网约车的出现使人们的出行方式发生了翻天覆地的变化。乘客不再需要站到马路边挥手打出租车,司机也不再需要开着空车满城寻找客人。作为匹配乘客与司机的网络平台,滴滴、Uber和Lyft等网约车公司也得到了迅猛的发展。然而,如何提高运营效率一直是网约车平台面临的一大挑战。

近两年来,强化学习算法逐渐走入研究人员的视线。由于深度学习研究的深入和计算能力的飞速发展,深度神经网络与强化学习的结合在解决复杂的大规模决策问题方面取得了突破性进展,引起了人们对强化学习在商业领域应用的极大兴趣。但是,在此之前,还没有研究人员对网约车场景下强化学习算法的相关文献进行全面的总结。于是,来自Lyft Rideshare Labs的Tony Qin博士与来自北卡罗来纳大学教堂山分校的Hongtu Zhu教授、来自密歇根大学安娜堡分校的Jieping Ye教授合作,详细研究了在交通、数据挖掘和机器学习/人工智能领域的顶级会议和期刊上发表的强化学习相关的文献,撰写了“网约车场景下的强化学习算法综述”。这篇综述总结了与网约车系统各个方面相关的研究问题,回顾了为解决这些问题而提出的强化学习方法,并讨论了未来网约车场景下强化学习算法的应用可能遇到的挑战和机遇。该文已与2021年9月在Transportation Research Part C: Emerging Technologies中发表。

您可以通过以下链接找到该文章原文进行阅读:

https:///10.1016/j.trc.2022.103852

图片

Arxiv preprint:https:///abs/2105.01099

作者首先详细介绍了网约车服务的基础系统框架。与传统的打车服务相比,网约车服务使用移动应用程序将乘客与司机相匹配。在经典的网约车系统中,有五个主要的决策模块:定价、匹配、调度、拼车和导航(图1)。定价模块负责在乘客提交旅行请求时提供报价。匹配模块尝试将请求分配给空闲的司机。根据司机池的可用性,请求在系统中等待,直到匹配成功。然后指定的司机前往接载乘客,接载地点通常是乘客提出请求或他/她指定的地点。司机成功将乘客运送到目的地后,将收到车费并重新变为为空闲状态。调度模块将空车引导至特定位置,以满足未来可能出现的请求。路线选择模块向司机/车辆提供道路上的逐向引导,以服务于乘客请求或执行调度。该模块的目标是引导车辆高效、安全地到达目的地。每个司机一次只接一个乘客请求的模式通常被称为“叫车”(ride-hailing),另一种模式是“拼车”(ride-pooling)。在拼车出行模式下,多个出行请求不同的乘客可以共享一辆车,因此定价、匹配、调度和路线问题与叫车不同,需要特殊处理,特别是考虑已经在车上的乘客的情况。

图片图1. 网约车服务的流程与五个重要的决策模块(橙色方块)。

从平台、司机和乘客的角度来看,网约车的成功需要对共同提供服务的所有集成模块进行复杂的优化。在网约车领域,需求和供应的变化高度随机,运营决策通常是连续的,并且具有很强的时空依赖性。决策的多步骤顺序性(例如定价、匹配、调度)和环境中的供需随机性对传统的预测和优化方法提出了巨大的挑战,主要体现在预测准确性、决策时间计算复杂度和对实时变化的适应性等问题上。

强化学习 (RL) 是一种机器学习范式,它通过与环境的交互并获得反馈信号来训练智能体采取最佳行动(以总累积奖励作为衡量标准)。它是一类用于解决随机环境中具有长期目标的顺序决策问题的优化方法。强化学习方法通常是高度数据驱动的,这使得它更适用于难以构建准确预测模型的情况。它具有前瞻性,但并不明确依赖于预测。并且,在设计上,基于强化学习的策略可以是动态的,通常具有较低的决策时间复杂度。这些特性使得强化学习成为了解决上述一系列网约车优化问题的可行方法。因此,在过去的几年中,强化学习在网约车领域的应用已经吸引了很多强化学习研究人员和交通研究人员的关注。

在该综述中,研究人员分别总结了网约车系统中五个主要决策模块里存在的研究问题,对现有的解决这些问题的强化学习方法进行了对比,提出了具有实际意义与挑战性的研究问题,并对未来研究方向进行了展望。

定价问题

网约车文献中的定价问题在大多数情况下是动态定价,它根据不断变化的需求和供应实时调整出行价格。由于行程票价既是乘客必须为行程支付的价格,也是司机收入的主要因素,定价决策可以通过用户的价格敏感性影响需求和供给分布,例如,高峰时段使用高峰期定价可以控制乘客乘车需求。因此,定价模块相对于其他模块处于上游位置,是实现供需平衡的宏观杠杆。

网约车匹配问题

网约车匹配问题是一个在线双向匹配问题,供需都是动态的,不确定性来自于需求达成、行程时间和司机的进出行为。匹配可以以动态方式或在固定的窗口时间内(即批处理)连续完成。与其他供需市场动态匹配问题相比,网约车问题的一个显著特征是它的时空性质。司机是否有资格参与匹配和接单,部分取决于司机当前地点与订单接客地点的空间接近度。订单请求通常需要一段时间才能完成,它们会改变司机的空间状态,影响未来匹配的供应分配。并且,在匹配过程中,司机和乘客通常表现出不对称的退出行为——司机通常倾向于在系统中停留较长时间,而乘客请求通常在更短的等待时间后丢失。

车辆调度

车辆调度旨在通过主动将闲置车辆调度到不同位置来重新平衡整个系统的供需分布。调度和匹配很相似,因为它们的结果都是要将车辆分配到不同的地方。理论上,调度可以被视为将车辆与虚拟或预计的将来行程请求相匹配,其目的地是调度动作的目的地,因此匹配和调度都可以在同一个问题框架中解决。但通常在实践中,这两个问题是分开解决的,因为它们是大多数网约车平台上的独立系统模块,具有不同的审查间隔和客观指标以及其他细节。

道路导航问题

网约车场景中的道路导航模块主要是进行路线引导,根据决策目标的不同可以是动态道路导航或路线规划。动态道路导航通常不同于车辆导航问题。在车辆导航问题中,车辆必须访问的目的地是预先知道的,因此它是一个静态问题。相比之下,动态道路导航与道路网络相关联,要做出的决定是在每个交叉路口(节点)选择哪条出路(链接),它可以实时适应道路网络上不断变化的交通状况。在网约车的背景下,还有另一个新出现的问题,即乘客在车上的动态路线决策必须与网约车的总体目标保持一致。

强化学习方法

这篇综述中介绍讨论的工作均来自于交通,机器学习,和数据挖掘的顶级会议和期刊,所涉及的强化学习方法非常广泛。从智能体类别,可分为单智能体和多智能体方法;从算法对环境模型的依赖,可分为无模型和基于模型的方法。其中,无模型方法多为深度强化学习方法,但也不乏对基础表格式方法的介绍。另外,从算法的学习范式,还能分为基于价值学习的方法和基于策略学习的方法。网约车问题的多样化(个体层面,系统层面,离线,实时,协作性,等等)促成了强化学习应用方法的发花齐放。本综述也辟出专门章节对强化学习基础知识做了归纳和回顾。

总结

网约车系统是一个复杂的多智能体系统,具有多个决策杠杆。强化学习为优化该系统提供了强大的建模工具,但正如我们从当前的文献中看到的那样,在解决学习算法的复杂性、智能体之间的协调以及多个杠杆的联合优化方面仍然存在挑战。在应对这些挑战的同时,我们预计网约车和一般交通领域的领域知识将越来越有助于成功采用 RL。正如人们可能已经注意到的那样,大多数文献都是在过去四年中才出现的,我们预计它会继续快速增长和更新。



图片


图片

end


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多