分享

《基于历史拥堵图和共识日识别的交通拥堵和出行时间预测》

 汉无为 2021-12-15

文章信息

本周阅读的论文是题目为《Traffic congestion and travel time prediction based on historical congestion maps and identification of consensual days》的一篇2021年发表在《Transportation Research Part C》涉及到交通拥堵和出行时间预测的文章。


摘要

在这篇文章中,作者提出了一种具有可实践性的用于实时交通状况和出行时间预测的方法。首先利用主成分分析法对历史数据进行降维处理;然后分别使用高斯混合模型以及K-means算法对数据集每日的拥堵图进行聚类;接着,根据拥堵图从每个分类中选出一个共识日代表这个类别,以便利用这些历史数据去预测交通拥堵传播和出行时间。具体来说,就是根据新的一天最初观测到的数据决定哪一个共识日与这天的属性最为接近,然后利用这个共识日的数据去预测未来的交通状况和出行时间。



文章介绍

  1. Introduction。

引言部分首先简单说明了交通状态和出行时间预测的重要性,然后总结了目前交通预测中常用的基于模型、基于仿真以及数据驱动三种不同类型的方法,并指出大部分方法存在的缺陷,紧接着提出文章的研究目的主要是使用简单可解释的方法描述拥堵的演变过程,从而确定行驶时间。最后简单描述文章所提出方法的主要步骤:
  • 首先使用主成分分析法(PCA)去减少变量的数量(降维处理),接着使用高斯混合模型和K-means算法对数据集进行聚类,并基于拥堵图(congestion maps)从每个类别中选出最具有代表性的一天作为类别的“共识日”(consensual day)。
  • 每个类别的“共识日”组成集合Dk,根据最新观测日的最初观测数据(分钟/小时)确定Dk中最接近该观测日的“共识日”,利用该“共识日”的数据预测最新观测日的拥堵情况和出行时间。

    2. Case study and dataset。

这部分主要介绍文章使用的数据集,主要是来自法国里昂地区的M6高速公路,由于该公路用于连接里昂地区的几个中心城市,因此经常会发生交通拥堵,适合本文的研究。文章主要以一段7km长的并设有9个传感器的路段作为研究目标。路段具体情况如下:

图片

图1 M6高速公路路段情况

    3.Methodology

文章的这部分内容首先介绍了拥堵图(Congestion Maps)的构成,然后介绍历史数据集的聚类方法,接着提出基于拥堵图的评价系数以选取每个分类的“共识日”(consensual day),最后介绍了出行时间预测的具体实现步骤,并与先前已有相似方法进行分析比较。

    4. Clustering of days with similar traffic conditions into the historical dataset

该章节主要是对文章提出聚类方法展开详细说明。首先是研究最优的分类集合个数,此处通过文章所提出三个指标确定最佳的集合数,并验证其合理性;接着对分类后的类别属性进行分析,包括同一组中每天的拥堵图比较以及工作日和月份的分析。

    5.Results

这部分内容主要对文章所提出的方法的可行性和准确性进行研究分析。首先与已存在的方法比较,通过指标Rand indexes、F1-score以及MSE评价模型在拥堵传播和出行时间方面的预测效果。接着分别对方法在拥堵传播和出行时间估计两个方面的效果进行研究。

    6. Conclusions

文章提出了一种简单的,具有可解释性的模型对交通状态和出行时间进行预测。其关键部分就是提出了拥堵图(congestion map)的概念,利用二元观测度量矩阵来描述各个时刻道路的交通状态。另外一个创新点就是为每个分类组别选择一个具有代表性的“共识日”,通过“共识日”的观测数据实时预测拥堵传播、估计出行时间。最后,指出方法中可以提升的地方,展望未来的研究工作。


算法构架

文章提出了一种简单、易解释的方法对交通拥堵和出行时间进行预测,采用了二阶段模式构建算法,大体可以分为分类-预测两个阶段。具体算法原理如下图所示:

图片图1 算法步骤图

阶段一:分类

这部分首先使用了主成分分析法(Principal Component Analysis)去减少变量的数目,便于分类。接着分别使用高斯混合模型(Gaussian Mixture Model)和K均值算法(K-means Algorithm)对数据集中每日拥堵图(Congestion Map)进行分类。最后根据每个类别的所有拥堵图决定一个“共识日”(consensual day)。
阶段二:预测
以所有类别的“共识日”为一个集合DK,根据新的一天最初(分钟/小时)的观测值,判断DK中哪个“共识日”与该天最为接近。通过最接近的“共识日”所记录的拥堵图和速度去预测下个时刻(分钟/小时)的拥堵和出行时间演化。



研究方法

    1. Congestion map

为了更好的研究交通流动态而不是速度演变过程,文章提出了拥堵图(congestion map)的概念,仅仅考虑了两种可能的交通状态:自由流和拥堵状态,此处认为时刻t速度大于40km/h(阈值)为自由流状态,取值为0;否则为拥堵状态,取值为1,以此构成布尔矩阵Md作为日期d的拥堵图,其大小为“检测器的数量”ד每一天的观测时刻数”。每个元素具体取值如下:

图片

式中:表示在时刻t第l个检测器所在处的交通状态,表示时刻t第l个检测器所在处的速度。

    2. Clustering historical data

由于初始数据集的数量非常大,为了提高分类的速度以及获得更加精确的结果,文章采用主成分分析的方法降低观测值的维度,最终考虑了8个检测器的960个时刻的速度值作为一天的观测值。接着分别使用K均值算法和高斯混合算法对历史数据集相似的天数进行分类。

    3. Identifying consensual days

正如先前解释的,文章的思路是利用具有代表性的“共识日”预测接下来的日子的交通状况。为了选取合适的“共识日”,选取兰德指数(Rand index)作为评价指标,其取值在[0, 1]之间,越接近1则说明聚类结果越匹配。具体指数公式如下:

图片

计算出一个类别中所有天与组内其他天的兰德指数之和,选择兰德指数之和最大作为该类别的“共识日”:

图片

    4)Travel time prediction

考虑到新的观测日p,其时间间隔离散为分钟的时间段,因此选取了时刻t最近的时段的拥堵图重新计算兰德指数,进而得出每个类别的“共识日”:

图片

需要注意的是算法每分钟就会迭代一次,直到预测出(t+)时刻的拥堵情况和出行时间。因此,在这个过程中,每个类别的“共识日”总会随着当前时刻不断改变,以便更加精确预测。在t时刻的出行时间计算如下:

图片

图片

图片

式中:是“共识日”在时刻t时,其检测器l观察到的拥堵元素,是观察到的速度,是传感器l所在路段长度。




结论与验证

  1. Determining the optimal number of clusters

为了提高预测的精度和效率,选取合适的分类数目是非常有必要的。为了决定最优的分类数,本文提出了三个指标对分类数进行研究比较,分别如下:
  • 簇内同质性,即计算类别内兰德指数的平均值来评估同质性,具体公式如下:

图片

式中:K表示聚类的类别数,CK表示簇K,dK是簇K的“共识日”,p和k属于簇CK的天数。

  • 簇间差异性,即每对“共识日”之间的兰德指数平均值来评价集群间差异,具体公式如下:

图片

  • 比较组内数超过五天的集群数目与既定集群数K
同时文章还提出使用轮廓分数评价聚类效果好坏,其取值为[-1, 1],取值越大越好,当取值为负时,表明样本被分配到错误的簇中,聚类结果不可接受,对于接近于0的情况,表明聚类结果有重叠的情况。另外为了研究聚类结果的稳定性,文章还计算了连续组别(即Cn-1和Cn)之间的兰德指数,具体公式如下:

图片

根据以上的指标计算得到不同聚类数的各项指标如下:

图片

图2 各项指标比较图

通过指标计算,文章指出n=18在各项指标的之间的表现都比较满意,因此可以作为最佳的聚类数。

    2. Post-clustering analysis

对历史数据进行聚类以后,文章对同一类别内的数据进行比较分析,主要集中在观察到的星期以及月份的分布。由于文章采用的两种方法聚类效果类似,所以仅仅以K-Means聚类算法进行研究。为了直观显示同一类别内观察到的星期和月份的分布情况,文章使用冲击图的方法进行表示,具体如下图所示:

图片

图3 不同类别内星期和月份分布图

通过对冲击图的分析,可以直观地发现不同类别的交通流特征更加趋近于哪种情况,具有更强的可解释性。

    3. Comparison with existing method

为了确定最佳的应用领域,文章将提出的方法与现有方法进行比较。考虑到大部分现有的方法具有不同的目的和应用领域,此处选择了朴素瞬时法和历史平均法进行比较,同时还选择了我们所提出方法的另外两个版本比较,以验证我们方法的预测能力,具体定义如下:
  • M0表示一种朴素的方法,根据时刻t处的观测结果预测()时刻的拥堵和出行时间,适用于短期预测;
  • M1是一种历史平均方法,通过计算一周中每一天和每一个时间段的历史数据平均值来预测未来时刻的拥堵和出行时间;
  • M2是本文提出的基于历史数据聚类和共识日识别的初始方法;
  • M3与M2大致相同,不同之处在于该方法使用每组拥堵图的均值而不是“共识日”数据作为预测数据;
  • M4与M2的算法大体一致,除了没有对历史数据进行聚类,历史数据集的每一天都可以用来预测。
为了评价这些方法的预测精度,文章选取了几个指标进行比较判断,在拥堵预测方面,使用兰德指数和F1-scores;在出行时间预测方面,使用RMSE进行评价。具体指标比较图如下:

图片

图4 方法运行指标比较图

方法运行指标比较图揭示文章所提出的方法使用的预测范围,即。另外需要注意到方法M2、M3和M4在拥堵传播预测方面具有相同的性能,这是因为他们都是基于相同方法做出些许改变。总的来说,文章所提出的方法具有不错的预测精度,可以为拥堵传播和出行时间预测提供一定思路。

    4. Congestion propagation

这部分章节对拥堵传播的预测能力进行评估,需要注意预测方法有三个参数需要考察,分别是每次预测的时段,总预测时长以及拥挤状态的速度阈值(此处为40km/h)。文章参数的选择具体为:,。此处随机抽取了测试样本集中的6个日子比较预测值和真实值的差异,如图5(a)(b)所示。根据交通流状态的观测结果,计算预测的准确率以及F1-scores,并按照不同颜色区分差异,其中蓝色表示预测为拥堵状态,但观察到的为自由交通流,红色则相反,而白色和灰色表明预测与观测结果一致,具体结果如图5(c)所示。
另外文章还对拥堵传播的变化预测进行评估,即对预测所得到的相邻两个时段交通流状态与实际观测到的交通流状态进行比较。交通流状态的具体表示公式如下:

图片

对于的取值,如果队列保持稳定,该变量等于0;如果拥堵向上游传播,该变量等于1;如果拥堵消散,该变量取-1。可以与预测后计算得到的进行比较,得到拥堵传播变化的预测效果,具体取值

图片

如下表所示:

图片

表1 预测拥堵长度和观测拥堵长度演变比较表

文章以不同颜色表示二者的差值,其中红色表示+1,蓝色表示-1,黑色表示-2,米黄色表示+2,灰色表示预测准确的情况,具体如图5(d)。另外文章还提出以便对预测结果进行定量分析,表示准确预测与总观测值之比,公式如下:

图片

计算得到测试集的服从以均值(ρ=98.2%)为中心,最小偏差为0.4%的分布,由此见得预测交通状态演变的准确性非常可观。

图片

图5 拥堵传播预测效果指标图

    5. Travel time estimation

使用文章提出的方法对出行时间进行预测,其好处是可以预测得到比较符合实际情况的出行时间,因为使用了过去观测得到的数据进行预测。图6(a)表示之前所研究的6天的旅行时间序列,橙色曲线表示预测值,蓝色曲线对应于实际值。可以看出使用该方法可以准确预测出行时间的演变趋势。此外文章还计算了观测值与实际值归一化后得到的RMSE指标,并得到预测值与观测值之间的绝对误差,如图6(b)所示。同时图6(c)表示了预测过程中最佳“共识日”的演变过程。

图片

图6 出行时间预测效果及指标图




总结

文章基于拥堵图(Congestion map)的概念提出了一种简单,具有可解释性的预测方法,用于预测拥堵传播和出行时间。与其他朴素方法(瞬时或者历史平均)相比,不仅预测精度可观,而且具有更长的预测范围。
同时对于方法的改进方向,一方面可以通过确定更准确的预测时间范围以及拥挤状态界定的速度阈值提高预测精度;另一方面利用拥堵图进行预测时,可以不再仅仅依赖一天时间的拥堵图,还可以关注拥堵图的形状,即冲击波轮廓,这些都是今后工作可以研究的方向。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多