原文链接:http:///?p=7553 数据Reddit用户imjasonh和fhoffa解析了原始数据 ,模式如下所示: ![](http://image109.360doc.com/DownloadImg/2021/02/0315/214733655_1_20210203034340693_wm)
每次骑行都有非常具体的上/下车位置以及开始/结束时间的详细信息。 下面显示了一个示例 : ![](http://image109.360doc.com/DownloadImg/2021/02/0315/214733655_2_20210203034340818_wm)
我们留下了158,320,608个出租车行程的数据集,分为32,654个不同的起点/终点。 自1987年以来,位于东79街和约克大街的出租车站一直将上东区的居民带到华尔街。 我在数据中发现了沿着这条路线的252,210次记录。出租车平均需要20.35分钟才能以22.11 mph的速度行驶。当然,凌晨4点出租车的行驶速度更快,但是大多数人直到凌晨6点或凌晨7点才开始上下班: ![](http://image109.360doc.com/DownloadImg/2021/02/0315/214733655_3_20210203034341162_wm)
一年中,最忙的出租车沿该路线行驶234次(只有7辆出租车沿该路线行驶100次): ![](http://image109.360doc.com/DownloadImg/2021/02/0315/214733655_4_20210203034341302_wm)
尽管前十名最常见的出租车司机的平均速度可以预测,但他们的速度并没有比大多数人快(这可能是因为他们经常每天长时间开车)。 ![](http://image109.360doc.com/DownloadImg/2021/02/0315/214733655_5_20210203034341427_wm)
SELECT
pickup_street1, pickup_street2, dropoff_street1, dropoff_street2, trips_medallion, trips_pickup_datetime, trips_dropoff_datetime, ROUND(trips_avg_mph,4) AS avg_mpg, ROUND(trips_trip_duration_hours,4) AS num_hours FROM
[taxi_strava.joined_geohash_geonames] WHERE
trips_geohashed_dropoff = 'dr5ru2'
AND trips_geohashed_pickup = 'dr5rvj'
![](http://image109.360doc.com/DownloadImg/2021/02/0315/214733655_6_20210203034341537_wm)
|