分享

数据中的城市,城市中的数据

 真友书屋 2014-11-08

作者:凯尔·格雷科(Kael Greco)

译者:ilovesnoopy(北京大学光华学院硕士)

校对:EcnMcheDsgn (UCLA本科,MIT机械工程学博士) 独眼一点五 (华东师范大学中文系硕士)

摘自:译言


2007年年初,一群Google Earth的用户在圣地亚哥发现了一件奇怪的事情。在使用最新发布的卫星影像进行俯瞰时,这些“圈椅里的全球定位系统”(译注:意即次系统令用户足不出户便可进行全球定位)注意到有一组建筑在从上面看下来的时候会呈现出一个令人费解的形状——纳粹的十字记号。这个发现像病毒一样扩散开来——早在病毒传播这个概念出现之前——主要的新闻媒体都报道了此事。人们很快发现,这组综合设施实际上是由美国海军在1967年建造的,巧合的是它周围的公路也是以二战相关的地点命名的。当时所有的人都可以通过一个网络链接去查看它,这个基地的俯视图引发了公众的强烈抗议,最终在政治压力之下,海军耗费了60万美元进行了一个改建项目来改变这组建筑那令人厌恶的外形(Perry)。一位发言人说:“我们不想和那个代表纳粹的、引人憎恶的十字符号有什么关系。”海军声称这组建筑的实际形状和排列完全是无心之举,是监管疏忽的后果,他们为此感到羞耻。但无论此举是否出于有意,有一点都很清晰,那就是这项工程的规划者、设计师和建造者都完全没有预想过会有人以上帝一样的视角去俯瞰完工后的建筑。这件趣事听来不但可笑,同时也揭示出一个特别重要的概念:新的视角可能会彻底再造我们对一个地方的了解以及我们与它的关系。我们确实已经可以以全新的视角来观察城市,在这股风潮之下,Google已经重新加工和整合了城市的数据——这个例子,就帮助人们发现了这个星球上由政府资助建立的最大的纳粹十字星。


当然,并非所有的城市数据集都像卫星影像一样在本质上就是可见的。有很多数据需要配合城市空间信息,才能够理解和应用——也就是说,它们要在城市的背景之下才能发挥出作用和力量。这种力量的一个实际例子——感谢爱德华·塔夫特(Edward Tufte)在传播数据知识方面的努力工作(Tufte 24)——就是约翰·斯诺(John Snow)在1854年绘制的霍乱爆发地图。19世纪中叶的时候,随着人口集中区域的人口密度不断增长,城市不可避免地面临着公共健康问题,规划者和理论家们希望能够解决这种不断增长的健康威胁。在1850年代中期,最受人关注的就是霍乱的传播。医学界尚未接受微生物学的基础理论,但是通过绘制苏活区因霍乱死亡病例的地图,斯诺可以清晰地向人说明,霍乱传播的媒介不是被污染的空气,而是被污染的水和食物。


数据过载与维度的灾难

就像科技的进步一样,可视化与映射技术的应用也不可避免地与极大的数据量关联在一起,就像詹姆斯·科纳所说的:“……映射技术为我们提供了各种可能性;它一次又一次地重塑了领土的形态,每次重塑都带来各种不同的、全新的结果”(Coner 2013)。这种观念与不断传播的“大数据”的案例一起,催生出一种令人兴奋的信念:一切事物都可以通过计算被描述、操纵、模式化以及模拟。在大数据的时代,总量为王,任何维度上的补充都会在代表性方面带我们向完美更进一步。博格斯(Jorge Luis Borges)的《论科学的精确性》是一篇讽喻小说,描绘了一个追求一比一复制的幻想世界,这个故事已经快被我们遗忘了。我们不再对全面地刻画与模拟这个世界的前景感到畏惧——Google已经告诉我们这是在所难免的事情。新生的、存在主义的恐慌源于真实与虚拟世界之间模糊的边界(Beane等人);我们现下所畏惧的是无法识别真实世界与数字景象的边界。


在这样的背景之下,人们会认为对于真实世界的本体性进行探索有些冒失,但是这在逻辑上显得可笑的探索却再一次地播下了一种微妙暗示,多即是好——任何的数据片段至少都有一点点描绘现实的能力。这种流行的观点告诉我们所有的数据中都蕴含着重要的故事,于是,分析与描述数据的工作被简单地等同于发现这些故事。也因此人们更加奉行数据绝对论,这促成了一种倾向,人们在并不存在规律的地方寻找规律——我们在大量静态的、所谓的大数据的基础上识别和构建出了错误的模式。


在城市的情境下,上述内容有何意义?它告诉我们,在本质上城市数据中蕴含着强大的力量,但它并非总是有效;这些数据对人的行为在无数的时间和空间维度上进行了压缩,人们实际的人际关系与他们所表现出来行为之间存在巨大的差异。我们正在试图从这一团混乱中清理出一种合理并且可验证的观念,例如,重新定义我们的建模、模拟和解读数据的过程,使得我们提取数据价值的过程是可被检查验证的。下面这个案例将会阐释我们是如何取得这种微妙的平衡的。


利雅得和UTS项目远景

沙特阿拉伯全境快速的经济发展和人口变迁为这个帝国带来了新的挑战和机会。首都利雅得因为爆炸式的增长而引来了特别的关注,那里的发展速度已经急速地超出了交通设施的运载能力。在1987年至1995年之间,开车出行的比例以平均每年9%的速度在增长;利雅得的道路承载能力本就有限,交通车辆的增长令其变得更加紧张。


UTS项目的目标是建设一个开创性的、高度可变的城市交通系统来应对利雅得特有的交通挑战。为了这个目的,项目的基础是要利用人们日常生活中留下的数字信息来建立模型,对人们的交通行为进行分析、调节和规划,为决策者、规划者、专业的建设者以及利雅得的居民建立一个与一般的智能交通系统不同的交通系统。


从概念上来看,这个项目包含短期与长期两个组成部分。短期内,它的目标是分析人们在现有的交通设施下的交通行为;找到其中所包含的效率低下的部分和城市交通系统中潜在的可改进点。长期愿景则是配合未来的城市发展,预测服务分配和发展的情况,为满足该地区对于交通的高度需求提供助力。


这一项目最高目标的实现有赖于一个移动数据读取设备的构建;一个能够在各种时间维度上便捷地获取、分析、建模和解读多种城市数据集的系统。除了特别关注移动数据之外,工具本身没有其他的通用性的要求, 当然,我们希望系统能够有助于对各种通常被视为是异构数据的数据集进行创造性的整合,以发现此前无法感知或者无法明确的关联。


在深入到各种分析的方法论和具体的策略当中之前,我们有必要先明确这个项目的数据基础。我们与当地的电信公司合作,收集到了大约一个月的完整的国内通话行为。对我们来说,移动电话是当前可得的最为有效的实时感知工具之一;数字设备的普及使得我们可以在非常广泛的维度上取得非常明细的人们的行为数据。沙特阿拉伯的移动电话渗透率超过198%——这个令人惊讶的数据表明该国的许多人拥有一部以上的移动设备。我们整合了超过一万个不同信号发射塔的近亿条日常通话。每一条匿名的通话明细记录(Call Detail Record,CDR)都包括该次通讯发生的详细时间和时长、通讯者的位置、通讯类型(电话、短信、网络查询等)以及用户的服务类型(订阅、预付费等)。


分析与可视化:数据中的利雅得


1)基于利雅得地形的通话行为的平均数据。图中的高度和颜色代表15分钟内整合的行为。


2)利雅得和沙特阿拉伯通话行为快照

我们从将数据空间化和在一系列不同的物理和时间维度上生成行为档案开始。上图展示了一天之内移动电话的应用模式,分别是(1)利雅得和(2)沙特阿拉伯全境。每一个电话发射塔的移动通话行为(电话数量、文本以及数据查询)被聚合起来,每15分钟绘制一幅彩图(从深至浅按对数标度绘制)。这些静态图像为该地区社交生活的动态提供了鲜明的映像(此外,图中也标出了这一地区的通讯主干网),但是基本上它们所提供的只是建议,而不是答案,图像也不能展现人们生活的节奏。城市的影像、基础设施的结构以及时间维度,把更多的隐含信息带到我们面前——我们看到了关于这个城市的生活节奏的更加丰富的表现。


以上的可视化过程在利雅得及其扩展城区的每个像素上,通过颜色、透明度以及高度(仍然是取对数标度)来展示无线通话行为。我们没有将这座城市的无线发射塔当做孤立的点,而是在一个100X100的网格上展示通过插值法计算的网络通信量。在这种方法里,每个网格单元都被分配了一个使用无线电话的活跃度的强度数值,这个数值基于网格与周边无线信号塔的距离,并且经过高斯平滑函数的处理。时间轴上的行为差值也进行了类似的处理,虽然不能通过图像来证实这一点,但是最终的图像呈现出了一个自然得多的景象——对于这个城市的社交特性的令人信服的描绘。以包含卫星图像在内的地图为基础,我们得到了如何通过建筑的形式来表达这座城市的社交节奏的独特影像。作为对于我们数据的一项基础的合理性检查,就像人们所期待地那样,我们发现中心城区在早上交通拥堵爆发之前的时段交通量非常低,在那之后交通拥堵会逐渐向外扩散到整个地区并且在一天中余下的时段里一直持续下去。我们也清晰地看到了数个次要的拥堵中心的出现,它们主要与建筑物的密度有关,而且这些次要的拥堵中心看起来是被公路网络本身所分隔出来的。


这个城市不断变化的交通行为概况也明显地呈现出整个利雅得的交通情况具有非常明显的随时间变动的特性。我们在查看行为的地域分布的变化情况时,发现一个非常独特的特征——我们发现这座城市在正午之前并不活跃,总体来说人们行为的高峰期出现在下午6点15分左右。我们细致地查看,并且综合各个时段的情况发现了一些微妙的地区轮廓线;市中心西南和东北的居民区开始活动的时间比其他地区早很多,并且在一天之内各个时段之间的波动也最为剧烈。最后,时间上的变动在一天之内出现了数个特殊的断点——在这些特殊的时段里,所有的手机通话几乎突然减半。(稍后我们还会提到这个现象。)


推断人们的居家/工作地点

我们将时间间隔延长来捕捉更为广泛的日夜之间的变化,我们可以通过这样的区分来识别城市中的居家和工作场所——从方法论上来说,这是推断城市地块用途的前导步骤。我们将那些在工作日晚间被抵达次数最多的手机信号塔周边地区定义为居家场所,而工作日日间被抵达次数最多的信号塔周边地区定义为工作场所。这就要求我们对手机用户进行过滤,找到那些在晚10点至早6点之间拨出的夜间电话大部分(60%)都发生在同一地点、并且在早9点至下午3点之间拨出的大部分日间电话发生在另一个地点的人们。


通过这个过程,我们找到了大约200万个工作日居家-工作场所的配对,于是问题变成了:我们要如何使用这些数据?这些配对信息能够告诉我们一些有关于城市运转结构的新信息吗?当然,每一个居家-工作场所配对在本质上都表明了一段通勤行程的起止点,这使得我们完成的这些工作成为了了解交通需求的基本步骤,而我们是否能够在这些数据中发现一些独特的东西呢?


我们将城市区域内的居家和工作地点整合,并且在地理位置上对数据进行了平滑处理(在以下两张地图中分别展示)。这些图形非常粗线条地展示了在两种不同维度上的土地使用情况。于是我们额外绘制了一张地图来突出显示那些极端的点,图3展示了我们对于工作场所和居家场所的区分。


3)工作/居家场所分区地图

这张地图重点展示了全体居住区与全部工作场所的差异,我们看到一些单一功能的工作热点区域聚集在一起,看来全城范围内都是如此。在城市外围,我们也看到一些大学,它们也呈现强烈的工作场所特征。最后,我们看到城市南侧和东侧人口高度集聚的居民区,期间穿插着小块的空白地区。这与我们查看google地图以及与当地人讨论时所得到的直觉印象再次互相印证。


发现移动的群体

上述的居家/工作场所图像指明了城市组织的逻辑。经验分析证实了我们之前在地图中看到的明显的区域聚集现象吗?如果是的,我们如何形象化地发现其中隐含着的潜在的社群结构?如果我们将所有的居家/工作场所通勤定义为城市内部的移动网络,我们就能使用圈定地区轮廓的方法令人信服地将这个网络分解为子网络。



4)移动行为分隔过程

这个过程起始于全市范围内各移动电话信息塔所在地组成的网络,我们将这个网络中两个节点之间直接相连的权重定义为它们之间累计的通讯流量。这个方法中使用了模块化的优化方案,例如同一个网络中的计算机以一种能够把内部互联中断的总量减到最小的方式组织起来。结果中的每一个子群落都代表了一个通勤者居住和工作的主要地区。我们在利雅得一共定义了17个不同的群落。

5)按照经纬度绘制的拆分结果图

我们将得到的结果与城市的地图叠合在一起,发现了很多有趣的关系。其中最引人注目的是,这些群落都与城市交通主干道有密切的关联。社群的交通行为看起来对道路网络本身有非常严重的依赖,这一点强化了城市对于高速公路基本建设的全面依赖。这个结果也支持了我们通常所持有的一个观念,那就是交通拥堵的街道在很大程度上制造了隔离和限制,更乐观一点的说法是:好的道路能带来好的邻居。

6)可视化图片截屏

7)绘制于道路网络之上的社群详情


从社会节奏到方向性

CDR可以近乎实时地告诉我们城市居民的故事。从规划的角度来看,我们能够收集到的最有意义的故事之一就是个体级别的交通模式,这些信息汇总起来,描绘出了城市分析中最为重要的方面之一:起点/终点矩阵(Origin/Destination matrices,OD矩阵)。构建精确的OD矩阵是交通网络优化中至关重要的一步——这不仅仅是为了评估当下的运力约束,也是为了预测未来的需求。在传统的方式之下,我们通过每5~10年进行一次的、繁冗的人口普查来获得OD信息。这种方法等待时间漫长、耗资巨大,完成之后,只能对于交通需求提供一个基本的快照描述。


有些人提议通过全面安装传感器网络来绕过上述方法的弱点,而我们的方法利用了众多已然存在于我们的生活环境中的传感设备,我们指的是移动电话。我们收集和过滤每位用户使用移动电话的行为,将它们排列成一个手机信号塔所在地点的行为序列,通过这样的办法我们可以评估一个群体中个体出行时包含起止点的交通需求。我们已经证明这种近似的OD流与通过人口普查得到的估计高度相关(Calabrese等人,2006),而且这个办法还有额外的好处,它可以在各种动态的时间切片上捕捉交通需求,从季节变化到小时之间的变化。这样高时间分辨率的解决方案具有重塑我们对于城市交通理解的潜力。


我们首先在小时的维度上构建了OD矩阵,我们希望将其与网络的行为一起呈现出来。在可视化结果的时候,我们将每一段“旅程”表示为一条从起始位置信号塔到终止位置信号塔的弧线。每段弧线都对应着不同数量的行程,为了表示这个特征,我们会根据沿线的行为密度来调整线的粗细(作对数变换)。为了进一步凸显方向性我们使用了配色方案,以蓝色表示起点,以绿色表示终点。绘制这些表示OD的弧线时要求它们在地理上处于同一城市,我们将它们绘制在上述的社会互动网络结构图之上,来试图揭示两个数据集之间那些未被发现的联系。


8)利雅得的OD矩阵(早6点至9点,早9点至12点,午间12点至下午3点,下午3点至6点,下午6点至9点,晚9点至凌晨)(译注:原文为12pm,疑有误)

产出的动态地图与当地人对于车流的直觉具有惊人的相似性,而汇总的OD弧线则与下方的街道网络非常相似。非常显著的是,可视化的结果表明沿着城市的主干道有密集的交通行为,如法赫德国王大道以及北侧和东侧的环路。此外,在与社区领袖及规划专业人士进行过一系列研讨会与面谈之后,我们发现这些结果与市民对于通勤模式的主观印象非常相似。为了进一步验证我们的发现,我们将估计出来的OD流量与能够取得的最好的道路统计设备的数据相对比:交通量观测的历史数据。这些交通量数据是通过数个在全城移动的小型气压管传感设备收集到的,一个路口接一个路口,以48小时为周期。


这些计数被以可视化的方式在每个路口的位置以半球标示。每个球体的形状和颜色根据监测到的交通量以每小时一次的频率变换。在城市主干道周边的数据再次与OD数据完美契合,然而我们通过OD数据看到城市中心的东南方向有些非常有趣的行为,遗憾的是我们没有在车辆数量数据中找到可以对照的数据。这是一个未来可以继续探索的问题。


这一系列分析的最后一步,是将这些中等规模的通勤流数据转化为道路网络本身的行为。通过概率变换,我们将收集到的OD交通数据转化为具体的地理信息系统(GIS)中的路段数据库中的信息,我们有可能对各种交通出行人群对于整体运输网络的影响进行量化——这表明建设一个细致全面的实时通勤展示系统是可能的。这项技术有能力对超载的主干道、启动整个城市日常拥堵的特定地点进行量化。类似的研究已经发现,只是来自少数地区的少数司机造成了主要道路的拥堵。对于王等人根据人们对于本已脆弱的城市道路的依赖,为波士顿市的交通问题识别出了最重要15个普查区(共计750个)。这一点是否在利雅得也是适用的,尚待确认。


思考的前沿:从利雅得看数据

前述研究利用了本质上具有“社交性”的数据来发现在城市中大规模移动的人口的行为特征,结果得到了能够精确地反映利雅得当前的带有方向性的人流变化和循环的结果。在这个探索性的分析之后,我们可以将研究的焦点转移到导言部分中所提到的另一个问题——通过对城市内部人际网络的互动进行过滤发现隐藏的社会趋势。有众多的情境因素使得利雅得,以及整个的沙特阿拉伯王国,成为地理空间文化分析的理想对象。这需要回答许多其他理论问题:城市的结构会激发哪些我们在数据中所捕捉到的社会文化因素?回到约翰·斯诺(John Snow)的霍乱地图,我们是否可以通过将我们的数据与城市结构结合在一起,来发现社会生活中潜藏的方面?以及最终它是否可以更进一步地告诉我们沙特阿拉伯城市结构的特性和构成?下列所述只是进一步研究的思路。它的首要目标是强调那些可以在社会和自然地理模糊的交界处找到答案的问题。这些简单的探索性的思考无论如何也算不上详尽,我们的陈述只是希望能够为未来的研究大致描画出一个范围。


一旦开始广泛接触沙特阿拉伯的环境,我们不可能不注意到这里存在非常明显的性别隔离现象,这是开始进行任何比较社会研究之前所必须了解的。这个国家以其严格的性格规范而著称。阿拉伯女性面临着从强制佩戴尼卡布(面纱)到上街必须有男性陪护等各种措施——这些措施即使不是对她们无条件地限制,也是过度保护。这种城市生活的背景信息,会对于定义日常生活起到什么作用吗?我们将匿名的CDR与人口统计信息结合在一起,这使得我们可以通过经验来发现这种隔离制度是如何对这个国家产生影响的。特别的是,沙特阿拉伯有一条令人感到疑惑的规则,禁止女性驾驶汽车,这在全球来说都绝无仅有。由于可供选择的公交手段有限,女性在出行时不得不依赖她们的男性亲属或者雇佣司机。我们可以在空间上对这条规定进行量化——我们可以重现和表达这种空间上的限制吗?这结果看起来将会是怎样的呢?哪些区域是女性最容易和最不可能达到的?她们在众多的城市中是如何分布的?此外,我们能否把这种由文化所施加的限制与因城市设计而产生的限制区分开来?这种分隔会对人们的互动网络产生什么影响——空间约束是否在这里仍然起作用?最后,这会为政策制定者、规划者和管理者提供什么启示?


阿拉伯世界另一个独特的文化现象是每日的祈祷。就像之前已经说到的那样,我们在移动电话通话行为中发现了一个有趣的模式,它与我们之前分析过的任何国家和城市都不同。人们会多次中止日常活动,在30到40分钟之后才恢复如常。这些不活跃的“低谷时期”就是每日祈祷的时间。一日五次,全国成千上万的穆斯林放下他们的电话,转向麦加圣城的方向祈祷。店铺和商家理论上来说要停业大约20~30分钟,这期间宗教警察(the Mutaween)就在街上巡查,他们会将所有闲逛的人送到最近的清真寺里去。让我们惊讶的是,我们的行为分布与这一行为非常契合。召唤祈祷的具体时间与太阳在空中的位置有关,因此通过区分CDR在西部、中部和东部地区的分布情况,我们就可以看到如上面图示所展示的全国祈祷时间的变化。这引发了其他一系列有趣的问题。我们已经在上述的“社交脉搏”图示中看到,我们可以从地理图像上识别出这种无线电话通信行为的突发式暂停,但是我们能够对这种变化的强度进行量化并且将它绘制出来吗?我们能够找到祈祷召唤对于哪些区域影响最大吗?这种暂停与城市环境的空间组织形式之间有什么关系——我们对于强度的衡量与土地利用模式有关吗?它与清真寺的密集程度有关吗?沿着这个思路,我们能够发现并且展示出人们的移动会因祈祷时间导致的通讯暂停而有何变化吗?在临近祈祷时间窗口的时候,出行的平均长度会变短吗?最后,中止强度可以用来表征一个地区的虔诚程度吗?我们能够在虔诚度与人际网络互动之间发现任何关联吗?


我们会继续对这些思考中的问题进行研究,城市的文化脉络将会在寻找答案的过程中成为为我们指明关注方向的核心要素。在这个细致往复的过程中,我们在空间的框架之下和之外都进行了研究,我们希望能够建立一系列模型,来找到研究城市与生活在城市中的各种社会群体的新方法。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多