“上海一共有多少个公共厕所,每个区县各有多少个?”,作为一个大数据爱好者,我本以为这是一个回答起来易如反掌的问题。但是真正操作时才发现,要从官方渠道,了解关于上海公共厕所的权威信息,竟然是一件极为困难的事情。 是的,平时有搜集各种大数据的癖好,所以在看到关于上海公共厕所的问题时,第一时间想到的就是“上海市政府数据服务网”,作为上海政务开放数据的门户,上面有大量各个政府部门开放的数据,从上面拿到公厕名录,在我想来是极其轻松的一件事情。 很可惜,我只猜对了前半部分。的确,在上海市政府数据服务网上,是有上海所有的公厕的数据。 但是!我遗憾的发现,上海公厕信息被归类为“特定公开”,而不是常见的“普遍开放”类别,这意味着——如果你是个人用户,在下载这份数据之前,必须进行实名认证。而完成实名认证的唯一手段,是用“市民云”账户来认证。本以为作为上海市民早就完成“市民云”认证的我完成这道手续,是很简单的事情。 但遗憾的是,连续几天尝试用市民云,都无法完成实名认证。这意味着,我无法从上海市政府数据服务网这个权威出口,获得上海的所有公厕名录。 我不太明白,公厕的信息有多重要,重要到不能和绝大多数政府信息一样采用“普遍开放”的管理,而是要被归类在“特定开放”,只有特定人等完成特定认证后才能下载。 细看了《上海市政务数据资源共享和开放2017年度工作计划》中整整236项重点开放领域的清单后我发现,这其中除了少数是“依申请开放”类别外,其余全数是“普遍开放”,并无“特定开放”这个类别。这让我相信,公厕信息被归类为“特定开放”必须实名认证下载,也许只是数据上传分类中的一个小差错,而非刻意的保密需求。 虽然可以谅解这样的小差错,但是必须说这依然让我作为数据使用者,有些遗憾。因为这其实并非个别问题,而是整个政府开放数据进程中一系列问题的缩影。 所谓一叶知秋,“公厕信息”的确是代表。 这些年,全球都在掀起政府开放数据的浪潮,我国也在力推。2016年的《促进大数据发展行动纲要》首次在国家层面推出了“公共数据资源开放”的概念,并强调: 大数据成为提升政府治理能力的新途径。大数据应用能够揭示传统技术方式难以展现的关联关系,推动政府数据开放共享,促进社会事业数据融合和资源整合,将极大提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段。建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策,将推动政府管理理念和社会治理模式进步,加快建设与社会主义市场经济体制和中国特色社会主义事业发展相适应的法治政府、创新政府、廉洁政府和服务型政府,逐步实现政府治理能力现代化。 就开放数据而言,上海早在2011年就率先开展了政府数据开放的可行性研究,并拟定了政府数据开放试点计划,并于次年推出了全国首个开放数据门户——上海市政府数据服务网。 而从开放数据来看,上海相比其他跟进的政府,也是表现优异。2017年5月,由复旦大学、提升政府治理能力大数据应用技术国家工程实验室联合发布的《中国地方政府数据开放平台报告》,在全国19个地方政府开放数据平台中,上海以数据集数量、开放授权协议、元数据覆盖率等方面评估来看,位居第一,不但高于近些年以大数据闻名的贵阳,也高于坐拥阿里巴巴的浙江和坐拥腾讯的深圳。 但是,作为上海开放数据的实际使用者,我依然有太多太多的小细节可以吐槽。 比如这次偶遇的必须认证才能下载的公共厕所信息。 比如形同虚设问题,以交通委公布的驾培人员基本信息为例,数据库里面除了人员名字以外什么信息都没有,除了用作姓名学研究几乎没有第二个用处,可谓是未公布而公布。 比如核心字段无数据,以民政局提供的慈善超市为例,虽然字段设置中包含开设时间和营业面积两项,但是下载的数据中,这两项具有重要研究价值的数据,全部是空白。 比如私有数据格式,以经信委提供的 “i-Shanghai“免费网络为例,静态数据仅提供XLS一个格式,并未更常见的CSV格式。XLS是微软Excel收费软件的专用格式。政府提供的免费开放数据以一家商业机构的收费软件格式提供,其实不是值得推荐的选择,与之相比CSV作为一个文本格式各种软件都可以处理,才更符合开放的宗旨。 当然,如果你有接触过类似纽约开放数据(NYC Open Data)这样全球领先的政府开放数据项目,你就会明白我国政府开放数据与先进实践的巨大差距。 政府开放数据,归根到底是期望能有被学界、企业界用于研究,而研究结果可以反哺政府的社会治理。这不仅有助于提高透明度,其实也是“免费”引入外脑智库的好法子。 笔者在香港中文大学攻读社会学硕士时,一直被提醒,香港政府除了直接资助助学金外,如果算上每年的大学运作费用等,我们每年的教学成本可能是100万港币/年,两年学制就是200万的成本。而我的毕业论文,没有研究香港,而是研究底特律的求职市场。之所以研究底特律这样一个从未去过也风马牛不相及的城市,只是因为当地的一份重要求职数据通过某种渠道可以向我“开放”,免去我自己搜集数据之苦。于是,我2年至少200万成本的硕士求学生涯,研究精力就因为一份数据贡献给了底特律。 其实,类似的情况在学界很是常见。而对于企业界更是如此,如果政府开放的数据可以用于提高生产力,自然愿意投入大量的研究研发去辅助实践。 但是,要真正能够让学界、企业界趋之若鹜的,必须是底层详实的真正大数据。 在这里,不得不提政府开放领域的典范,纽约政府的开放数据。在其官网上,公布了许多年的打车数据(Taxi Data)。这份数据详实到什么程度? 以2014年黄色巴士数据集为例,一共有165,114,361条数据。 是的,我在最初接触这份数据的时候,上述数字的位数也是数量两边才确认,一共有1.6亿条数据。而每条数据,详实到包含了上下车时间、地点、行驶路程、乘客数量、支付方式等大量信息,整个数据集容量高达5.3G,和一部1080P高清电影差不多大——如此庞大的数据集,笔者作为一个中国人,无需任何注册和认证,就可以轻轻松松下载后自行分析。 毫不夸张的说,有了这些原始数据,在对纽约的交通问题了解上,每一个研究者,可能都可以和纽约的交通管理部门在数据量上站在一条起跑线上了。 正是有如此庞大的原始信息量,才让研究者可以做出各类详实而有价值的研究。事实上,当年这批数据公布后,很是掀起了一波针对纽约打车问题的“调查研究之风”。从网上可查的,既有大量数据可视化的研究,也有包括天气与打车、不同区域打车路程等各方面的研究。而同期UBER公布的开放数据,更使得学界可以定量的分析UBER这种新模式对于传统出租行业实际的影响及影响模式。 与之对比,包括上海在内的地方政府公布的开放数据,大多还是汇总后的统计数据,甚至许多不过是政府各类网点的地址名录而已,可用于实际研究调查的,实在少之又少。 当然,作为上海市政府数据服务网的常客,每次看到其举办的SODA,都坚定了我对上海政府开放数据美好未来的憧憬。 SODA者,上海开放数据创新应用大赛也。每年都能吸引不少个人、团体来提交各类关于数据应用的创新方案。 而在这个比赛中,作为比赛数据的样本数据中,不但可以看到2017年新增数据明显优于存量数据的趋势,而且里面也可以找到类似3000条12315投诉信息、10000条摩拜单车骑行数据、3000条航班信息这样实际运作中的详实底层数据了,虽然作为比赛样本其数据量还无法与纽约的开放数据库媲美,但是在可研究的数据量上,已经接轨了。 是的,在上海的开放数据道路上,我期待SODA大赛的数据能够成为未来政府公开数据的标杆,就以公厕为例,我不仅希望能够无障碍的下载到所有公厕的网点信息,甚至包括公厕的保养、使用人数、用水量、排水量等信息希望未来也能提供,那么对于关注“厕所革命”下的城府服务变革,显然是大有帮助的。 作为一个数据爱好者,我始终相信,开放的数据,能让上海这座城市更美好。 |
|