2023，为什么找数据还那么难？

吕杨鹏 2023-02-09 发布于北京

展开全文

▍没有数据，我们是否无能为力？

对多数人来说，遇事不决问淘宝。但从专业角度来看，淘来的数据未必靠谱，一份“可用”的数据其实需要满足很多条件。

首先，数据的来源是否清晰？无论是学术还是商业，在所有正式场合，使用数据都需要对来源做出说明；如果涉及到他人的研究，还需要注明引用的文献。数据来源关系到数据质量，当我们使用的是一份未经加工的原始数据，那么即使数据存在缺失、异常值，我们都可以通过对数据进行清洗和必要的修补，来满足使用需要。但假如我们拿到手的数据已经是经过他人处理的了，那么数据质量就是必须考虑的问题。

如果数据是来自于正规学术研究，一般都会有非常详细的数据说明文档和代码，但这种情况出现的比例并不算很高。更大的可能是，数据爱好者从各类自媒体或免费或付费，获取了处理好的数据包，比如下面这样的：

（某公众号的数据分享，在后文明确给出了原始的数据来源和具体的处理方法，以及使用数据需要标注出处时的引用格式）

对于这样的数据包，数据质量是否“可信”？很多人都会遇到这样的情况：分享者对原始数据的处理我并不满意，或者不适合我要做的分析，但我又找不到原始出处，最后只能在“使用处理不当的数据得到可能错误的结论”和“缺少数据无法开展分析”之间二选一。

此外，数据处理是否“可查”。你使用的数据真的能反映你想知道的问题吗？举个例子，收入数据非常难以统计，需要依赖一定规模的调查，同时还可能遭遇低报瞒报等问题。因此，不少研究者会用“招聘薪酬”这类高频数据，替代统计局发布的详细分位数家庭收入。但是，如果不进行复杂的去偏性矫正的话，这种替代在有些情况下是不合适的。比如说：“是不是所有岗位都会选择在网上发布招聘呢？”

基于以上种种问题，即使是互联网巨头公司发布的数据，也偶尔会遇到尴尬。

某知名互联网企业BK曾发布了一个住宅空置率研究，由于“填写人的主观判断存在的偏差，调研样本和程序不够规范，覆盖范围不够全面，部分调研问卷数据采集有误，导致数据不准确。空置率口径无法定标准，本次调研以“房屋是否存在连续三个月无人居住”为判断指标，不能充分反映真实情况。“等原因，上线仅6天就不得不主动撤回。

▍对“能用”的数据，我们有什么期待？

去除上节所谈到的”不可用“的数据，在现实中，“可用”的数据其实非常非常多，既有统计局官方定期发布的各类数据报告，也有知名学术机构定期完成的各类调查，部分有条件的研究者，还可以获取部分高频数据进行补充。那么为什么还是有非常多的数据使用者感到，数据常常不能合乎使用者的心意呢？

使用者对于一份数据的期待是怎样的？

首先是及时性，这代表了数据在时间维度上的滞后程度。例如，我们在证券交易平台上看到的各类金融产品的实时价格，仅以秒或分钟计算。而统计局提供的各类国民经济指标，往往是月度、季度或是年度更新。而一些更加复杂的数据，比如经济普查、人口普查等，每5-10年才会进行一次，而且从普查执行到最终详细数据的发布，中间也要间隔2-5年的时间。

第二是全面性，这代表数据在覆盖群体方面的广度。各种普查可以涵盖全体国民，而更多的调查数据，则基本只针对了某些特定的群体，例如流动人口监测数据，就只针对常住地与户籍地不一致的流动人口；又例如失业率调查，则主要针对劳动年龄段且本身有就业意愿的人群。

第三个角度是深入性，这代表了数据所包含的信息丰富程度。如果我们把一份数据理解为一张表格，每一行都是一条观测值，每一列都是一个字段的话，字段的数量大体可以代表数据信息的丰富度。

当然，并不是时滞越短、覆盖人群越广、字段数量越多的数据，就一定更合适。数据及时性、全面性和深入性，需要和使用数据的场景适配。例如，金融产品实时成交价格，以分或秒为单位更新，对于一般用户的查询来说足矣，但对于量化交易等场景，可能还远远不够。又例如，当我们的目标是反映一个城市16-24岁青年的就业情况时，全口径调查失业率未必合适，反而一些针对性的调查数据更有启发。

▍对数据“提要求”，还得摸摸自己的腰包

寻找合意的数据，其实就是在可接受的预算内，去寻找及时性、全面性和深入性更加符合需求和应用场景的数据。

去年知名杂志《Nature》刊发了两篇关于社会资本的研究，研究者使用了210亿对脸书用户好友关系，涉及到大约7000多万用户（25-44岁），并识别了用户的社会经济特征、所在地等信息。更令人惊叹的是，这两篇研究的数据收集于2022年5月底，距离论文公开仅仅只有2个月左右。

如果从及时、全面、深入的维度来说，这份数据堪称完美。但这份研究，其背后付出的成本也非常可观：参与这两篇论文工作的作者就有二十多位，其中有很大一部分来自脸书公司，提供数据支持，更不要提背后没有署名的无数数据工程师们的努力投入。

马克思说过，价值是凝结在商品中的无差别的人类劳动，这也是数据具有价值的本质原因。尽管人们谈起数据这一生产要素时，总是聚焦于其可复用性带来的便利上，但使用者们也绝不能忽略获取数据的成本。无论是及时性、全面性、还是深入性，在任意一个维度上的哪怕一点微小的数据质量的提升，都需要投入资源，并产生额外的成本。因此数据可以被认为是一种”资产“。

对于绝大多数数据工作者来说，对数据提要求之前，还得摸摸自己的腰包。

▍公共数据供应的尴尬：任务or服务?

回到最初的问题，数据从哪来？无非是两个来源：公共数据和商业化数据。

就全社会而言，数据像土地一样，是一种基础设施；但同时又因为其高度可复用的性质，具有一定公共品的特征。因此，在世界上大部分国家，政府或公共部门提供的公共数据，都是大众主要的数据来源。

当然，各个国家的公共数据提供的怎么样呢？这个话题就一言难尽了。

感兴趣的话，可以参看这篇推文。

（美国国家统计局与中国国家统计局官网）

由于我国国情的特殊性，和西方国家横向对比并不完全合适。

但相信很多读者和数据团一样，在使用我国的公共数据时，总会遇到各种尴尬。

比如，总得一遍一遍汇总整合不同来源的公共数据。

举个例子，数据团曾经做过一次研究，目标是了解房屋供给是不是能够满足需求，从而进一步对房价走势形成自己的判断时，这个过程需要至少三个来源的数据：

1. 这个城市的人口情况、结构、空间分布，这可以从该城市的统计部门查询当地的统计年鉴。
2. 这个城市的土地出让情况，这可以从当地规划和国土资源部门去找相应数据。
3. 这个城市的房屋出让和存量等数据，可能需要去住房与建设部门去找相应数据。

以上每一个步骤，都会对数据工作者们产生一次强大的劝退效应。

而这仅仅是一个城市而已，当我们同时需要对全国众多城市（比如人口排名前70的城市）同时进行此项工作时，还会发现不同地区的数据并不存在统一标准路径：

1. 国家统计局的各种数据和公报的空间颗粒度较粗，需要地级市层面的数据，往往还是要去各地市自己的统计局官网查询。
2. 不同地方的统计局，其官网架构和查询数据的路径并不存在一个完全一致的模板，这使得看上去是重复的操作，在每个城市都有不尽相同且难以描述的体验。
3. 有些部门的网页最初设计的时候没有充分考虑实际使用情况，导致一些信息显示不全的问题。

（某三个临近省份的省会城市规资局网站，你觉得他们长的一样吗？）

再比如不太方便使用的公共数据页面设计。

（上海市统计局在网页设计的时候，肯定没有想过一个列表会这么长，以至于没法拖拽页面看到后面的内容。）

除此之外，还有一言难尽的数据统计口径的变化。某些指标的口径会在一些年份发生变化，使得这些年份前后的相关指标变得不可比，相应分析的时间窗口也就只能被迫缩短。有些数据甚至在某些年份直接消失。

相信读者们的槽点应该比我们列举出的更多。大部分的数据使用者对官方统计数据的态度，就像怨偶，爱不起来又离不开。

▍市场能为数据供应做些什么？

当公共部门的供给不足，而需求又广泛存在时，市场力量就会尝试进行补充。

首先，我们看到市场上出现了各种可替代的数据。在《烟火气》和《与城市脱钩的经济数据》这两篇研究中，数据团都利用了不止一种对公开统计数据有可替代性的城市高频数据。但需要强调的是，正如前文所提到，不经过处理的高频数据是不能满足使用者需求的。高频数据真正做到对公共统计数据的可替代，还需要做大量的纠偏和加工。

举个例子：脉策科技从数据供应商（移动运营商）处采购到了分年龄段的栅格层面的城市人口规模数据（一种可替代的高频数据），那会怎样去验证这样一份数据是否准确呢？我们会需要一把或者很多把“尺子”。首先，一把最直接的尺子，就是与最近年份的人口普查细颗粒度的数据进行比对，但众所周知，人口普查10年才会进行一次，对于不在普查年份的数据，就需要根据人口自身的队列结构进行一定的推算。除了直接用另一份人口数据进行校验，还可以从侧面去比对这份数据的合理性，例如对于日间的低年龄人口，其中学龄段的分布必然会与学校这类POI在空间上高度相关，而劳动年龄人口日间分布，则会和城市内企业、就业的分布高度相关，此外，通过城市建筑底面形状、用地性质、卫星灯光等信息，也可以有效判断部分栅格是否存在异常的数值。

（脉策人口数据修正示意图）

其次，而由于公共数据供给不足，市场上开始存在众多分散多源的数据供应时，进行数据质量评估与校准，也逐渐成为了重要的市场化工作。

举个例子，在新房、二手房交易这类准公共类数据领域，由于官方数据供给的缺乏，全国各地分布着大量商业化的数据供应商。那么，在没有官方数据标签作为背书的情况下，如何评估不动产交易数据的质量呢？在《数据的冠军》一文中，脉策科技详细地介绍了如何与众多房地产市场交易数据供应商一起构建更健康的数据生态，提升行业数据供给的质量的创新模式。

（2022年，各城市房产数据的“冠军们”）

此外，对于需求最广泛的官方统计数据，其需求极度刚性，也往往是无法用替代数据绕开的，市场提供了官方数据的整理、统合与可视化工作。

这其实是一件既简单又无趣的事情，简单在于，数据本身是原本存在的，并不需要做过多处理，只需要把它们搬运、整理到一起，再配上相应的图表就行了；无趣在于，原始数据的使用体验很差，在做这项工作的过程中，很难采用工程化、自动化的处理方法，需要大量的人工工作。本质上，这就是大部分数据分析爱好者们经常要做的一件事情，通过市场化付费的方式，提供了这部分服务，提高了使用者的体验，就是其中核心价值。在国内，最典型的代表也许就是某数据终端W公司了。

（W终端示意图）

打个比方，统计局等官方渠道数据主页，就好比一个货架凌乱的国营百货商店，对于消费者来说，要从纷杂的货架上找到自己最需要的那款商品非常麻烦。而类似W公司的企业，就在国营商店旁边又开了一家差不多的“精选商店”：它们所有的货都是从国营商店进的，进完之后根据消费者习惯和需要，分门别类摆在了自家的货架上，并且加上了一定比例的服务费用。在我们的日常生活中，这样的商店应该几乎不会有生存的空间吧，但在公共数据领域，却足以支撑一个规模不小的生意。

▍数据服务商业化：高昂的交易成本

为什么“国营商店”边上的“精选商店”不但能开出来，还能有不错的营收？这说明“精选商店”们对数据的收集、整合确实是一种有价值的数据服务，有人愿意为这样的服务付费，这也是数据服务市场未来发展的机遇所在。

但我们也要看到，数据服务市场也面临非常大的挑战：高昂的交易成本。

这个市场里的卖方和买方都有很多顾虑。

对卖方来说，是否有客户了解自身数据的真实价值，达成真实成交？交易过程会不会很复杂，需要额外的商务和售前团队介入？成交后钱款是不是能及时到账？

对买方来说，数据是不是有高可用性，性价比不错？交易过程中卖家会不会跑路？数据交易过程和使用体验是否便捷？数据交易完成后，卖家是否有后续的服务？

在整个交易中，买卖双方还共同关心交易的隐私性，是否会被竞争对手知晓自己正在进行一项数据交易？

数据服务市场天然就是一个“柠檬市场”，始终存在着这样一种信息不对称：数据使用者在拿到数据使用之前，难以确认数据质量的好坏，即使供应方会提供样例数据作为检验依据。

而数据本身的“耐用商品”特性，又进一步加强了这个市场的问题。一般商品的二手市场中，交易的达成并不改变市场上总量的商品供应，而数据则不同，交易的达成会增加市场上的总量供应。对于数据供应方来说，每售出一份数据，就等于为自己创造了一个“竞争对手”。由于成本原因，一旦出现“二道贩子”，投入资源提供高质量数据服务的企业在定价上很难胜出，最终形成了一种劣币驱逐良币的市场机制。

要走出这种困境，就必须减少数据交易和数据服务提供中的信息不对称，需要有专业可信的机构，对数据质量做出评估和担保。目前不少地方政府建立的数据交易所就是这样一种尝试，希望依靠权威部门对数据资产的认定、确权和交易全流程更加规范的立法和制度建设，培育和发展数据服务市场。

（在2021年11月上海数据交易所成立，脉策的“空间智评”产品也通过上海数交所完成了确权和上架。）

此外，现实中非常缺乏能对数据给出正确评价的第三方机构。在数据交易所的合规流程中要求的数据质量鉴定报告，往往也是由数据供应方自行出具。为什么市场上见不到这样的第三方机构？

因为数据质量的鉴定要求非常高。

在很多人的概念里，数据行业是单纯的技术行业，对数据的各种指标进行简单的技术验证，似乎就可以说明数据质量。但在业务上，一份数据使用的最终目的是反映现实，那么评价必然需要结合更多现实维度的数据进行交叉验证，这对第三方机构自身的数据综合储备和认知能力也是一种挑战。

现在，城市数据团愿意接受这种挑战。