【原】农地确权大数据的思考（节选）

godxiasad 2023-04-21 发布于北京

展开全文

以下是我用户大会行业论坛的PPT的节选部分，因为当天时间关系，所以在用户大会上，把40分钟的内容，压缩到了10分钟……

此PPT暂时不提供下载。（可以提供的时候，我会在公众号上发布消息。）

农地确权的背景我这里就不介绍了，大家有兴趣的百度……

目前农地确权数据量的估算，在国内政府领域应该是首屈一指的，如下所示：总所周知，原始数据可能最后只占所有数据的不到10%，那么就在10%，就庞大到了这个份上，而且不同于国土二调和国情普查的资源性调查，农地确权是权属类调查，需要颁发权证的，所以更具有权威性。

这些数据收存上来之后，如果要进行访问，最佳的存储方式依然是数据库——这是业界的共识，2014年图灵奖被授予了sybase的创始人Michael Stonebraker教授，就是计算机业界对数据库这种发展了很多年的成熟技术的一种认可和未来的期许。

传统数据库的优点和缺点同样明确，有兴趣大家自己看，这里就说了。

那么在农地确权中，如此复杂内外压力，就需要在传统数据库为主要支撑的情况下，考虑新型的数据支撑模式。

新型架构的设计，需要考虑解决一下问题了：

不论哪种数据，在计算机存储中，都分为这两类：结构化、非结构化。

在农地确权数据中，结构化数据，仅仅有矢量数据和汇总表格数据这两类，其他的，都可以被归类到非结构数据中。一般来说，结构化数据，都可以直接被存储到数据库中，进行结构化存储和查询，而非结构化，一般都是以文件方式进行存储的。

但是文件天生是有他的特点的：
如文件的读写，无法像数据库一样，以行列号的方式进行索引挑战，而是大部分采用内存加载、遍历访问的方式。也不支持随机更新（文件的更新，都是修改之后，整份数据全部更新，实际上就是更新一下，就生成了一份新的数据），关键是对文件的访问，都是用元数据的方式来进行描述的，如文件名称、文件大小。要访问文件内部的内容，就需要对文件进行“解包”存储。

一般数据的存储和访问，都是通过所谓的序列化来完成的（关于序列化的概念，请自己百度）。

那么我们如果要对文件的内容进行访问，就需要把这个文件的内容序列化，序列化之后，我们可以在严格模型结构化和完全松散的结构化之间，寻找一个平衡点：半结构化数据。

半结构化主流以xml和json两种格式为主：其中各有优势。比如json的k-v结构，快速查找，而xml的高序列化能力（soap技术，甚至可以把功能函数和类都序列化成xml）。那么具体采用什么结构，视需要而定。

半结构化数据，完全可以采用列式数据库来进行存储，关于列式数据库的原理，挖坑待填……

当然，分布式也不是万能的，它有他的优点和确定。

最后，给出一些思考。很多情况下，细节数据并不是大家所关心的，比如农地确权数据中，很少有需要关心到哪块地属于哪个农户这种细节……更多的是通过宏观统计信息来进行定性描述。所以原始数据可以通过定义专业的统计模型，加工、抽取成专业的统计数据库。