档案工作中大数据框架构建及应用思考

昵称17881240 2014-06-05

展开全文

描述：依据大数据定义，简要分析档案资源符合大数据特征，构建档案工作中的大数据框架，指出目前档案工作开展大数据条件尚不具备，但应从服务观念、档案信息质量、档案资源云平台构建三个方面为大数据应用做好准备，并以...

摘要：依据大数据定义，简要分析档案资源符合大数据特征，构建档案工作中的大数据框架，指出目前档案工作开展大数据条件尚不具备，但应从服务观念、档案信息质量、档案资源云平台构建三个方面为大数据应用做好准备，并以郑州市为案例分析了大数据试点的研究思路与实施路径。
　　1 大数据研究现状
　　1.1 大数据含义。大数据（big data），或称“巨量资料”，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到获取、管理、处理并整理成为帮助企业经营决策更积极目的的数据，即不能用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法。亚马逊网络服务（AWS）、大数据科学家 JohnRauser提到一个简单定义：大数据就是任何超过一台计算机处理能力的庞大数据量。
　　上述定义尽管表述不完全一致，如何定义大数据到目前为止仍然没有具体的标准形态，但基本体现了大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。
　　1.2 研究现状。通过对CNKI以大数据为主题词检索，得到相关文献4434条。进一步缩小范围，在图书情报与档案一级学科中检索，获得文献39篇，其中档案学方面文章2篇。这些文章研究角度各异，或从图书馆服务角度，或从竞争情报角度等，偏重于图书情报二级学科。档案学方面，周枫剖析了大数据给档案馆带来的影响，并据此提出了大数据时代档案馆生存与发展的相关策略；李小晨介绍了在档案管理中运用大数据技术的策略。
　　国外对大数据研究较深，档案领域中也已有实际应用。如EMC与梵蒂冈档案馆合作将82000件珍贵古代手稿数字化，通过大数据让更多人通过互联网阅读原版手稿。
　　从以上分析可以看出，大数据已成为我国信息研究方面的热点，但在档案学方面的研究尚未开始。本文拟从大数据与档案工作的关系、架构、实施可行性等方面进行分析，并就大数据在档案工作进行试点展开讨论。
　　2 大数据框架构建
　　2.1 档案资源符合大数据特征
　　（1）档案数据体量巨大（Volume）。目前，单个国家综合档案馆档案资源总量基本达到了TB级，考虑到每个档案馆档案资源的不同，以及各类档案部门保存的档案数量，必将达到PB级甚至EB级。据统计，2011年，各级国家档案馆馆藏已达3.3亿卷，到2020年，馆藏将达到6亿多卷。如果加上企事业各类档案部门馆藏，将是一个海量资源库。
　　目前，各类档案馆正在开展数字化建设与电子文件管理，进行资源整合。如，郑州市档案馆拟对850万卷档案进行数字化，并对郑州市所属5区6县的档案资源建设统一的资源整合平台。
　　（2）档案资源种类繁多（Variety）。档案资源以文本类为主，还有大量的音视频档案、照片图片档案、图纸、凭证档案、地理信息、网络日志等，都是非结构化数据，描述这些档案资源的元数据又是结构化数据。海量结构化数据与非结构化数据的混合正是传统数据处理难以解决的问题，符合大数据的多样性特征。
　　（3）档案价值高，但价值密度低。档案留存着社会的历史记忆，具有很高的历史价值。然而对当前应用来说，海量档案信息，每次可能利用的数据非常少，存在着价值密度低的特点。如视频，连续不间断摄制过程中，可能有用的数据仅仅有一两秒。这些档案信息蕴含着巨大潜能，需要人员、流程与技术的密切配合，方能将其转化为更大的真正价值。
　　（4）处理速度要求高。大数据要求实时或近乎实时的处理速度，这对企事业单位来说没问题，对于国家档案馆来说好像要求过高，其实不然。传统档案利用方式是被动等待用户来查找原始信息，给社会留下“故纸堆”印象。如果改被动服务为及时、准确的主动服务，这种主动服务不仅提供档案原始信息，还应提供BI、预测分析、内容分析、辅助决策分析等。
　　2.2 档案工作中大数据架构分析。其实大数据并不是现在才有的，也并不神秘，古已有之。档案学中的档案编纂与编研实际上就是大数据的处理过程，如，档案编研工作的一般程序是选题、选材、加工编辑、总纂与审核。其中选材包括搜集素材、确定素材与考订素材三个步骤。这个过程是人工处理，在浩瀚的档案中选取合适的数据不是一件容易的事，有时还需要到其他档案馆去查找，这是一个长期而艰巨的任务，往往需要几个月甚至数年去完成。
　　在信息化时代，可以依托信息技术构建大数据处理流程，如图1所示。
　　图1中，数据源是各档案馆馆藏档案资源，这些馆藏资源应该是数字化结果或电子文件。目前，各级各类档案馆正在大力开展档案数字化与电子文件管理项目建设，为大数据数据源奠定了基础。为顺利实现下一步信息整合与治理，应在标准基础上构建全国性电子文件与数字化成果管理与服务体系，如基于OAIS 的全国性管理体系。
　　高速网络则是为了海量档案资源的传输。以TB甚至PB级的数据依赖Internet传输将耗费太长时间，数据容易丢失，必须以High- Performance Networks（如UltraScience Net、ESnet5/OSCARS等）为基础，以便顺利将数据传输集中于一个大的服务器集群进行信息整合与治理、大数据处理。
　　信息整合与治理则是在超级计算机或服务器集群中对传输来的各级各类档案数据进行数据质量治理并管理信息生命周期。通过聚类、相似性分析等分析档案数据间的有机联系。
　　大数据处理包含语境搜索、数据仓库、Hadoop系统。语境搜索指对档案信息进行索引与联邦搜索，在上一步信息整合基础上进一步实现上下文协作洞察。数据仓库是档案数据按照预定规则进行存储，进行先进的数据库内分析。Hadoop系统是一个分布式基础架构，实现一个分布式文件系统，适合超大数据集即大数据，可以经济高效方式分析PB级的结构化与非结构化信息。

　　可视化显示利用最佳的可视化组合，收集、提取并探索大数据的处理结果。
　　数据分析包括BI报告、预测分析、内容分析、辅助决策分析等。在国家级档案馆，内容分析是主要工作；在企事业单位，预测、BI、辅助决策更为有帮助。
　　将上面内容整合，可以得到图2所示的档案信息大数据平台框架。
　　3 大数据在档案信息化工作中应用的思考
　　3.1 可行性分析。尽管从理论上分析了档案信息大数据平台框架，但目前实施还是有相当的难度。实施大数据战略需要“数据到位+应用明确+手段成熟”的三位一体的战略。这三个条件缺一不可，也即大数据发展的关键要素一是要拥有足够多的大数据，二是要有迫切且明确的大数据研究需求推动，三是要有一定的技术积累和成熟度。
　　从这三个条件来看，档案部门准备得并不充分。档案馆具有足够多的数据，但这些数据大部分以传统介质存在，档案数字化并没有覆盖所有馆藏，电子文件管理刚开始走上正轨起步，大数据收集最重要，但这是一件长期且困难的事情。档案部门长期以来利用思想是提供原始信息的被动查询，还谈不上迫切且明确的大数据研究需求，即使在企事业单位，档案部门也很难做到主动提供服务，利用好大数据，依然需要敏锐的洞察和创新的思维，这是档案部门比较欠缺的。一定的技术积累与成熟度对于档案部门目前更是困难。
　　综合上述分析，大数据目前在我国档案部门开展有相当大的难度。如果依靠档案部门自己，目前几乎是不可行的。但并不表示面对大数据，档案部门无所作为，可以做好迎接大数据的准备工作，同时借助外力开展试点工作。
　　3.2 做好大数据应用准备
　　（1）转变服务观念。目前大多数档案部门依然是几十年前的服务观念：被动等待利用者。提供的服务主要还是档案信息内容。随着档案信息化工作的开展，档案目录、部分档案全文经数字化后上网供利用者浏览，这是主动服务思想的体现。一些档案部门也在尝试开展进一步的主动服务工作，如，北京房山区提出 “基于数据挖掘的档案信息资源深度开发与利用”等，尽管是传统的数据仓库应用，但服务的主动性已有了很大提升。
　　面对大数据，这种转变尚不够。大数据数据量大、查询分析复杂，更重要的是精准把握利用者的需求。然而利用者很多时候并不知道准确的需求，需要档案管理人员主动深入了解业务，明确需求，准备相应数据，尤其对企事业单位档案部门更应该如此。
　　（2）治理档案质量。治理档案质量，首先是数量。各级档案馆应继续大力开展档案数字化项目，尽可能将馆藏传统档案进行数字化，如果数字化率较低，数据肯定不全有遗漏；抓紧实施电子文件管理工程，进行电子文件收集管理与保存工作。
　　由于与载体的不可分离，同一份传统档案可能在多个全宗或立档单位都存在，在大数据处理前需要查重，以免增加超级计算机或服务器集群的负担。查重有两种方法，一是利用档案目录。各档案部门基本都已建设自己馆藏的档案条目，先把条目上传，根据条目比对档案的重复性，将结果反馈给相应档案部门。以一个档案部门为主进行数字化，其他部门或下载拷贝或通过链接关联相应档案。该方法条目上传到上一级档案部门（如省级档案馆甚至国家档案局），由上级档案部门统筹安排数字化。该方法优点是节省资源，有限的资源可以尽可能多地数字化，缺点是协调、统筹不容易。另一种方法则是各部门分别数字化自己的馆藏，将数字化结果全部上传到数据治理计算机，由数据治理计算机进行全文比对查重。该方法优点是比对准确，缺点是资源有所浪费，同时加重了数据治理服务器的负担。
　　（3）规划全国性或区域性的档案资源云服务。
　　大数据的基础是云计算，同时档案信息资源的整合也应该建立在云计算基础之上，可以考虑建设全国或区域性的公有云，实现全国或区域内档案条目的集中与共享，实现查重档案的存放与共享，甚至可以实现区域内所有电子文件、数字档案的存储，下级档案部门保留档案链接地址即可。这样的前提是访问公有云是高速网络。公有云下，区域内档案部门可以建设自己的私有云。档案云资源的建设使得大数据平台有了强有力的数据支撑。
　　（4）借助外力，试点开展大数据研究。本文以郑州市为案例，简要分析开展大数据的试点研究路径。郑州市新档案馆2011年建成，信息化建设较为完备，构建了涵盖郑州市下辖6区5县的档案信息整合平台。可以考虑以此为公有云基础，将6区5县档案馆藏目录及数字化成果纳入进来，对档案信息进行整合。郑州大学建设了高性能计算中心，包含90个瘦计算节点、10个胖计算节点，共2336个计算核心，理论峰值49.7万亿次，56GbIB计算网络，以此作为服务器集群硬件进行信息治理与大数据计算。河南教育网（Hernet）于2014年建设成10G光网络，郑州市新档案馆通过Hernet（河南教育网）将数据传输到郑州大学，依托郑州大学进行大数据试点处理。处理结果通过河南教育网传输到郑州市档案局，提请专家分析数据。假定要分析研究郑州市雾霾形成原因及变化，可采取以下大数据试点研究路径：6区5县的工业信息、汽车信息等理论上形成雾霾原因的相关信息—河南教育网—郑州市新馆信息平台—查重—河南教育网—郑州大学高性能计算中心—河南教育网—郑州市新馆服务器集群—专家分析—分析报告、辅助决策。这样一个过程还需要分析建模，并作更进一步的研究。