随着智能化高级分析成为数据驱动时代经济增长的主要驱动因素,企业更加关注数据相互之间的关系。企业决策层和数据科学界已经意识到,企业必须通过技术来管理和分析业务数据之间的关联关系。近年来引起全球业务关注的数据管理策略中也包括元数据管理,因为它可以管理数据的血缘和数据之间的关联。 一、概述 1 元数据管理:数据间关系的桥梁 元数据管理是策略,过程和系统的集合,这些策略,过程和系统用于管理描述数据的数据。元数据管理的主要目的是为了确保可以在整个组织中统一访问、共享、集成、分析或链接数据驱动的见解或业务信息。术语“元数据”定义为描述数据的数据。尽管我们通常是从定义了解元数据,但是元数据的功能不仅仅是描述数据。 简单来说,元数据可以告诉用户特定数据在何处以及如何查找。 元数据功能类似于老式图书馆图书卡目录,其中各个卡包含名称,标题,作者,ISBN等信息,最重要的是,能够找到该书在图书馆中的存放位置。 通过元数据可以知晓业务数据的5W(谁、什么、何时、何地、为什么以及如何),从而发现并建立数据与数据为中心的管理程序、资产和流程之间的内部联系。在数据仓库中,有一种类型的元数据称为“操作元数据”,数据仓库相关人员可以使用它来增强ETL流程。 2 元数据管理:管理描述数据的数据 在许多组织中数据的存储多种多样且复杂,例如新旧系统的并存、扩展的云存储、用于大数据的Hadoop集群以及外部数据。管理这些复杂的数据并不容易,数据管理员在管理和维护整个企业范围内如此庞大的数据存储库时,经常会面临严峻的挑战。 这些数据存储库都按照其自己的规则和程序运行,并且在一个位置进行的数据更改可能会影响许多流程中的数据。此外,这些数据在大型企业还承担提供实时洞察力以做出及时业务决策的重担。 面对数据驱动的时代,业务领导和经营部门必须依靠“元数据”来根据需要快速、准确地访问正确的数据。因此,由于高级分析在全球业务中的增长和渗透使数据管理成为一项核心竞争战略。 二、元数据管理中的数据治理 数据治理在元数据管理中的作用是提供组织数据的360度视图。作为数据治理在数据管理中要确保数据的透明 、数据的质量和风险属性。 当然,保持业务数据完整性和安全性的最高标准是对当前存储数据的保障。最后,为了保证业务环境的洞察力,被识别为数据所有者和数据管理员的个人要承担管理数据定义、数据质量标准和数据使用权的责任。 1 大数据环境中的元数据管理 众所周知,大数据将对企业带来巨大的价值,因为大数据可以提供复杂的预测或见解。管理这些神奇的预测或见解背后的数据是一项巨大的挑战,元数据为驱动预测或见解的有价值的数据提供了第一层保障。如果来自不同来源的数据定义都不匹配,则最终结果可能会与预期相去甚远。 随着大型组织不断将孤立的数据推入组织元数据领域,必须部署中央元数据管理流程来消除整个组织中不匹配的数据定义和分析参数。为了保持流程的进行,必须制定变更管理策略。强大的元数据管理流程可以缓解大数据带来的挑战 。 2 图像库中的元数据 扫描或数字创建的每个图像文件都包含一些存储在文件中的元数据。对于特定的图形文件管理标准(例如IPTC或PLUS),元数据信息必须进行填充。 当从图形应用程序中导出图像文件时,除非明确的程序选项覆盖了本机元数据信息,否则元数据通常会随文件一起保留。这样才能使用多种元数据查找图像。 三、元数据管理最佳实践 拥有一致、彻底的元数据让我们更容易在数据目录中查找数据集和资产! 元数据有四种常规类型: ■管理元数据,是最常见的,并在数据收集、生产、发布和归档中产生。大多数开放数据的元数据都在此类别中。 ■结构元数据,描述了数据集的结构,包括其格式、组织和变量定义。这是研究人员和学者的需求。 ■参考/描述性元数据,是广义术语,主要涉及方法、采样和质量的描述。 ■行为元数据,记录数据集用户的反应和行为,例如评分或用户分析。 1 元数据的一般架构 以下是标准的“开箱即用”元数据架构。管理员可以通过添加更多字段来自定义此架构,以更好地进行元数据管理。 注意:无法从架构中删除以下列出的字段。下面显示的唯一必填字段是“数据集标题”。 ■基本信息
■许可与归属
■语义与RDF 元数据的这一部分并不常用,但是数据集所有者有时会填充这些字段以进一步对其数据集进行分类。RDF代表“资源描述框架”。它是一种数据格式,用于通过所谓的图形数据库来指定关系。行类和主题列是该规范中使用的两个可选映射属性。 在导出文件之前,RDF信息不会在数据集中显示,并且通常留空。
■API端点
■缩略图片
■联系信息
下面是一个元数据架构示例 ,其中包含对大多数数据集可直接参考的字段。
定义元数据架构后,可以在企业数据门户中创建自定义元数据字段,以便数据集所有者和发布者在上载和管理其数据时输入正确的信息。 2 元数据标准 作为描述数据的约定的方法,使用元数据标准可以使您的数据集与其他数据集交互,并确保您拥有有关数据各部分的完整、标准的信息集。 都柏林核心元数据计划(DCMI)和国防部发现元数据标准(DDMS)是元数据标准的两个示例。 3 元数据格式 元数据的格式包括XHTML,XML,JSON和RDF。 (1)受控词汇 对于许多字段选择强制使用受控词汇表而不是自由定义。受控词汇有两个好处:1)通过确保一致的语言来帮助进行跟踪,搜索和摘要;2)它可以通过使数据提供者提供适当的元数据保障合规性。尽可能创建下拉列表或选择列表以帮助保持一致性。 (2)数据字典 除了有关整个数据集的信息外,数据字典是非常重要的补充,可帮助最终用户理解您提供的数据。数据字典为数据集中的每个字段提供了详细的描述和数据类型。此信息用于填充与数据集内联的元数据字段,并作为最终用户的其他文档提供。 数据字典的标准模板如下:
(3)类别和命名约定 为开放数据最终用户提供一致的搜索和导航。 (4)数据实践示例 以下是开放数据程序创建的元数据标准示例:
(4)元数据标准和指南
|
|