分享

揭秘元数据管理

 数据治理精英馆 2021-12-24

随着智能化高级分析成为数据驱动时代经济增长的主要驱动因素,企业更加关注数据相互之间的关系。企业决策层和数据科学界已经意识到,企业必须通过技术来管理和分析业务数据之间的关联关系。近年来引起全球业务关注的数据管理策略中也包括元数据管理,因为它可以管理数据的血缘和数据之间的关联。

一、概述

1 元数据管理:数据间关系的桥梁

元数据管理是策略,过程和系统的集合,这些策略,过程和系统用于管理描述数据的数据。元数据管理的主要目的是为了确保可以在整个组织中统一访问、共享、集成、分析或链接数据驱动的见解或业务信息。术语“元数据”定义为描述数据的数据。尽管我们通常是从定义了解元数据,但是元数据的功能不仅仅是描述数据。

简单来说,元数据可以告诉用户特定数据在何处以及如何查找。 元数据功能类似于老式图书馆图书卡目录,其中各个卡包含名称,标题,作者,ISBN等信息,最重要的是,能够找到该书在图书馆中的存放位置。

通过元数据可以知晓业务数据的5W(谁、什么、何时、何地、为什么以及如何),从而发现并建立数据与数据为中心的管理程序、资产和流程之间的内部联系。在数据仓库中,有一种类型的元数据称为“操作元数据”,数据仓库相关人员可以使用它来增强ETL流程。

2 元数据管理:管理描述数据的数据         

在许多组织中数据的存储多种多样且复杂,例如新旧系统的并存、扩展的云存储、用于大数据的Hadoop集群以及外部数据。管理这些复杂的数据并不容易,数据管理员在管理和维护整个企业范围内如此庞大的数据存储库时,经常会面临严峻的挑战。

这些数据存储库都按照其自己的规则和程序运行,并且在一个位置进行的数据更改可能会影响许多流程中的数据。此外,这些数据在大型企业还承担提供实时洞察力以做出及时业务决策的重担。

面对数据驱动的时代,业务领导和经营部门必须依靠“元数据”来根据需要快速、准确地访问正确的数据。因此,由于高级分析在全球业务中的增长和渗透使数据管理成为一项核心竞争战略。

二、元数据管理中的数据治理

数据治理在元数据管理中的作用是提供组织数据的360度视图。作为数据治理在数据管理中要确保数据的透明 、数据的质量和风险属性。

当然,保持业务数据完整性和安全性的最高标准是对当前存储数据的保障。最后,为了保证业务环境的洞察力,被识别为数据所有者和数据管理员的个人要承担管理数据定义、数据质量标准和数据使用权的责任。

1 大数据环境中的元数据管理

众所周知,大数据将对企业带来巨大的价值,因为大数据可以提供复杂的预测或见解。管理这些神奇的预测或见解背后的数据是一项巨大的挑战,元数据为驱动预测或见解的有价值的数据提供了第一层保障。如果来自不同来源的数据定义都不匹配,则最终结果可能会与预期相去甚远。

随着大型组织不断将孤立的数据推入组织元数据领域,必须部署中央元数据管理流程来消除整个组织中不匹配的数据定义和分析参数。为了保持流程的进行,必须制定变更管理策略。强大的元数据管理流程可以缓解大数据带来的挑战 。

2 图像库中的元数据

扫描或数字创建的每个图像文件都包含一些存储在文件中的元数据。对于特定的图形文件管理标准(例如IPTC或PLUS),元数据信息必须进行填充。

当从图形应用程序中导出图像文件时,除非明确的程序选项覆盖了本机元数据信息,否则元数据通常会随文件一起保留。这样才能使用多种元数据查找图像。

三、元数据管理最佳实践

拥有一致、彻底的元数据让我们更容易在数据目录中查找数据集和资产!

元数据有四种常规类型:

■管理元数据,是最常见的,并在数据收集、生产、发布和归档中产生。大多数开放数据的元数据都在此类别中。

■结构元数据,描述了数据集的结构,包括其格式、组织和变量定义。这是研究人员和学者的需求。

■参考/描述性元数据,是广义术语,主要涉及方法、采样和质量的描述。

■行为元数据,记录数据集用户的反应和行为,例如评分或用户分析。 

1 元数据的一般架构

以下是标准的“开箱即用”元数据架构。管理员可以通过添加更多字段来自定义此架构,以更好地进行元数据管理。

注意:无法从架构中删除以下列出的字段。下面显示的唯一必填字段是“数据集标题”。 

■基本信息

  • 数据集标题

  • 简要描述

  • 类别 

  • 标签/关键字:输入一个或多个用逗号分隔的关键字

  • 行标签:描述数据集中的每一行代表什么

■许可与归属

  • 许可类型:为希望使用此数据集的人选择许可条款

  • 资料提供者

  • 源链接

■语义与RDF

元数据的这一部分并不常用,但是数据集所有者有时会填充这些字段以进一步对其数据集进行分类。RDF代表“资源描述框架”。它是一种数据格式,用于通过所谓的图形数据库来指定关系。行类和主题列是该规范中使用的两个可选映射属性。

在导出文件之前,RDF信息不会在数据集中显示,并且通常留空。

  • 行类

  • 主题栏

■API端点

  • 资源名称

  • 行标识符

■缩略图片

  • 上传图片

■联系信息

  • 联系人电子邮件:该地址不会公开显示,但是通过“联系人数据集所有者”按钮提交的查询将被路由到该电子邮件。如果保留为空白,则默认为数据集所有者的电子邮件地址

下面是一个元数据架构示例 ,其中包含对大多数数据集可直接参考的字段。

内容

描述

定义

值示例

标题

标题可帮助用户发现,选择和区分相似的数据集。

易于理解的资产名称。应该易于理解,并包含足够的详细信息以方便搜索和发现。避免使用缩写词。

具有字符数限制的文本。

描述

描述可帮助用户发现,选择和区分相似的数据集。

描述数据集。提供对非技术用户易于理解的数据的较长描述。

具有字符数限制的文本。

类别

类别将相似的数据集分组在一起,而不管其来源如何,并且可用于定位相似的数据集。

由可自定义值的列表标识。如果数据集分为多个类别,请选择最重要的一个。此列表将不断更改。

下拉式菜单。预定义的类别。

负责部门

负责机构/部门有助于导航并确保有一个负责任的一方。

由可自定义值的列表标识。收集和管理数据的机构/部门作为规范来源。

下拉式菜单。预定义首字母缩写词的机构/部门列表。

数据字典

数据字典对于理解如何使用数据至关重要。它可以描述字段,字段之间的差异,并评估数据是否适合预期用途。数据字典可以.csv和.pdf格式发布。

解释数据集中的字段(定义,类型,大小以及描述数据集的任何其他相关信息)。

附件为.csv格式和.pdf形式。

最近更新时间

最近更新表明数据的新近度。帮助用户确定数据的使用情况。

由可自定义值的列表标识。更改,更新或修改数据集的最新日期和时间。

考虑使用ISO 8601:YYYY-MM-DDThh:mm:ss.s(与数据集相关),或者为了反映持续更新,ISO制定了持续时间标准,例如每天P1D和每两周P2W。

数据变更频率 

频率-数据更改与发布频率一起工作,有助于设定对未来更新的期望并有助于计划。

由可自定义值的列表标识。数据集更改的节奏。

不更新(仅历史),
每年,每
季度,每
两月,
每月,
每两周,
每周,
每天,
每小时,
连续

发布频率

频率-发布与数据更改频率一起工作,有助于设定对未来更新的期望并有助于计划。

由可自定义值的列表标识。数据集的发布频率。

不更新(仅历史),
每年,每
季度,每
两月,
每月,
每两周,
每周,
每天,
每小时,
连续

独特的身份

数据集管理需要唯一标识符。

代理商目录或数据库中维护的数据集或API的唯一标识符。

由元数据系统自动生成。

固定链接/标识符

永久链接有助于提供访问数据集的连续性。

永久链接到数据集

由元数据系统自动生成。

公共访问级别

虽然平台上的大多数数据将是公共的,但“公共访问级别”使我们可以跟踪受保护的数据或敏感数据,并为内部用户提供一种发现和访问非公共数据的方法。

由可自定义值的列表标识。不管是否已可用,该数据集可以公开可用的程度。

使用“公共”,“受限公共”,“非公共”。考虑使用以下数据清单/目录:
受保护的
敏感
公众

公共访问级别评论

如果数据不是公开的,请考虑提供说明和方法,供人们在符合条件的情况下访问它。

对所选“访问级别l”的说明,包括有关如何访问受限制文件的说明(如果适用),或者对“非公共”或“受限制的公共”数据资产为何不属于“公共”的说明(如果适用)。

具有字符数限制的文本。

许可/权利

许可证减少了数据使用者或用户的法律不确定性。

发布数据集或API的许可证。

当前提供的许可证列表可在此处找到。

数据管理员

考虑为每个数据集包括一个数据管理员,以支持数据协调员并回答数据集问题。这有助于跟踪和分类数据请求。

管理数据并负责对数据进行更改的人员。人员了解数据集包含的内容,并可以回答有关它的问题。

字符串(第一个倒数)。

联系电子邮件

考虑在每个数据集上包括公开可见的联系人电子邮件,用户可以使用它来提问。

管理数据并负责对数据进行更改的人员。人员了解数据集包含的内容,并可以回答有关它的问题。

字符串(电子邮件地址)。

行数

行数是数据集大小的有用指标。

由元数据系统自动生成。

API端点

API端点有助于以编程方式访问数据。

Web服务访问数据集的端点。

由元数据系统自动生成。

地理单位

地理单位表示收集数据集的地理级别;还有助于跟踪汇总或汇总数据的需求。

由可自定义值的列表标识。数据以什么地理单位收集?例如,如果数据是按地址收集的,则应为“街道地址”。

考虑使用下拉菜单-项目:
纬度/经度,
街道地址,
人口普查区,
人口普查区组,
人口普查区,
规划区,
监管区,
邮政编码,
城市,
其他

时间覆盖

时间覆盖提供了一种确定数据集值的简便方法。

数据集的时间适用性范围(即,数据适用性的开始和结束日期)。

考虑使用ISO8601。ISO有一些选项可以阐明数据集在特定日期范围内会不断更新。

下载网址

下载URL提供对数据的访问,以达到打开数据的目的。

URL提供对数据集可下载分布的直接访问。

网址

标签

标签可将技术语言,次要类别和首字母缩略词链接到您的数据集,以帮助用户执行搜索。

标签(或关键字)可帮助用户发现您的数据集。包括可以由技术和非技术用户使用的术语。

关键字(例如:金融,公园,环境)。

链接

链接可以提供有关数据集来源的更多信息。并非所有数据集都将具有此信息。

程序区域网页的URL。

网址

相关文件

链接相关文档可提供包含表格或其他类型文档的机会,以帮助用户理解数据。并非所有数据集都将具有此信息。

相关文档,例如有关数据集的技术信息,开发人员文档等。

网址

定义元数据架构后,可以在企业数据门户中创建自定义元数据字段,以便数据集所有者和发布者在上载和管理其数据时输入正确的信息。

2 元数据标准

作为描述数据的约定的方法,使用元数据标准可以使您的数据集与其他数据集交互,并确保您拥有有关数据各部分的完整、标准的信息集。 都柏林核心元数据计划(DCMI)和国防部发现元数据标准(DDMS)是元数据标准的两个示例

3 元数据格式

元数据的格式包括XHTML,XML,JSON和RDF。

(1)受控词汇

对于许多字段选择强制使用受控词汇表而不是自由定义。受控词汇有两个好处:1)通过确保一致的语言来帮助进行跟踪,搜索和摘要;2)它可以通过使数据提供者提供适当的元数据保障合规性。尽可能创建下拉列表或选择列表以帮助保持一致性。

(2)数据字典

除了有关整个数据集的信息外,数据字典是非常重要的补充,可帮助最终用户理解您提供的数据。数据字典为数据集中的每个字段提供了详细的描述和数据类型。此信息用于填充与数据集内联的元数据字段,并作为最终用户的其他文档提供。

数据字典的标准模板如下:

栏位名称

栏位类型

栏位说明

(3)类别和命名约定

为开放数据最终用户提供一致的搜索和导航。

(4)数据实践示例

以下是开放数据程序创建的元数据标准示例: 

  • 芝加哥市数据字典

  • 旧金山元数据标准

  • 纽约州元数据

  • 费城市元数据目录

(4)元数据标准和指南

  • 美国国家标准协会:了解元数据

  • 国家档案局(National Archives and Records Administration):最少的元数据元素和术语

  • 国家档案局(National Archives and Records Administration):永久性电子记录转移的元数据指南

  • 项目开放数据元数据架构

  • 开放数据-元数据指南:约翰·霍普金斯政府卓越中心

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多