【摘 要】本文主要研究了国际上广泛使用的两大政务信息资源元数据标准体系:Dublin Core和GILS,从标准的内容、使用和发展方面进行了介绍,并对我国政务信息资源元数据标准的建立提出了建议。
【关键字】信息资源、政务信息资源、元数据、元数据标准
一、引言 信息资源指在国民经济和社会信息化过程中,有利用价值的、数字化、网络化的信息内容。政务信息资源是一个国家信息资源的主要组成部分,它是政府部门在履行管理国家行政事务职责的业务过程中和政务信息化过程中产生的、有利用价值的、数字化、网络化的信息内容。
元数据(Metadata)是关于数据的数据,它用来描述具体的资源对象,以便能对资源对象进行定位、检索和管理。元数据通过对信息资源对象进行结构化的描述,能够集成整合各类复杂繁多的信息,帮助最终用户理解信息的内容、质量等。在对海量信息进行组织、检索和发现方面,元数据起着十分重要的作用。
元数据标准是描述某类资源的具体对象时所有规则的集合,一般包括了完整描述一个具体对象时所需要的数据项集合、各数据项语义定义、著录规则和计算机应用时的语法规定等。信息资源对象可以按信息来源、信息内容、应用主体、传播载体等多个角度进行不同的分类,描述信息资源对象的元数据标准同样也可以分为不同的类别,如:描述网络资源的元数据标准;描述图书、文献、档案、馆藏等资源的元数据标准;描述空间地理信息的元数据标准;描述政务信息资源的元数据标准等等。
我国电子政务经过20多年的发展,特别是“金税”、“金盾”、“金农”等工程的实施,以及办公自动化等平台的建设,在各个行业管理领域内,已积累了大量可利用的政务信息资源,同时由于日常文件资料数字化、网络化日趋普遍,数字化信息占信息总量的比例也越来越高,信息资源的总量在急剧膨胀。为了能够对海量的政务信息资源进行快速地定位、发现和检索,政务信息资源元数据标准的研究势在必行。
虽然,我国近几年在元数据研究与应用方面取得了不少成果,但在政务信息资源元数据标准研究方面仍是空白。国外在元数据标准方面的研究工作开展较早,已制定了很多元数据标准并被广泛采用。通过研究国外政务信息资源元数据标准,能够吸收国际上好的经验,可为尽快形成我国政务信息资源元数据标准提供参考依据。
二、国外政务信息资源元数据标准体系 目前国外的电子政务元数据标准主要有两大体系,一是以都伯林核心DC(Dublin Core )为基础发展而来的元数据标准,另一个是以美国GILS(Government Information Locater Service)为基础的政府信息资源元数据标准。以下分别进行介绍。
1.DC元数据标准 DC元数据标准起源于1995年在美国Ohio州Dublin市召开的一次国际性元数据标准研讨会,最初由美国OCLC公司发起,目前由国际性合作项目DCMI(Dublin Core Metadata Initiative)进行研究设计,参与合作项目的机构共同维护修改,最新的版本为version 1.1。DC元数据标准的目标是提供一套最小集合的描述性元素以方便地描述和自动检索网络上的对象,既要适用于Internet上资源发现工具,也要充分地简单、能被人们易于理解和使用。
DC元数据标准包括:核心元素、限定元素、编码模式,以及DCMI类型词汇等四大部分的术语。其中,DC核心元素有15个,描述如表1:
术语名称 |
定义 |
题名(Title) |
赋予资源的名称。 |
创建者(Creator) |
创建资源内容的主要责任者 |
主题(subject and Keywords) |
资源内容的主题描述 |
描述(Description) |
资源内容的解释。 |
出版者(Publisher) |
使资源可获得的责任实体 |
其他责任者(Contributor) |
对资源内容做出贡献的其他实体。 |
日期(Date) |
与资源生命周期中一个事件相关的时间。 |
资源类型(Resource Type) |
资源内容的特征或类型 |
格式(format) |
资源的物理或数字表现形式 |
资源标识符(Resource Identifier) |
在特定的范围内给予资源的一个明确的标识 |
来源(Source) |
对当前资源来源的参照 |
语种(Language) |
描述资源知识内容的语种 |
关联(Relation) |
对相关资源的参照 |
覆盖范围(Coverage) |
资源内容所涉及的外延或范围 |
权限(rights) |
有关资源本身所有的或被赋予的权限信息 |
DCMI提供了11种编码体系,使得一些元数据元素的内容数据可以选自这些受控的词汇表,通过简单的术语控制、一致的词汇表,能够很显著地改善资源的搜寻结果。同时,DCMI类型词汇表对DC元素所支持的资源类型进行了描述,包括资源集合、数据集、事件、图像、交互资源、服务、软件、声音、文本、物理对象共十种资源对象类型。
一般地,DC标准采用的置标语言为XML,同时,为了资源的相互交互和操作的需要,DC采用W3C标准的RDF(Resource Description Framework)作为其抽象模型,提供了一个理解DC并与其他元数据标准之间进行互操作的基础。
DC元数据标准由于其元素结构简单、通俗易懂、可扩展性强,得到了广泛的应用。目前Internet上的网页,大多数都带有符合DC规范的描述,国际上已有德语、日语、葡语、西语等10余种不同语种的版本,是一个国际范围内通用的元数据标准。
英国、澳大利亚等国家的政务信息元数据标准都是基于DC元数据标准发展来的。其中最典型的是英国的电子政务元数据标准(e-GMS)。e-GMS定义了公共部门使用的管理元数据的结构和规则,它包括25个核心元素、几十个限定元素及其编码模式,这些元素包含可满足有效检索和管理官方信息的数据。它在Dublin核心标准的基础上添加了一些元素并进行了精简以满足公共部门的特殊需要,目前该标准的最新版本是V1.1。
3.GILS 政府信息定位服务GILS(Government Information Locater Service)最早起源于美国联邦政府1977年进行的一个实验项目,旨在使政府各机构部门以一套统一标准的信息项描述信息资源,建立各自的目录以供检索和获取。经过多年的发展,GILS成为一个分布式信息资源利用体系,即:各政府机构利用GILS规定的标准描述自己的信息资源,建立相应的资源目录和检索系统(GILS定位器或GILS服务器);如果信息资源本身是数字化资源,则在资源目录和实际资源间建立链接,公众可以通过互联网直接检索这些目录数据,并通过链接直接获得有关数字化资源。
GILS 体系的基本构建要素是对具体资源进行描述的元数据,它用来描述信息资源的内容、位置、服务方式、存取方法等,描述对象主要是来自政府的公用信息资源。GILS标准的核心元素有28个,见表2。
描述类型 |
名称 |
资源的拥有者及建置者 |
Originator(创作者) |
Author(作者) |
Access Constraints(取用限制) |
Use Constraints (使用限制) |
Point of Contact(接洽点) |
资源的内容 |
Title(题名) |
Language of Resource (资源语种) |
Abstract(摘要) |
Controlled Subject Index(控制词录) |
Subject Terms Uncontrolled(未控制主题词) |
Spatial Domain(空间域) |
Source of Data(数据来源) |
Methodology(方法论) |
Supplemental Information(补充信息) |
Purpose(目的) |
Agency Program(代理计划) |
Cross Reference(相互参照) |
Language of Record(记录语种) |
资源的表示方式 |
Date of Publication (出版日期) |
Place of Publication(出版地) |
Time Period(时间) |
Availability (可获性) |
管理信息 |
Schedule Number(目录号) |
Control Identifier(控制号) |
Original Control Identifier(原始控制号) |
Record Source(记录来源) |
Date of Last Modification (最后修正日期) |
Record Review Date(记录审核日期) |
GILS应用框架描述了GILS应用的领域范围、GILS核心元素、GILS数据的传输格式以及用于资源检索的协议和方法。GILS 主要使用ANSI/NISO 标准Z39.50协议进行信息资源检索,它在实际传送记录时支持多种数据传输格式,如机读目录格式USMARC(Machine-Readable Cataloging)、通用记录语法GRS(Generic Record Syntax),以及简单无格式文本记录语法SUTRS(Simple Unstructured Text Record Syntax)等等。
以GILS标准发展信息定位服务的国家较多,包括美国、加拿大、日本、俄罗斯等,它不仅是一个元数据标准,也是一种依据国际标准建立、可跨机构查询政府信息的信息检索系统,更是一种服务形式。
三、我国电子政务信息资源元数据标准初探 通过对国内外部分元数据标准和资料的研究,以及前期项目工作的成果,我们认为,我国政务信息资源元数据标准应该主要考虑以下内容:
1.标准参考依据 我国政务信息资源的特点是数量巨大、分布广泛、内容形式复杂多变,因此,制定政务信息资源的元数据标准时,应该选择元素尽量简单、可扩展性强、应用广泛和便于检索的元数据标准体系。
Dublin Core元数据标准中,由于DC元素简单易用,加之OCLC的大力推广和网络资源著录的巨大需求,DC获得了广泛地应用,如英国、澳大利亚等国家的政务信息元数据标准都是基于DC元数据标准发展来的。因此,可以考虑将DC作为我国政务信息资源元数据标准的主要参考依据。
2.元数据架构 根据元数据元素用于描述资源特性时的适用范围,通常将元数据分为两个层次:核心元数据,适合于描述所有的资源对象;特定元数据,对特定资源对象专有特性的描述。我国政务信息资源内容形式复杂多样,涉及到档案文献、数据库系统、空间地理数据、Internet网页等等,每一种特定资源对象在国内外各行业领域内都有很多的特定元数据标准。因此,我国政务信息资源元数据标准应该着眼于核心元数据标准,以适应描述所有类型的资源对象,同时为不同特定元数据标准的互操作提供基础。
在我国政务信息资源元数据标准中,元数据元素按作用分为三类:
l 描述性元数据。主要包括标识资源对象、描述资源内容和特征的信息,目的是便于识别资源对象,例如,编码、名称、主题、类型等。 l 管理型元数据。主要包括资源生命周期的管理,存取的权限等信息,目的是便于管理资源对象,例如,出版时间、数据志、存取权限等。 l 应用型元数据。主要以使用和开发资源对象为目的,包括资源对象的链接、存储形态等。
3.元数据标准中的分类体系 分类体系指把具有某种共同属性或特征的信息归并在一起,通过其类别的属性或特征来对信息进行区别。建立政务信息资源分类体系,有利于具体实现政务信息资源的采集、管理、服务、共享等;有利于加强政务信息资源的保护和开发利用。我国政务信息资源元数据元素内容中引入分类体系描述,能够很显著地改善政务信息资源的搜寻结果。 政务信息资源分类体系可以综合使用多种分类体系,如:
l 主题分类体系,按照政务信息资源描述的内容对资源进行分类; l 行业分类体系,根据政务信息资源的行业领域信息范畴进行分类; l 资源对象表现形态分类体系,按照政务信息资源在计算机网络上的不同的表现形态进行分类。等等。
4.元数据标准技术实现 建议采用XML作为我国政务信息资源元数据的描述语言,元数据检索协议可以采用Z39.50和OAI-PMH等国内外应用广泛的协议。元数据的存储主要选择以下两种方式:
l 以XML语言描述的文件方式进行存储,每个资源对象对应一个描述文件,这是最常用的方式。 l 以关系型表格进行描述,并保存在关系型数据库中。
四、结束语 我国在政务信息资源领域还没有相应的元数据标准,这对政务信息资源的统一管理,广泛共享,和进一步开发利用极其不利,也与当前国民经济发展不相适应。因此,需要尽快制定我国政务信息资源元数据标准。
我们应该深入研究国际上广泛应用的适合政务信息资源的元数据标准,学习和研究在政务信息资源开发方面较先进国家的元数据标准及其应用,借鉴他人长处,能够避免或少走弯路。同时,参考和利用现有的相关国家标准,例如,已有的行政区划代码、国民经济行业分类与代码等,最终形成一套适合我国政务信息资源采集、注册、查询和信息共享所急需的政务信息资源核心元数据标准。
|