配色: 字号:
RMSCloud与科技文献云服务
2013-08-06 | 阅:  转:  |  分享 
  
RMSCloud与科技文献云服务

吴广印

(中国科学技术信息研究所,北京100038)





【摘要】本文对主要对云计算相关功能定义进行了研究和分析,同时针对科技文献的云服务需求结合云计算的相关应用,介绍了RMSCloud的相关核心技术及特点。最后介绍了基于RMSCloud的科技文献云服务应用的集成系统架构。

【关键词】RMSCloud;云计算;云服务;科技文献服务;云服务集成;



【中图分类号RMSCloudandscientificdocumentservicecloud

WuGuangyin



(InstituteofScienceandTechnologyInformationResearchofChina,

Beijing100038)



Abstract:Inthispaper,themaindefinitionofcloudcomputingrelatedfunctionhascarriedontheresearchandanalysis,atthesametimecloudservicedemandofthescientificdocuments,combinedwiththerelatedapplicationofcloudcomputing,thispaperintroducestheRMSCloudrelatedcoretechnologiesandfeatures.FinallyintroducedtheRMSCloudbasedintegrationofscientificandtechnologicaldocumentscloudserviceapplicationsystemarchitecture

Keywords:RMSCloud;cloudcomputing;cloudservices;scienceandtechnologydocumentservice;cloudserviceintegration;

1.前言



2006年谷歌推出了“Google101计划”,并正式提出“云”的概念和理论。随后亚马逊、微软、惠普、雅虎、英特尔、IBM等公司都宣布了自己的“云计划”传统模式下,建立一套系统不仅需要,需要专门的维护。当的规模扩大时还要升级各软硬件设施以满足需要。对于来说,计算机等硬件并非他们真正需要的,它们仅仅是的工具而已。有这样的服务,能够?这样只需要,为节省许多购买软硬件的资金。

云计算的最终目标是将计算、服务和应用作为一种公共设施提供给公众,使能够像使用水、电、煤气和电话那样使用计算资源。

在云计算环境下,用户的使用观念也会发生彻底的变化:从“购买”到“购买服务”转变,因为他们直接面对的将不再是复杂的硬件和软件,而是最终的服务。用户不需要拥有看得见、摸得着的硬件设施,也不需要为机房支付设备供电、空调制冷、专人维护等等费用,不需要等待漫长的供货周期、项目实施等冗长的时间,只需要云计算服务提供商,得到需要的服务。

2.云计算正在迅速发展



2.1云计算的定义



美国国家标准与技术研究所(NIST)云计算的定义无处不在的,方便的,按网络访问配置的计算资源共享池(例如,网络,服务器,存储,应用程序,和服务),可以。”

NIST的定义五个特征,三服务模式,和四。特征:

(按需自助服务(On-demandself-service.)。可以单方面提供的计算能力,如服务器和网络存储,。

(宽带网络接入Broadnetworkaccess)。例如,移动电话,笔记本电脑,平板电脑,和工作站可以通过网络。

(资源池Resourcepooling)。供应商计算资源汇集服务于多个用户,物理和虚拟资源动态分配和重新分配。(例如,国家,数据中心)。这包括存储,处理,,网络带宽。(快速弹性Rapidelasticity)。能力,在某些情况下。对而言,可提供的资源能力。

(服务Measuredservice)。云系统自动控制和某种程度的抽象,(例如,存储,处理,带宽,的用户)。资源的使用情况进行监测控制和报告,为服务提供商和应用服务的提供透明。

服务:

(软件即服务(SoftwareasaService,简称SaaS)有时被作为“即需即用软件”(on-demandsoftware,即“一经要求,即可使用”)提及。它是一种软件交付模式(deliverymodel),在这种交付模式中,软件及其相关的数据被在云端集中式地托管(hosted)。用户通常使用瘦客户端(thinclient),通过一个浏览器来访问软件即服务。

(平台即服务(PlatformasaService,简称PaaS)是一种云计算服务,提供运算平台与解决方案堆栈即服务。在云计算的典型层级中,平台即服务层介于软件即服务与基础设施即服务之间。平台即服务提供用户能将云基础设施部署与创建至客户端,或者借此获得使用编程语言、程序库与服务。用户不需要管理与控制云基础设施,包含网络、服务器、操作系统或存储,但需要控制上层的应用程序部署与应用代管的环境。PaaS将软件研发的平台做为一种服务,以软件即服务(SaaS)的模式交付给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。平台即服务(PaaS)这是在软件即服务(SoftwareasaService,简称SaaS)之后兴起的一种新的软件服务模式或者架构。是应用服务提供商(theApplicationServiceProvider,简称ASP)的进一步发展。比如:省市科技信息服务部门使用“中国学术搜索云服务平台”时,需要配置自己需要服务资源和用户管理。

(

四类部署形式



(私有云(Privatecloud)。是为户单独构建的,提供对数据、安全性和服务质量的最有效控制。拥有基础设施,并可以控制在此基础设施上部署应用。私有云可部署在数据中心的防火墙内,也可以将它们部署在一个安全的主机托管场所。(社区云(Communitycloud)。是指在一定的地域范围内,由云计算服务提供商统一提供计算资源、网络资源、软件和服务能力所形成的云计算形式。即基于社区内的网络互连优势和技术易于整合等特点,通过对区域内各种计算能力进行统一服务形式的整合,结合社区内的用户需求共性,实现面向区域用户需求的云计算服务模式(公有云(Publiccloud.)。公有云通常指第三方提供商用户能够使使用的云,公有云一般可通过Internet使用,可能是免费或成本低廉的。这种云有许多实例,可在当今整个开放的公有网络中提供服务。其最大意义是能够以低廉的价格,提供有吸引力的服务给最终用户,创造新的业务价值,公有云作为一个支撑平台,还能够整合上游的服务(如增值业务,广告)提供者和下游最终用户,打造新的价值链和生态系统(混合云(Hybridcloud)。混合云,是目标架构中共有云、私有云和/或者公众云的结合。由于安全和控制原因,并非所有的企业信息都能放置在公有云上,这样大部分已经应用云计算的企业将会使用混合云模式。很多将选择同时使用公有云和私有云,有一些也会同时建立公众云。因为公有云只会向你使用的资源收费,所以集中云将会变成处理需求高峰的一个非常便宜的方式。比如对一些零售商来说,他们的操作需求会随着假日的到来而剧增,或者是有些业务会有季节性的上扬。同时混合云也为其他目的的弹性需求提供了一个很好的基础,比如,灾难恢复。这意味着私有云把共有云作为灾难转移的平台,并在需要的时候去使用它。这是一个极具成本效应的理念。云计算的核心技术云计算系统运用了许多技术,其中以编程模型、数据管理技术、数据存储技术、虚拟化技术、云计算平台管理技术最为关键。

(编程模型

MapReduce【3】是Google开发的java、Python、C++编程模型,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算。编程模型使云计算环境下的编程十分简单。MapReduce模式的思想是将要执行的问题分解成Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的效果,再通过Reduce程序将结果汇整输出。

(海量数据分布存储技术

云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性。云计算系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。GFS即Google文件系统(GoogleFileSystem),是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。

一个GFS集群由一个主服务器(master)和大量的块服务器(chunkserver)构成,并被许多客户(Client)访问。主服务器存储文件系统所以的元数据,包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它也控制系统范围的活动,如块租约(lease)管理,块的收集,块服务器间的块迁移。主服务器定期通过HeartBeat消息与每一个块服务器通信,给块服务器传递指令并收集它的状态。GFS中的文件被切分为64MB的块并以冗余存储,每份数据在系统中保存3个以上备份。

客户与主服务器的交换只限于对元数据的操作,所有数据方面的通信都直接和块服务器联系,这大大提高了系统的效率,防止主服务器负载过重。

(海量数据管理技术

云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。云计算系统中的数据管理技术主要是Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理模块HBase。BT是建立在GFS,Scheduler,LockService和MapReduce之上的一个大型的分布式数据库,与传统的关系数据库不同,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据。

Google的很多项目使用BT来存储数据,包括网页查询,Googleearth和Google金融。这些应用程序对BT的要求各不相同:数据大小(从URL到网页到卫星图象)不同,反应速度不同(从后端的大批处理到实时数据服务)。对于不同的要求,BT都成功的提供了灵活高效的服务。

(虚拟化技术

通过虚拟化技术可实现软件应用与底层硬件相隔离,它包括将单个资源划分成多个虚拟资源的裂分模式,也包括将多个资源整合成一个虚拟资源的聚合模式。虚拟化技术根据对象可分成存储虚拟化、计算虚拟化、网络虚拟化等,计算虚拟化又分为系统级虚拟化、应用级虚拟化和桌面虚拟化。

(云计算平台管理技术

云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。云计算系统的平台管理技术能够使大量的服务器协同工作,方便的进行业务部署和开通,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运营。

(RMSCloud云搜索引擎基于RMS系统的变长数据存储管理、多样化索引控制技术、中文智能分词技术,实现对于中文科技文献文本信息的快速准确分词,采用独特B树文件索引算法,进行索引构建索引文件,利用多项检索优化算法实现了基于复杂布尔表达技术的全文检索。其先进索引技术,可以检索词的快速定位,检索速度几乎不受索引文件大小的限制,为海量科技文献信息的学术搜索提供了全文索引和检索技术支持,通过跨语言自动翻译和此表扩展技术,确保实现系统的查全、查准率。

(RMSCloud云搜索引擎同时采用云计算架构和并行计算技术,通过索引分片,减少单索引数据量,提高索引检索速度;通过索引副本,实现全文索引在集群多节点之间的分布,实现多节点并行计算;通过无主从集群节点通信,实现节点数据同步,为集群节点可靠并行计算与云搜索服务提供保障。

RMSCLoud云搜索引擎核心搜索服务技术框架如下图所示:



图2RMSCLoud云搜索引擎核心搜索服务技术框架

(RMSCloud云搜索引擎分层结构及模块组成主要包括API接口、传输协议支撑、JavaNetty框架、监控、RMS中文智能分词、第三方插件支持、云集群通信、脚本解析引擎、RMS全文索引、RMS全文检索、索引映射配置、数据源、分布式RMS索引目录支持、文件系统持久化网关等模块。

(RMSCloud云搜索引擎在研制和构建过程中,应用了大量的云计算技术,实现集群与并行计算支持,满足大数据量科技文献学术搜索与知识挖掘分析需求。

①集群与分布式并行计算

RMSCloud云搜索引擎支持分布式并行计算技术,主要依赖于以下途径实现:

集群集群中有多个节点,其中有一个为主节点,这个主节点可以通过选举产生的,主从节点是对于集群内部来说的。对于集群外部来说就是去中心化从外部来看集群,在逻辑上是个整体,与任何一个节点的通信和与整个集群通信是等价的

索引分片可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。

索引副本可以设置多个索引的副本,副本的作用一是提高系统的容错性,当个某个节点某个分片损坏或丢失时可以从副本中恢复二是提高效率,自动对搜索请求进行负载均衡。②自动化维护与管理

RMSCloud云搜索引擎基于分布式计算模式,支持节点自动发现、节点扩展,数据自动重新分布、索引自动持久化存储等能力,可以实现对于云计算集群的自动维护管理功能。主要表现在:

自动节点发现一个p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。数据重新分布在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。数据源同步。索引持久化存储默认是先把索引存放到内存中,当内存满了时再持久化到硬盘。当这个集群关闭再重新启动时就会从中读取索引数据。支持多种类型的,有本地文件系统,,Hadoop的HDFS和mazon的s3云存储服务。①词表与中文智能分词技术的大量应用

RMSCloud在数据索引,用户检索需求处理等方面大量应用了词表和中文智能分词技术,中文分词技术的好坏直接影响系统的“查全/查准率”,主要包括:

万方科技文献主题词库:用于文献分词与索引构建,检索语句的分词与扩展检索、相关检索词提示等。这些主题词来源于万方数据期刊、学位论文等数据库中的作者形成的主题词项,通过二次规范加工建立。

汉语叙词表:用于对于检索关键词基于词间关系,包括上位词、下位词、相关词、代用词等主题词本体扩展与相关检索、相似词推荐。该词表以中国科学技术信息研究所建立的“工程词表”为基础,主要用于科技文献检索的后空扩展检索,在“中国学术搜索网”中得到应用。

中英文主题词对照表:用于中英文词的对照翻译与中英文混合检索扩展;

专家库:通过对万方的科技文献仓储进行数据挖掘,形成了600多万的科技专家数据库,通过人工辅助规范形成,用于对专家的同名识别和专家知识仓储库管理;

多层级机构库:通过对万方的科技文献仓储进行数据提取,然后利用万方软件自行研发的机构名称规范辅助工具进行处理,人工校对生成。主要用于对于机构名称的标引规范,和机构名称的归一化检索,提高机构名称的“查全/查准率”。在机构创新能力评价中意义更为重要。

②深度数据加工标引与多维度的聚类和知识挖掘分析支持

除RMSCloud相关核心技术研发之外,同时是对科技文献的加工处理提出了较高的要求。对于中外文科技文献仓储知识库建设,制定了元数据加工标引、质量检查等一系列标准规范,提升数据加工标引的质量;同时,对于科技文献元数据,严格按照学科、主题、人物、机构、基金等“知识获取五要素”进行深度标引,为围绕五要素的检索、导航、多维度聚类和知识挖掘分析提供了基础。

③相关度计算排序与相似结果推荐

RMSCloud可以根据用户检索关键词进行自动识别,判断用户检索人物、机构、期刊、主题等检索意图,同时可提供按照检索词的相关度排序和相似结果推荐。基于云计算架构的学术搜索引擎通过对于数据库、字段及索引定义权重分值多字段过滤与排序

图3基于“云服务”的国家科技文献服务平台总体架构图



如上图所示,是我们在多年研究开发基础上设计提出的基于“云服务”的科技文献服务系统总体架构图。下面将对这一系统架构做详细功能解释说明。

万方科技文献仓储云服务中心:该中心是本系统架构的核心,它包括规范化的元数据仓储中心、相关知识库中心和管理这些数据的基于WebService架构的资源管理与服务系统【8】RMS,RMSCloud为底层云学术搜索引擎。其中:科技文献仓储云服务中心包括中外文期刊、会议、学位论文、专利、标准、法律法规、科技成果、科技人物、机构等以事实数据为基础的元数据仓储,该仓储中心的数据规范原则,以本人提出的“知识获取五要素”为指导思想。该数据仓储数据规范的主要工作目标是解决科技信息服务中的人物重名和机构名称变迁、机构合并等引起的“查全/查准”问题。目前该仓储的元数据记录数达6亿规模,几乎涵盖所有科技文献所涉及的中外文元数据记录。

知识库中心:包括知识获取五要素中涉及的学科、人物、主题、机构、基金等相关知识库,其中包括420多万的主题知识库和1200万作者相关的知识库,其中作者的科研合作网络和学术网络知识库是通过数据挖掘及其相关技术由计算机自动生成的,对外提供服务接口。

云学术搜索引擎RMSCloud:在元数据服务中心中RMSCloud负责元数据的接收、存储、索引、并提供标准的云搜索服务。以RMSCloud为基础的云服务示范系统“中国学术搜索网”已经正式投入服务(HTTP://www.sciinfo.cn)。

在本架构中,万方科技文献仓储云服务中心属于公共云服务中心范畴,它除了管理万方软件自己的仓储数据外,还可以为用户提供可以共享服务的数据服务。目前该中心支持15种标准格式的元数据交换,涵盖期刊、会议、图书、方志、报告、视频等科技文献数据。同时该服务中心属于本架构方案中的最底层,除了网络和系统上的安全措施外,对存储在中心的所有数据均采用了高强度的128位加密算法进行磁盘级保护。目前该服务中心已正式对图书、情报等信息服务部门提供服务,用户通过接口直接调用本中心(中间经过云调度中心的认证和管理)提供的80多种服务。该中心提供的服务包括数据库管理、检索、数据交换、自动标引与分类、基于“知识获取五要素”的导航服务、聚类统计分析等。另外云服务中心的硬件设备也可根据用户规模、资源规模进行快速扩展部署。

地方私有云服务中心:公共云服务模式客观存在潜在的用户关键数据的安全风险(起码从技术上是这样的),用户的关键数据放在公共云服务中心,虽然节省投资,提高了效率,但毕竟放在别人那里。因此我们在总体架构里面提供了对私有云服务中心的支持,私有云服务中心可提供和公共云服务中心一样的功能。不同之处该中心还支持对其它关系数据库的管理,这样也可以方便将原有老架构的系统纳入新的云服务管理架构继续使用。私有云服务中心主要用来管理用户的本地关键数据,规避云服务潜在的安全问题,另外由于私有云中心提供的各类服务相对公有云服务要简单的多,可采用集中式搜索引擎RMS系统为搜索引擎。

区域性公有云服务中心:目前,部分省市信息服务机构已经开始建设区域性重点行业科技创新服务系统,这类系统不同于现有的文献服务系统,主要表现如下特征:

区域性:是为对本地区重点产业的关键业务提供支撑;

内容涵盖面广:不仅仅是科技文献服务,还包括基于互联网信息产业动态、研究报告、政策法规、专家互动、竞争情报、成果转化与服务等一系列产业信息服务。

交叉性:虽然产业服务是某个省市是根据自己区域业务需求提出的,但在全国范围内和部分区域仍然存在一定的交叉性。鉴于这种情况万方软件提出的区域性云服务的架构思想,主要是为了避免不同省市间产业信息的重复建设。比如,辽宁省已经建设完成了车床产业服务平台,吉林等其它省市也需要这样的产业服务,我们建议以辽宁为主,其它省市参与共建共享。

区域性云服务中心的管理架构和万方元数据云服务中心一样,只是内容的归属有所区别,也可体现多个信息服务机构的共建、共享宗旨,其搜索引擎视规模来选择RMS或RMSCloud。



云服务调度中心:云服务调度中心是本架构中“云服务”最为核心的部分,是RMSCloud云服务的基础,所有基于“云服务”的管理、调度模式都在这里得到体现。它主要包括整个云的安全防护与认证、用户管理、服务机构管理、云数据服务中心配置、管理与调度、服务缓存、服务负载均衡等功能。无论公有云、私有云,还是区域性云服务都通过本调度中心进行管理与调度。实际上该调度中心是“国家科技文献服务”的资源调度中心。

省市科技文献共享服务平台:省市科技文献共享服务平台是各省科技信信息(情报)研究所(院)根据自身业务特点提出的面向本省市的科技文献共享保障平台,具有明显区域特征和个性化服务模式。目前大部分服务平台在公共性文献信息服务方面基本上都是利用的万方科技文献仓储云服务中心所提供数据和相关接口服务,自己拥有的特色数据存放在自己的私有云服务系统中。平台采用的万方软件提供的科技创新文献共享支撑平台,该平台可直接调用万方云服务平台的示范系统“中国学术搜索网”提供的所有服务,同时可以调用私有云的所有服务。



到本文截稿时,出了“中国学术搜索网”已经正式对外提供服务外,辽宁、吉林、黑龙江、山东、山西、湖南、河南、云南等省市科技文献服务平台的搜素引擎服务都已经正式接入到万方科技文献云服务中心。其中最为代表性的是“甘肃省科技文献服务平台”,平台门户及业务平台均由他们自己开发完成,其中的数据搜索、数据挖掘与分析、主题趋势分析、原文定位等均调用的是RMSCloud的云服务接口完成。由于本文主要目的是阐述RMSCloud的科技文献云服务功能,涉及科技文献服务的相关核心技术没有做更多的介绍。详细参见参考文献【9】【10】。

结束语:本文通过对云计算的定义、核心技术及其应用模式的研究介绍,可以清楚地看到云计算服务模式对未来全国科技文献共享与服务系统所产生的重大影响。RMSCloud是我们针对科技文服务的需求特点采用云计算核心技术架构,开发完成的专用科技文献云搜索服务平台。RMSCloud的研发成功为构建我国科技文献共享与服务系统意义重大,万方软件利用RMSCloud系统对原来基于RMS资源服务系统构建的省市科技文献服务系统进行了全面升级,使用的科技文献元数据全部来源于仓储中心,节省了大量服务器和搜索引擎部署,大大提高了系统的功能和性能。同时基于"云服务"的分布式搜索引擎RMSCloud的研制成功,可为未来科技文献系统的“大数据”应用提供自主知识产权技术支撑和保障。





参考文献

[1]漫步云端.GOOGLE的“云”计划[M/OL].http://blog.163.com/zn_126268/blog/static/2394138120086142242818/

[2]NIST.FinalVersionofNISTCloudComputingDefinitionPublished

[M/OL].http://www.nist.gov/itl/csd/cloud-102511.cfm

[3]MapReduce:SimpliedDataProcessingonLargeClusters[M/OL].http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf

[4]Hadoop[EB/OL].[2012-03-19].http://hadoop.apache.org

[5]田嵩,晏伯武,杨慧等.基于GFS的分布式云存储应用技术的设计[J].福建电脑,2012(10):23-25

[6]刘星.Hbase性能深度分析[J].程序员,2011(7)102-104

[7]朱学迅.虚拟化技术研究[J].电信技术研究,2008(5)28-31

[8]吴广印.基于WebService构架的资源共享技术研究与实现[J].情报学报,2007(6):851-857

[9]吴广印.RMS系统架构与情报检索系统的功能需求研究.数字图书馆论坛,2013(6):31-38

[10]吴广印.分布式学术搜索引擎研制及其大数据应用.数字图书馆论坛,2013(6):10-18





作者简介:吴广印(1965-),男,中国科学技术信息研究所研究员,北京万方软件有限公司董事长。RMS系统的总体设计师和主要开发人员,“863”专项课题“以科技文献为主的搜索引擎研制”的技术负责人。研究方向:非结构数据库管理系统和中文信息检索。E-mail:gywu@wanfangdata.com.cn。

本文研究成果得到国家高科技发展计划(863计划)“云计算关键技术与系统(一期)”专项支持.课编号为:2011AA01A206,课题名称:以科技文献为主的搜索引擎研制。





万方科技文献仓储云服务中心

(公有云服务)

N个集群RMSCloud支撑



地方私有云服务中心(RMS支撑)



区域性公有云服务中心(RMS支撑)



全国科技信息云服务调度中心



辽宁省科技文献共享服务平台



湖南省科技文献共享服务平台





天津市科技文献共享服务平台





….其它省市



用户







献花(0)
+1
(本文系雪峰无双阁首藏)