数据挖掘

昵称20399812 2015-06-22

展开全文

王绿园康梅英广州解放军体育学院 510502

　　摘要：本文揭示了在未来数字图书馆中图书馆员进行信息服务的一种方式；论述了数据挖掘和WEB挖掘的基本原理和方法；强调图书馆员应掌握数据挖掘这项新技术的必要性。
关键词：数据挖掘、WEB、INTERNET、信息服务、图书馆员

　　一、引言
　　随着信息时代的到来、INTERNET技术的发展，图书馆未来的功能变得越来越多样化。由于WEB技术的巨大成功，人们越来越多地依靠INTERNET来获取知识、信息。显然，人们到图书馆的次数和时间已越来越少，总有一天，人们再也不会亲自跑到图书馆去借一本书或咨询某个问题。面临着如此巨大的挑战，从事图书馆工作的人们提出了数字图书馆的设想。经过艰苦的研究已成功地建立了数字图书馆。数字图书馆是一个标准的电子信息基础设施，它采用分布数据存储，用户可以通过各种链接和操作在一个较大的地域范围内搜索和检索出自己所需的信息，而且整个操作对用户是开放的。也就是说，数字图书馆能够把数据存储在多个站点中，用户只须一个简单的操作就可从这些站点中搜索信息。数字图书馆是传统图书馆在信息时代的发展，它不但包含了传统图书馆的功能，还提供综合的信息访问服务。人们希望，数字图书馆将成为未来图书馆的信息中心和枢纽。

　　但是，从网络技术角度来看，数字图书馆与其它WEB信息源没有两样，它们都是建立在INTERNET上的信息站点。从用户的角度来看，他们关心的是从INTERNET上获得信息和知识，他们不能体会到你是数字图书馆还是INTERNET上的一般站点。但是要从成千上万的WEB信息站点中检索到有用的信息是不容易的，有时甚至是不可能的，更何况信息的索要者往往没有多少时间在茫茫的数据海洋中漫游。我们知道在数字图书馆中，图书馆员是信息专家，他们是信息组织者、信息生产者、信息服务者和信息管理者。正是通过图书馆员的信息服务活动使数字图书馆有别于其它信息站点。那么，图书馆员特别是院校图书馆中的图书馆员在二十一世纪的数字图书馆中应如何进行信息服务？图书馆员须掌握什么先进技术工具为用户服务？这是当前图书馆界应该研究的重要问题。

　　二、技术的选择
　　WEB是一个非常成功的信息系统。这个系统为信息在全球范围发布和传播提供了机会，它允许任何人在任何地点任何时间传播和获取信息。WEB的非结构化信息传播和获取方式引发了信息爆炸。大量的非结构化的信息分散在整个INTERNET中。大量信息在给人们带来方便的同时也带来了许多问题：信息过量，难以消化；信息真假难以辨识；信息安全难以保证；信息形式不一致，难以统一处理。在信息的海洋中，即使是最先进的搜索引擎也只能从1/3可以索引的WEB站点中获取信息。人们开始提出一个新的口号：“要学会抛弃信息”。人们开始考虑：“如何才能不被信息淹没，而是从中及时发现有用的知识、提高信息利用率？”事实上，作为一个非专业的信息管理人员，要从茫茫的信息海洋中获取本专业最新、最权威知识和较为全面的信息，并从中得到有用的知识几乎变得不可能。要知道，各高等院校或研究所里的专家教授们由于研究课题计划的紧迫，他们急需本专业领域的最新最权威的知识和信息，他们没有时间在成千上万的站点中的数不清的页面中查找所需的信息。所以在信息的提供者与信息的消费者之间应有一个中间环节，通过这个环节，信息消费者能够快捷方便地得到想要的信息，正是这种迫切需要为图书馆员提供了展现才华的机会。图书馆员们运用信息管理技能，直接为用户提供有用信息。图书馆员们应抓住机会，认真考虑在INTERNET环境中，如何使其服务领域得以扩宽，从桌面咨询服务扩展到基于WEB信息空间电子咨询服务。

　　WWW是众多情报类型中的一种，并且具有极大的特殊性。它的信息是分布在全球范围内，并且随时可变。这些分布在各地的信息允许任何人在任何地点任何时间传播和获取信息。为此，图书馆员必须选取某个工具来有效地组织和获取WWW中的信息。传统的搜索引擎根本不评估站点的内容，而只是机械地识别WEB设计者提供的关键字，即使是最优秀的搜索引擎也需要用户亲自访问到不同的站点并对信息加以验证。而WEB挖掘技术是克服这些缺点的最理想的工具。

　　三、数据挖掘和WEB挖掘
　　数据挖掘（Data Mining）是信息技术（IT）领域中最热门话题之一。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识?从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。当数据挖掘技术应用于网络环境下的WEB中就成为WEB挖掘（Web Mining），WEB挖掘可以广义地定义为从WWW中发现和分析有用的信息。这个定义有两方面的意义：一方面它描述了自动地从数以百万计的WEB站点和在线数据库中搜索和获取信息和资料，这叫做WEB内容挖掘（Web Content Mining）；另一方面，发现和分析用户访问一个或多个站点和在线服务的模型叫做WEB使用挖掘（Web Usage Mining）。

　　WEB中的异构型和非结构化的数据，使得发现、组织和管理信息变得非常困难。传统的搜索、索引工具，诸如 Lycos, Alta Vista, WebCrawler, ALIWEB等，虽然它们都能为用户提供一些方便，但它们都不提供结构化数据，也不提供分类、过滤和文档翻译等基本功能。近年来，研究人员正努力研究WEB内容挖掘，开发智能化的信息检索工具。基于代理的检索方法正是这种智能化的信息检索工具，它是一个人工智能系统。它可以代表某一特定用户，自动地或半自动地发现和组织基于WEB的信息，它可以根据用户的基本情况，自动检索出用户感兴趣的信息，并组织和翻译好这些信息。有些代理甚至可以自动学习用户的爱好，并根据用户的爱好为用户检索出相关信息。WEB内容挖掘的另一种方法是基于数据库的方法。这种方法是把WEB中异构的非结构化的数据集成和组织成结构化的数据，就像关系数据库那样，然后用标准的数据库查询机理和数据挖掘技术来访问和分析这些信息。

　　WEB使用挖掘（Web Usage Mining）是发现用户访问模型（或称为访问习惯），它的数据是自动从每日的访问日志等中收集到。WEB使用挖掘对建立用户基本情况档案非常关键。研究用户在某个或多个服务器上的行为表现，对改善WEB站点使其更有效地服务于用户是非常必要的。

　　四、信息服务
　　WEB挖掘是一个前景非常看好的工具。我们知道，传统的效率低下的搜索引擎检索出的信息往往索引不完全、有大量的无关信息或没有进行可靠性验证。用户能够快速方便地从WEB中检索出相关的可靠的信息是一个系统的最基本的要求。WEB挖掘不仅能够从WWW的大量的数据中发现信息，而且它监视和预测用户的访问习惯。这样给设计人员在设计WEB站点时有更多的可靠的信息。WEB挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方向发展。WEB挖掘技术为图书馆员进行信息服务提供了先进的工具。有了这个工具，图书馆员能够按照各个用户的要求或习惯，为用户组织更多、更好的高质量信息。

　　例如；院校图书馆员们应用WEB挖掘技术为本院校不同学科中的不同研究课题从WWW中检索相关信息。该技术可以自动地检索信息，并把信息按照课题领域进行分类，使它们更容易访问。图书馆员可以通过为不同的课题领域建立一组特征，并以这些特征为基础进行检索和分类，从而保证得到的信息是可靠的和具有权威性的。由于WEB挖掘技术能够自动地，不须人工干预地从WWW中发现和组织信息，从而使图书馆员只需花少量的时间来维护数据库即可完成任务。用户由于不需要花大量的时间来浏览成百上千的文档，就可在相当短的时间里得到想要的信息而感到非常满意。更重要的是，他们可以在任何时间访问到世界任何地方的信息。事实上，这就是图书馆员把他们的咨询服务从桌面转移到INTERNET的具体工作表现。

　　五、结束语
　　在未来的数字图书馆中，图书馆员如何充分发挥其信息专家的作用，是我们每个图书馆员应考虑的重要问题。数据挖掘技术是未来信息检索的主要技术。为此，我们图书馆员应该不断地学习新技术、新方法，搞好信息服务工作，努力开拓，争取成为真正的信息专家。