分享

搜索引擎在网络信息挖掘中的应用 - 业界 - SOWANG 搜索爱好者论坛 - Power...

 素行 2007-07-08
搜索引擎在网络信息挖掘中的应用

随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文旨在探讨搜索引擎技术在网络信息挖掘方面的应用。

一、数据挖掘的研究现状

讨论网络信息挖掘,首先要从传统的数据挖掘谈起。

1、什么是数据挖掘

根据W.J.Frawley和G.P.Shapiro等人的定义,数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,而这些知识是隐含的、事先未知的、潜在的有用信息。原始数据可以是结构化的,如关系型数据库中的数据;也可以是半结构化的,如文本、图形、图像数据;甚至是分布在网络上的异构型数据。数据挖掘的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。挖掘出来的信息可以被用于信息管理、决策支持、过程控制等,还可用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

2、数据挖掘的研究现状

目前,国外在数据挖掘方面的发展趋势及研究主要有:对知识发现方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;统计学回归法在KDD中的应用;KDD与数据库的紧密结合;对网络信息挖掘方法的研究等。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。

国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、"九五"计划等。

可以看出,数据挖掘的研究和应用受到了学术界、实业界和政府部门的越来越多的重视。

3、数据挖掘的分类及其工具

1)、根据数据挖掘的应用类型不同,大致可分为以下几类。①分类模型。其主要功能是根据商业数据的属性将数据分派到不同的组中,通过分析分组中数据的各种属性,找出数据的属性模型。②关联模型。主要是描述了一组数据项目的密切度或关系,通过挖掘数据派生关联规则,了解客户的行为。③顺序模型。主要用于分析数据仓库中的某类与时间相关的数据,并发现某一时间段内数据的相关处理模型。它是一种在关联模型中增加了时间属性的特定的关联模型。④聚簇模型。主要用于当要分析的数据缺乏描述信息或无法组织成任何分类模式时,按照某种相近程度度量方法将用户数据分成互不相同的一些分组。进而,通过采用聚簇模型,根据部分数据发现规律,找出对全体数据的描述。

2)、数据挖掘采用的典型方法及工具

针对上述应用类型,数据挖掘领域提出了多种实现方式与算法。这里仅讨论几种常见的典型的实现方法。①神经网络。它建立在可以自学习的数学模型的基础之上,可以对大量复杂的数据进行分析,并完成极为复杂的模式抽取及趋势分析。神经网络对分类模型比较适合,但得出结论的因素并不十分明显,其输出结果也没有任何解释,影响结果的可信度及可接受程度;其次,它需要较长的学习时间,因此当数据量很大时,性能可能会出现问题。②决策树。是通过一系列规则对数据进行分类。采用决策树,可以将数据规则可视化,其输出结果也容易理解。决策树方法精确度比较高,构造过程简单,因此比较常用。其缺点是很难基于多个变量组合发现规则;不同决策树分支之间的分裂也不平滑。③联机分析处理(OLAP)。主要通过***的方式对用户当前及历史数据进行分析、查询和报表,辅助领导决策。④数据可视化。数据仓库中包含大量的数据,充实着各种数据模型,将如此大量的数据可视化需要复杂的数据可视化工具。

目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。然而,数据挖掘技术与可视化技术、地理信息系统、统计分析系统相结合,可以丰富数据挖掘技术及工具的功能与性能。

4、网络信息挖掘及其分类

网络信息挖掘是一个极其复杂的过程,它不同于传统的数据仓库技术和简单的知识发现(KDD),它面对的海量信息不是全简单的结构化数据,而常常为半结构化的数据,如文本、图形、图像数据,甚至是异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。

网络信息挖掘大致分为四个步骤:①资源发现,即检索所需的网络文档;②信息选择和预处理,即从检索到的网络资源中自动挑选和预先处理得到专门的信息;③概括化,即从单个的Web站点以及多个站点之间发现普遍的模式;④分析,对挖掘出的模式进行确认或解释。

根据挖掘的对象不同,网络信息挖掘可以分为网络内容挖掘、网络结构挖掘和网络用法挖掘。①网络内容挖掘。即从网络的内容/数据/文档中发现有用信息的过程。网络信息资源类型众多,从网络信息源的角度看,大量的网络信息资源可以直接从网上抓取、建立索引、实现检索服务,但是还有一些网络信息是“隐藏”的,如由用户的提问而动态生成的结果,或是存在DBMS中的数据,或是那些私人数据,它们无法被索引,从而无法提供对它们有效的检索方式;从资源形式看,网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,因此网络内容挖掘是一种多媒体数据挖掘形式。②网络结构挖掘。即挖掘Web潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。③网络用法挖掘。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据,而网络用法挖掘则面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。

二、搜索引擎的主要技术及其应用和发展趋势

狭义上讲,网络信息检索就是网络信息(内容)挖掘的一种。因此,要探讨网络信息挖掘,也有必要探讨一下有关搜索引擎的问题。

1、什么是搜索引擎

搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词、全文检索、主题词检索、分类检索及其它特殊信息的检索(企业、人名、电话黄页等)。

2、搜索引擎的主要技术

搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。①搜索器:其功能是在互联网中漫游,发现和搜集信息。它要尽可能多、尽可能快地搜集新信息和定期更新旧信息,以避免死连接和无效连接,为此搜索器的实现常采用分布式、并行计算技术,以提高信息发现和更新的速度。②索引器:其功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。③检索器:其功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。④用户接口:其作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查询进行限制。

3、搜索引擎的应用

目前几个比较大的中文搜索引擎是:雅虎中国;搜狐;新浪;网易;北大天网搜索(http://e.pku.edu.cn)等。

在Internet的信息海洋里寻找信息,首先,应该使用一个以上搜索引擎,除非你第一次就发现完美的搜索结果。其二,通过大量实践,仔细体会每个搜索引擎的特色和功能。其三,统计表明,很多用户只输入一个词进行查询,查询结果往往有很多冗余。建议同时使用多个词以缩小搜索范围。其四,若最初的查找并不成功,可以用同义词进行查找。此外,平时应多注意积累优秀的专业网站和数据库网址。

据***IC于2000年7月27日发布的统计资料,搜索引擎的使用已经占到网络应用的55.91%,成为中国当前第二大互联网应用,仅次于收发E-Mail,搜索引擎的重要性已成为网站建设的重要功能,成为网络信息挖掘的主要途径。

4、搜索引擎的未来发展趋势

随着WWW信息的指数增加,目前的搜索引擎存在搜索速度慢、死链接太多、重复信息或不相关信息较多,难以满足人们的各种信息需求,搜索引擎将向智能化、精确化、交叉语言检索、多媒体检索、专业化等适应不同用户需求的方向发展。①智能化的搜索引擎:它是搜索引擎的发展方向。它利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,自动地将用户感兴趣的、对用户有用的信息提交给用户。②重视查询结果的精度,提高检索的有效性:解决查询结果过多的现象目前有以下几种方法:a.构建基于内容的搜索引擎。基于内容的搜索的比较成熟的解决方案是依靠语义网络、汉语分词、句法分析、处理同义词等信息处理技术最大程度地了解用户的信息需求。b.将用户提问转化为系统已知的问题,然后对已知问题进行解答,以求降低对自然语言理解技术的依赖性。c.用正文分类技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。d.进行站点类聚或内容类聚,减少信息的总量。e.让用户对返回结果进行选择,进行二次查询是一种非常有效的手段。③实现交叉语言的检索:对多种语言的数据库进行交叉语言信息检索,返回能够回答用户问题的所有语言的文档。该技术目前还处于初步研究阶段,是搜索引擎的发展方向。④多媒体搜索引擎:由于未来的互联网是多媒体数据网络,开发出可查询图像、声音、图片和电影的搜索引擎是一个新的方向。⑤专业化搜索引擎:是为了专门收录某一行业、某一主题或某一地区的信息而建立,具有针对性强、实用性强的特点。如商务查询、企业查询、人名查询、专业信息查询等等。

三、搜索引擎在网络信息挖掘中的应用

1、搜索引擎在网络信息挖掘中的应用实例

下面以国外著名的搜索引擎Google(http://www.google.com)为例,剖析网络信息检索在网络信息挖掘中的应用。首先我们先看一下Google的体系结构(见图1)。

Google的搜索机制是:几个分布的Crawler(自动搜索软件)同时工作??在网上“爬行”,URL服务器负责向Crawler提供URL的列表。Crawler所找到的网页被送到存储服务器中。存储服务器于是把这些网页压缩后存入一个知识库(repository)中。每个网页都有一个关联ID??doc ID,当一个新的URL从一个网页中解析出来时,就被分配一个doc ID。索引库和排序器负责建立索引,索引库从知识库中读取记录,将文档解压并进行解析。每个文档就转换成一组词的出现状况,称为hits。hits记录了词、词在文档中的位置、字体大小、大小写等。索引库把这些hit又分成一组“barrels”,产生经过部分排序后的索引。索引库同时分析网页中所有的链接,并将重要信息存在Anchors文档中,该这个文档包含了足够信息,可以用来判断一个链接被链入或链出的结点信息。

URL分解器(URL Resolver)阅读Anchors文档,并把相对的URL转换成绝对的URLs,并生成doc ID,它进一步为Anchor文本编制索引,并与Anchor所指向的doc ID建立关联。同时,它还产生由doc ID对(pairs of doc ID)所形成的数据库。这个链接数据库(Links)用于计算所有文档的页面等级(Pagerank)。

排序器会读取barrels,并根据词的ID号(word ID)列表来生成倒排挡。一个名为DumpLexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器(Searcher)使用。这个搜索器就是利用一个Web服务器,并使用由DumpLexicon所生成的词表,并利用上述倒排挡以及页面等级来回答用户的提问。

从Google的体系结构、搜索原理中可以看到,其关键是:利用URL分解器获得Links信息,并且运用一定的算法得出页面等级的信息,这正是网络结构挖掘技术。

2、网络信息挖掘的应用前景

网络信息挖掘已广泛地应用于金融业、零售业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,对它的应用和研究正在成为一个热点。网络信息挖掘的应用前景主要表现在三个方面:①电子商务。运用网络挖掘技术能够从服务器和浏览器端的日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。例如通过评价用户对某一信息资源浏览所花的时间,可以判断出用户对资源兴趣如何;对日志文件所收集到的域名数据,如国家或类型(.com,.edu,.gov)的分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。②网站设计。通过对网站内容的挖掘,可以有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。③搜索引擎。用搜索引擎进行网络信息挖掘的最大特色体现在它所采用的对网页Links信息的挖掘技术上。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果(查全率,precision;查准率,recall);运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。

上面仅仅列举了网络信息挖掘技术在这三个方面的应用。这项技术的应用正变得越来越广泛;用户对高品质、个性化的信息的需求必将推动学术界与实业界的研究开发工作。

四、结束语

面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多。我们相信,随着XML作为在Web上交换数据的一种标准方式的出现、用户信息需求的多样化、网络信息挖掘研究的不断深入,“智能化”的搜索引擎将会涌现,面向Web的网络信息挖掘也将会变得非常轻松。

来源:刘永

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多