分享

(第六讲)因特网信息检索与利用

 南书风 2011-04-11

    [本讲稿引用了很多同行的成果,恕不一一注明,一并表示感谢。在备讲过程中,本人得到了情报部主任张红凌副研究馆员的支持,分享了沈丽萍副研究馆员、杜安平硕士的知识与经验,还得到技术部、办公室有关老师的热情帮助,在此表示衷心感谢!]

  因特网起源于上世纪70年代初的美国,最初目的是保障国防军用计算机之间的通信畅通。随着信息技术的迅猛发展,在美国政府、科研机构、高校及企业的支持推动下,因特网迅速发展成一个全球性的信息网络,成为一个家喻户晓的名词,正所谓“昔日王谢堂前燕,飞入寻常百姓家”。

  信息社会正向学习型社会快速转型,终生教育或终身学习已成为每一名公民必须面对的课题,因特网无疑是人们知识更新的一个重要工具。信息素质在社会公民生存与发展中的重要性日益突显,在信息素质的丰富内涵中,因特网信息检索与利用占有重要的位置。

  因特网的普及也给图书资料专业人员的工作服务方式带来了深刻的影响。机遇与挑战并存,正如国际图联委员、上海图书馆馆长吴建中博士所言:“图书馆员需要互联网,互联网更需要图书馆员”

基于以上事实,我们没有理由不对“因特网信息检索与利用”这个话题给予更多的关注与思考。

  因本人知识认识水平有限,错误之处请同行批评指正。

1 因特网概述

1.1 什么叫因特网?

  因特网(Internet)是全世界靠TCP/IP协议连接起来的所有计算机及其各级网络所组成的一个全球范围的计算机网络。又称互联网,即通常所说的“信息高速公路”。它有三方面的含义:

  一个基于TCP/IP协议集的计算机网络集合;

  一个网络用户的团体。数亿用户使用着网络资源,同时也为在因特网的发展作出贡献;

  一个所有可被访问和利用的信息资源的集合。

1.2 因特网信息资源的类型和内容

1.2.1 类型

  因特网上信息资源浩如烟海,可以从不同的角度进行划分和归类,依据不同的标准,因特网信息资源可分成不同的类型:

  归类标准 因特网信息资源的类型

  内容范围 学术信息、教育信息、政府信息、文化娱乐信息、有害和违法信息等;

  发布形态 书目信息、电子报刊、文本文档,以及网上电子邮件、电子公告、专题讨论栏目等形式的非正式信息等;

  学科领域 社会科学、人文科学、自然科学、技术科学等;

  交流方式 非正式出版信息、半正式出版信息、正式出版信息;

  组织形式 万维网(WWW)、电子邮件、FTP、Telnet、Usenet/Newsgroup、LISTSERV/Mailing List、Gopher、WAIS

1.2.2 内容

  因特网信息资源的内容涉及人类面对和从事的各个领域、行业及各种话题。如Yahoo!的中文雅虎对因特网信息资源的内容概括为:艺术与人文、商业与经济、电脑与因特网、教育、娱乐、政府与政治、健康与医药、新闻与媒体、休闲与运动、参考资料、区域、科学、社会科学、社会与文化等大类和众多小类。雅虎中国

值得指出的是,上述因特网信息资源类型和内容的划分交叉重叠。这种状况,增加了网络检索的难度,但也正因为此,使因特网显得神奇而令人流连往返,不可思议。

1.3 因特网信息资源的特点

  与传统信息资源相比,因特网信息资源具有无可比拟的优势,其主要特点表现在

  内容丰富、种类繁多、几乎无所不包。

  超文本、超媒体、集成式提供信息,除文本信息外、还有图表、图形、图象、声音、动画等。

  价廉。体现在互联网信息资源的高度共享性,大量免费信息资源。

  新颖、深入。如网上大量的灰色文献或边缘文献。包括:研究报告、调查采访、研讨会发言、项目计划报告等。

  无序、多变、难以控制。

  广泛、直接交流。如可通过新闻组、邮件列表、实时聊天软件参加讨论。还可从专家学者的个人网页上获得许多价值独特的资料。

1.4 因特网有关技术术语

  这里仅从信息检索的角度对所涉及到的因特网技术术语作简单介绍。

1.4.1 超文本与超链接(Hypertext and Hyperlink)

  超文本就是包含有链接的字符串,通常以下划线的形式表示。由于超链接可以指向任何其他位置的文件,传统印刷型文本从头到尾线性的秩序被打破。超文本允许在文件与文件之间任意转换,这种文本与文本之间的链接关系就称为超链接。

1.4.2 浏览器(Brower)

  浏览器是Web页浏览的客户应用程序,是一种在窗口环境下浏览互联网资源并获得信息的多媒体工具。有了浏览器,用户才能够在因特网的大海中航行。

1.4.3 通信协议(TCP/IP协议)

  TCP(Transport Control Protocol)指传输控制协议,IP(Internet Protocol)指网际协议。互联网连接了世界上不同国家与地区无数不同硬件、不同操作系统与不同软件的计算机,数据在传输过程中很容易丢失或传错。为了保证这些计算机之间能够畅通无阻地交换信息,INTERNET采用统一的通信协议——TCP/IP协议,它能保证数据迅速可靠传输。

  TCP/IP协议实际是一个协议集合。我们最常见的有协议有http(超文本传输协议):WWW客户机和服务器用于在网上传输、响应用户请求的协议。

1.4.4 网络地址与域名(IP地址和DN)

  IP地址:互联网上连接了无数的计算机(主机),用户如何找到一个特定的主机呢?人们根据IP协议给每一个主机分配一个编码,这个编码称为IP地址。它可用四组由圆点分割的数字表示。如,韶关学院图书馆网站的IP地址:http://210.38.195.8

  域名(Domain name): IP地址难于记忆,也可以用域名来表示主机。域名由英文字母表示, 具有一定的意义, 便于记忆。如韶关学院网站的域名:www. sgu. edu.cn 其中cn代表中国(China),edu代表教育网(Education),sgu代表韶关学院(Shaoguan University),www代表万维网(World Wide Web),整个域名合起来就代表中国教育网上的韶关学院站点。

  互联网上的域名千姿百态,但从域名的结构来划分,总体上可把域名分成两类,一类称为“国际顶级域名”(简称“国际域名”),一类称为“国家域名”。一般国际域名的最后一个后缀是一些诸如.com .net .gov .edu的“国际通用域”,这些不同的后缀分别代表了不同的机构性质。

  国际顶级域名举例(机构性质域名)

域名 表示的组织或机构的类型

com 商业机构

edu 教育机构或设施

gov 非军事性的政府机构

int 国际性机构

mil 军事机构或设施

net 网络组织或机构

org 非赢利性组织机构

  在国家域名中,对于美国以外的主机,其最高层次域基本上都是按国家命名的。国家名域指明了该域名源自的国家。在几乎所有的情况中,国家域名都是两个字母的国家代码。美国虽然也有地理域,但很少使用。如果在一个域名的末尾没有找到国家域,就可以假定该域名是源自美国的。其他国家的右边第一个域名则代表国家。

  国家域名举例

域名 表示国家或地区 域名 表示国家或地区

AU 澳大利亚 JP 日本

AT 奥地利 KR 韩国

BR 巴西 SG 新加坡

CA 加拿大 UK 英国

CN 中国 FR 法国

TW 中国台湾 DE 德国

HK 中国香港 NZ 新西兰

MO 中国澳门 RU 俄罗斯

域名举例:

http://www.

  世界卫生组织(国际组织 .int)

http://www.

  美国圣乔治大学(高校 .edu)

http://www.

  澳大利亚昆士兰大学(澳大利亚高校 .edu.au)

http://www.

  美国疾病与预防控制中心(政府机构 .gov)

http://www.

  美国图书馆协会(非赢利性组织 .org)

1.4.5统一资源定位器(URL)

  URL把主机域名和主机内部的文件目录系统结合起来,作为浏览器浏览主页的统一地址表示方法。URL从左到右依次为:协议、主机域名或IP地址、文件路径、文件名。

  如《韶关学院教学成果奖实施细则》的URL为:

http://www..cn/uinfo/xwgk/jwc/jxcg.htm

  网络检索的最直接检索目的就是某个资源的URL,而常见因特网检索工具如各种搜索引擎的所谓高级检索功能就是围绕URL来做文章的。这也是人们讨论所谓检索技巧的基础之一。

2 因特网检索工具

2.1 定义

  指在因特网上提供信息检索服务的计算机系统,其检索对象是存在于因特网信息空间中各种类型的网络信息资源。网络检索工具通常称为搜索引擎。

著名的检索工具有百度、Yahoo、Lycos、Google等。

2.2 搜索引擎的四种类型

2.2.1 目录式搜索引擎(subject directory)(也称网络资源目录)

1) 定义

  由信息专业人员在广泛搜集网络资源及有关加工整理的基础上,按照某种主题分类体系编制的一种可供检索的等级结构目录。如中文Yahoo!

  一个网络目录包括许多层 ,层次一般是的4级 。用户能通过浏览目录,在目录体系的引导下,发现、检索到有关的信息。

如用户想利用网络资源目录查找有关搜索引擎的信息, 在中文Yahoo!分类搜索引擎上的检索路径是:电脑与因特网>因特网>搜寻与检索 > 搜索引擎

2)目录式搜索引擎的特点:

  经过信息管理专业人员、分类专家的人工设计和编制,提高了检索的准确性。

  数据库的规模相对较小,检索到的信息数量有限。

  目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高课题。最著名的目录型检索工具是YAHOO!

2.2.2 机器人搜索引擎

1)原理

  使用自动索引软件发现、收集并标引网页,建立数据库;以Web形式提供用户一个检索界面,供用户输入检索词;代理用户在数据库中查找出与提问匹配的记录,并返回结果且按相关度排序输出。

  机器人搜索引擎原理图

2)机器人搜索引擎的特点

  由自动索引软件生成数据库,收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。

  标引过程缺乏人工干预,准确性较差,加之检索软件的智能化程度又不很高,导致检索误差较大。

  搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。较有代表性的搜索引擎有Google,EXCITE等。

  机器人搜索引擎与分类搜索引擎有合并的趋势,典型的有Yahoo!,百度

2.2.3 多元搜索引擎

  将多个搜索引擎集成在一起,提供一个统一的检索界面,并将一个检索提问同时发送给多人搜索引擎,同进检索多个数据库,再经过聚合、去重之后输出检索结果。如Dogpile Metacrawler 等。

?优点:省时 ?缺点:准确性差

2.2.4 专门搜索引擎

  用于查找特殊类型信息的搜索引擎,如人物查询、地图检索和图象检索等,或者某学科专业领域。如Medical world search(http://www.),Amazing Picture Machine(http://www./picture.htm) 等

常用中文搜索引擎

  Baidu  www.baidu.com  约1.24亿中文网页,平均2周更新一遍,对部分网页每天更新。提供百度快照、网页预览/预览全部结果、相关搜索词、错别字纠正提示、Flash搜索、信息快递、百度搜霸、搜索援助中心,推荐使用MP3搜索。Baidu搜索技巧

  Google中文 www.google.com/intl/zh-CN/  中文网页数不详,按比例推算约8500万。平均1月更新一遍,对部分网页每日更新,由 BasisTechnology 提供中文处理技术,搜索相关性高,高级搜索语法丰富。提供Google工具条、网页快照、图像搜索(4.25亿图片)、新闻组搜索。Google搜索帮助

  Alltheweb(Fast)www.alltheweb.com  4480万简体中文网页,1401万繁体中文网页,需单选中简体中文语言搜索,否则效果不好。

  Openfind中文 www.openfind.com/cn.web.php?u=cn 中文网页数不详,从检索效果上看与Google相近。更新较慢,提供按网页大小或日期排序。Openfind查询秘诀

  北大天网 http://e.pku.edu.cn/ 约6000万网页,更新略慢,搜索相关性较低。提供天网搜霸、历史网页。推荐使用ftp搜索。天网使用帮助

  Inktomi/MSNAltavista www.msn.comwww.av.com Inktomi和Altavita收录中文网页也以千万计,但因为它们没作中文特殊处理,所以用简单的中文关键词可以搜到一些内容,但用稍长一点或组合关键词查询时,搜索效果就很差。其它如Wisenut、Gigablast等,也能搜索一点点中文,但因为没做中文特殊处理,一样没有搜索价值。

常用英文搜索引擎

  Google www.google.com 30亿网页(约1/4非全文索引),用户界面出色,有新闻组、图像、新闻等搜索,以搜索相关性高闻名。

  Alltheweb(Fast) www.alltheweb.com 21亿网页,高级检索强大,有新闻、图片、MP3、Video、ftp,利用ODP对搜索结果简单分类。

  Altavista  www.av.com 约7亿网页,有图像(5.4亿图片)、音频、视频文件、新闻搜索,高级语法强大,有prisma辅助检索。(部分网友需通过p-roxy访问,无p-roxy可用 qbseach 单选altavista搜索。)

  Inktomi search.positiontech.com  自称30亿网页(搜索效果上看不出这么多),技术设置和参数可调性高,支持的门户搜索数据库和排序多不同,可到 Hotbot 使用Inktomi的高级搜索。

  Northernlight  nlresearch.northernlight.com  约7亿网页+7100出版物数据,需选中"World Wide Web only"搜索。速度略慢,杂志数据有独特搜索价值,能对结果作简单自动分类,翻页数不限,支持通配符。

Wisenut www.wisenut.com 约14亿网页,网页索引数据库偏老,提供类似简单自动分类和相关检索词的WiseGuide,及预览搜索结果的Sneak-a-Peek。

  Openfind  www.openfind.com 自称35亿网页(搜索效果上看不出这么多),旧网页死链接多,支持按网页大小或日期排序。

  Teoma  www.teoma.com 约3亿网页,速度略慢,支持类似自动分类Refine;同时提供专业链接目录的Resources。

 Gigablast www.gigablast.com 1.5亿网页,提供网页快照。

3 因特网信息检索

3.1 定义

  因特网信息检索(Internet Information Retrieval), 又称因特网信息查询或搜索(Internet Information search),是指通过Internet,借助网上的服务和工具,根据信息需求,在按一定方式组织和存储起来的因特网信息集合中查找出有关信息的过程。

3.2 特点

3.2.1 信息源选择范围大,不受时空限制

3.2.2 交互性强、易于反馈

  可以人机对话,交互作业。比如输入错误的检索词后,会自动提供正确的拼法,请用户确认;良好的信息反馈功能。能就所遇到的问题获得帮助和指导,便于检索及时调整检索策略,以获得良好的检索结果。

3.2.3 准确性和完整性不尽如人意

  主要表现在变动不居,随意自由,检索工具和手段不很理想。认识到这一点,有助于认识到对网络信息评价是一个重要问题。

3.2.4 检索结果呈逐级链接

  无法通过一次查找就能达到最终目的,其初步返回的结果通常仅包括题目、内容简介、URL地址等,往往是指向某一网站网页的链接目录,即资源网址,而非所需资源本身,还需要通过链接进行更进一步的检索,并深入到各个资源目录中多次查找才能完成检索并获取更详细的内容。

3.2.5 检索与浏览相结合

  在因特网信息检索中,由于因特网检索工具基本上既有供浏览的分类信息,又具备检索功能,检索便于有的放矢,直接获取检索结果;浏览利用边查边看,发现未曾预料的结果,因此,因特网检索通常是浏览与检索有机结合,方便用户查找信息。

3.3 因特网信息检索的一般方法

  要获取因特网上的信息,用户必须首先找到网址(URL),然后通过网址去访问网页所提供的信息。一般方法可有以下几种:

3.3.1浏览

1)偶然发现:即在日常的网络阅读、漫游过程中,意外发现一些有用信息。这种方式的目的性不是很强,有不可预见性、偶然性。有时会充满乐趣,有时也可能一无所获。

2)顺链而行:指用户在阅读超文本文档时,利用文档中的链接从一个网页转向另一相关网页。有些类似传统文献检索中的“追溯检索”,即根据文献后所附的参考文献目录去追溯相关文献,一轮一轮地不断扩大检索范围。这种方法可以在短时间内获得大量相关信息,但也有可能在顺链而行的过程中偏离检索目标,或迷失于网络信息空间中。

3.3.2 通过网络资源指南来查找信息

  网络资源指南即指前面所讲的目录式搜索引擎,或网络资源目录。Yahoo!就是典型的综合性网络资源指南。此外,还有各种专业性的网络资源指南,几乎每一个学科专业、重要课题、研究领域的网络资源指南都可在因特网上找到。对于有目的网络信息发现有重要的指导、导引作用。但由于管理、维护跟不上网络信息的增长速度,导致收录范围不够全面,新颖性、及时性可能不够强。

3.3.3 利用搜索引擎

  这是较为常规的网络信息检索方式。用户以关键词、词组或自然语言构成检索表达式,提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。它一般支持支持布尔检索、词组检索、截词检索、字段检索等功能。

利用搜索引擎进行检索的优点是:省时省力, 简单方便,检索速度快、范围广,能及时获取新增信息。其缺点在于检索准确性不是很高,与人们的检索需求及对检索效率的期望有一定的差距。

3.4 因特网信息的检索策略与方法

3.4.1 检索策略

  所谓检索策略是在分析情报提问实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与科学的查找步骤。构造良好的检索策略是查准与查全的关键。用户能否构造一个最佳的检索策略,将直接影响到检索的查全率、查准率。

         (网络信息检索原理图)

3.2 搜索引擎检索方法(以Google为例)

3.2.1 Google简介(http://www.google.com)

  1998年9月由两名斯坦福大学的研究生开始研制,2000年正式投入商业运营。目前可检索网页达30亿个。每日访问量达7000万次。包括雅虎、美国在线、网景和中国的网易等知名站点在内的全球150多家公司采用了Google搜索引擎技术。 被美国《时代》杂志评选的“1999年度十大网络技术之一”,《个人电脑¤“最稼予“最佳技术奖“,The Net授予“最佳搜索引擎奖”

  雅虎的网站使用人数是Google的10倍,但Google的消费者满意度始终名列第一。支持中文搜索,其中文按索引擎是收集亚洲网站最多的搜索引擎之一。

3.2.2 Google的特点

1)专利网页级别技术PageRank能够提供高命中率的搜索结果。

2)搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介。

3)支持多达132种语言,包括简体中文和繁体中文。

4)网站首页设计简洁、鲜明、大方 ,使用方便。

5)“网页快照”功能,能从Google服务器里直接取出缓存的网页。

3.2.3 Google的检索功能

1)基本检索

A.逻辑“与”操作 无需用明文的“+”来表示逻辑“与”操作,只用空格就可以了。例如:“韶关学院 图书馆”可以查出同时包含“韶关学院”和“图书馆”二个关键字的全部文档。

  注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。

B.逻辑“非”操作 用英文字符“-”表示逻辑“非”操作。此外,操作符与作用的关键字之间,不能有空格。“韶关学院 –图书馆”(正确),“韶关学院 - 图书馆”(错误)

  如果存在空格,搜索引擎将视为 “韶关学院”和“图书馆”的逻辑“与”操作,中间的“-”就被忽略。

C.逻辑“或”操作,Google用大写的“0R”表示逻辑“或”操作,小写的“r”在查询的时候将被忽略,否则操作就变成了一次“与”查询。如:“韶关学院 OR 图书馆”可以查找到包括“韶关学院”或“图书馆”的网页。注意:“0R”后面要加空格,否则就成了“与”操作。

  不使用“词干法”,也不支持“通配符”(*) 为提供最准确的资料,Google 只搜索与输入的关键词完全一样的字词。例如:搜索“comput*” 不会出现“compute”、“computer”等词,相反,Google将其当作一个错误词加以提示。

  对英文字符大小写不敏感 “GOD”和“god”搜索的结果是一样的。

  Google的关键字可以是词组(中间没有空格),也可以是句子(中间有空格)。但是,用句子做关键字,必须加引号,否则Google将自动分词,如“胆子再大一点,步子再快一点”

2)高级检索

  “site:” 对搜索的网站进行限制

  “site:”表示搜索结果局限于某个具体网站或者某个域名。

例一:限定国家:查找英国高校图书馆网页信息

检索表达式 university. library site:uk

例二:限定领域:查找中国高校图书馆网站有关信息

检索表达式:图书馆 site:edu.cn

检索表达式:中国 高校 图书馆 (对比检索结果)

  如果是要排除某网站或者域名范围内的页面,只需用“关键词 -site:网站名或域名”。site后冒号为英文字符,而且,冒号后不能有空格,否则,“site :”将被作为一个搜索的关键字。

  这个功能可以帮助我们迅速从某个地区或某个网站中找到所需信息,从而大大缩小检索范围,提高检索效率。

  “filetype:”查询某一类文件 (往往带有同一扩展名 )

  “filetype:” 是Google的一个特色查询功能。可搜索的文件类型包括:Adobe Portable Document Format (PDF)、Adobe PostScript(PS)、Microsoft Excel(XLS)、Microsoft PowerPoinet (PPT)、Microsoft Word (DOC)、Rich Text Format (RTF)等12种。其中最重要的文档搜索是PDF搜索(注:PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准)。目前Google检索的PDF文档大约有2500万左右。

例一 查找关于生物的生殖发育方面的教学课件

检索表达式: 生物 生殖 发育 课件

检索表达式:生物 生殖 发育 filetype:ppt(对比检索结果)

例二:查找关于遗传算法应用的论文(pdf格式)

检索表达式:遗传算法 filetype:pdf

例三:查找查新报告样本(DOC格式)

检索表达式:查新报告 filetype:doc

  “inurl:”和“allinurl:” 搜索的关键字包含在URL链接中

  “inurl:”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“Photo”等,于是,就可以用“inurl:”语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。

  “allinurl:” 语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页的链接字符串。

  “inurl:”和“allinurl:”功能通常能提供非常精确的专题资料。

例一:检索表达式“inurl:mp3 刘德华”

例二:检索表达式“allinurl:mp3 刘德华”的检索结果

  “intitle”和“allintitle”搜索的关键词包含在网页的标题之中

  “intitle”和“allintitle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。比如“intitle:学科馆员”可以查到网页标题中含有“学科馆员”的网页。

  以上介绍的是Google的常用检索功能,除了个别功能是Google目前所特有的外(如特殊文本档式PDF、DOC等的检索),其余功能各大搜索引擎都已具备,只是在语法规定细节上略有区别,使用每种搜索引擎前,必须阅读有关搜索帮助文字说明。

3.6 网上原文获取途径及信息源质量评价

3.6.1 原文获取途径

1)直接点击检索结果中的链接

2)利用网络快照

  所谓网络快照,是指搜索引擎(如百度、Google)先预览各网站,拍下网页的快照,并保存在服务器上供用户直接调取。

网络用户点击检索结果链接后,经常会遇到“该页无法显示”(找不到网页的错误信息),或者网页连接速度缓慢,要十几秒甚至几十秒才能打开的情况。原因很多,比如:网站服务器暂时中断或堵塞、网站已经更改链接等等。用户在不能链接所需网站时,网络快照(暂存的网页)即可救急,而且通过网页快照寻找资料要比常规链接的速度快得多。

3)利用免费参考网站

  Findarticles.com (www.findarticles.com).

从该网站可免费获得300多种杂志和期刊中发表过的文章,涉及文艺娱乐、汽车、商贸金融、计算机、健康、社会、教育、体育等,最早的文章发表于1998年,并不断更新。网站提供良好的检索浏览功能。

  Free Medical Journals(www.freemedicaljournals.com).

该网站提供1000余种可从网上免费获得全文的医学杂志网址链接。除英语杂志外,还有以意大利语、法语、葡萄牙语、西班牙语等语种出版的杂志。部分杂志对全文上网有时间限制,有的在发表6个月后才上网,有的则要推迟1年。杂志按刊名和专业排列,检索方便。对于医学研究人员和普通人士,这是一个免费获得医学文献的优秀门户网站。

  The Internet Archive (http://www./web/web.php).

该网站建于1996年,目的是为研究人员、学者提供数字信息的永久性存取。用户只需将某文档的URL输入Wayback Machine检索框,大多数情况可以查到该文档的历次存档记录。那些已从服务器删除的文档,一般也能从该网站查到。网站还提供对大量早期有关科教、文化、广告的影片、访谈和图片资料的存档和检索。对于有志于互联网历史演变研究的人员,这也是一个极有价值的在线档案馆。

4)利用文献传递服务

  找到提供馆际互借或文献复制的有关单位的网址和电子邮件地址,发出电子邮件请求请求原文。

5)直接与作者本人联系

  以书信或电子邮件等形式与作者本人联系,请求提供所需文献资料。

6)通过个人关系

  获取原文的过程中,应该遵循必要的礼仪并尊重原作者、编译者的知识产权,还应声明使用目的和范围。

3.6.2 信息源质量评价

  因特网信息与传统文献的出版形式不同,既没有固定的出版要求,又没有固定的出版形式,也没有经过像出版社这样的专门机构的评审、编辑与加工,因此,在获取与利用网络信息时,就有一个对网上信息质量如何评价的问题。如何判断网站所提供的数字、事实、描述等信息是权威的、客观的、可靠的、及时的?以下一些要素可供参考:

  权威性(Authority)。当无法鉴定信息的质量时,信息提供者的权威性可以作为借鉴,如作者的知名度、谁最终对网页的内容负责(编者)、网站主办者(网络信息的出版者)的介绍、主办单位的目标描述、地址和联系方法、网站性质(从域名判断,如.edu .org .gov .net .com等 ),以及有关知识产权的声明。

  准确性(Accuracy)。如列出了可供核查事实的信息来源并标有负责监测发表内容的编辑姓名。

  客观性(Objectivity)。如提供的信息或事实不混同于有倾向性的宣传和评论,在介绍有争议的观点时持中立立场,并提供公正的评判。

  适时性(Currency)。如注意信息内容发表和修改的时间、版权日期,保持信息时效性。在主页(甚至每网页)底部往往可以找到信息发布日期,不断变化或发展迅速的专题所标明的日期应该是最近的。

  内容范围(Coverage)。明确网页所提供的实际内容与声明宗旨是相符且无重要遗漏。

4网络信息检索几点体会

4.1 选择合适的检索词。

  尽量选专指词、特定概念词或非常用词,避免普通词、泛指概念。

4.2 选择合适的检索工具

  有时还需要直接检索网上数据库,或者专业性搜索引擎。

信息类型与搜索引擎的匹配

检索目的 适用的搜索引擎

查找广泛、综合性信息 雅虎中国,百度,Yahoo!, Infoseek,Lycos

查找具体的细节性信息 天网, Alta Vista,Infoseek

最大可能地查到相关信息 天网,网易,Alta Vista,Infoseek,Google,Ask Jeeves

搜索站点评论 Infoseek,Lycos

搜索标题和URL Alta Vista,Yahoo!

搜索用户小组 Google,Alta Vista,Infoseek

全文检索(交叉学科问题) Excite,OpenText,Alta Vista

图像、声音、视频文件 Lycos,Alta Vista

自然语言 3721,网易,Infoseek,Ask Jeeves

模糊检索(不知道确切的关键词) Excite, WWW Virtual Library

学术性信息 Excite, WWW Virtual library

流行性问题 雅虎中国,百度,Galaxy, Yahoo!

4.3 使用搜索引擎的高级检索功能

  缩小检索范围,节约浏览时间,快速检出所需结果。

4.4使用同义词、近义词、简称等

  检索软件的智能化程度较低,一般执行的是与关键词简单的字面匹配。因而会漏检与关键词相关或一致的概念。使用同义词和近义词和简称,可全面地检索出有关信息。

  计算机 电脑; 高中英语第二册 高二英语; 清华大学 清华;

  digital reference virtual reference;

  information retrieval information seeking

4.5 建立收藏夹

  根据工作、研究与爱好的需要,将平时发现的相关优秀网站分门别类建立收藏夹,并经常浏览。

4.6 扩大知识面,与别人交流

  对所检索课题的背景知识了解得越深越广,越容易检索到最符合需求的结果。每人都有其独特的思维习惯和知识结构,彼此交流可以有效地弥补个人知识盲区,开拓视野。

  总之,及时获得真实准确的因特网信息是信息检索者的目标。面对海量的因特网信息,检索者必须了解因特网信息资源的组织和分布,掌握因特网信息检索的方法与技巧,制定正确的检索策略,只有这样,检索者才可能敏锐、准确地捕捉到有用的信息,提高检索效率和效果。

思考题

1 简述Google的高级检索功能,试举例构写相关检索表达式。

2 简述网上原文信息获取途径及质量评价标准。

附录:因特网信息检索与利用学习资源

1 网络资源

  搜索研究院(http://www.)提供搜索引擎知识、技巧及业界动态等内容。

  搜索工具箱 (http://www./website/hunttool/ )提供搜索引擎使用指导,登录说明,相关文章和主要引擎链接。

  Finding Information On The Internet: A Tutorial 加州大学伯克莱分校互联网检索网络教程。(http://www.lib./TeachingLib/Guides/Internet/FindInfo.html)

  Bare Bones 101: A Very Basic Web Search Tutorial 美国南卡州大学ufort 图书馆网络检索基本教程。

Search Engine Watch 网络搜索技巧、搜索引擎最新动态等。

2 期刊数据库资源

  (http://210.38.195.8/)

  (http://210.38.195.8/e_re/cnki.htm)

  以“互联网”、“因特网”、“网络” “Internet/INTERNET”

“Web”等为检索词,配以学科领域关键词如“生物”、“化工”、“医药”、“橡胶”“经济”等,可检索出介绍各学科领域网络信息资源检索方法的大量文章。

3 传统馆藏资源

中图分类号G252.7 G354

《教师获取信息技能》

《信息检索—从手工到联机、光盘、因特网》

《网络学术信息资源及其检索》

《因特网信息资源检索与利用》

 《网络与光盘文献检索》

《现代信息检索》

《电子电信信息资源检索与利用》

 《法律文献检索教程》 《法学文献信息检索》

 《Internet上的化学化工资源》《Internet与化学信息导论》

 《化学化工信息及网络资源的检索利用》

 《农业文献信息检索与利用》《食品与烹饪文献检索》

《商情信息源检索》

 《电子商务信息检索》

 《旅游文献检索与利用》

谢谢大家





    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多