分享

知网

 e网琴聲 2019-02-15

折叠 编辑本段 哲学思想

要掌握和利用好知网系统,必须首先了解知网系统的哲学思想。知网系统的哲学也就是说它对客观世界的认识与把握。知网哲学的根本点是:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。它们通常是从一种状态变化到另一种状态, 并通常由其属性值的改变来体现。试以人为例,人的生老病死是一生的主要状态。这个人的年龄(属性)一年比一年大{属性值},随着年龄的增长头发的颜色(属性)变为灰白{属性值}。另一方面,一个人随着年龄的增长他的性格(精神)变得日益成熟{属性值},他的知识(精神产品)愈益丰富{属性值}。基于上述,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件。

特别要强调的是,部件和属性,这两个基本单位在知网的哲学体系中占有着重要的地位。关于对部件的认识是:每一个事物都可能是另外一个事物的部件,同时每一个事物也可能是另外一个事物的整体。门和窗是建筑物的部件;手和脚是动物的部件。但与此同时,一个建筑物又可能是一个社区的部件;一个人又可能是他所属的家庭或社会的部件。一切事物都可以分解为部件。没有一种事物只是整体,而不会是部件。我们认为一个事物被视为是整体还是部件,可以因系统的不同,而不同对待。关于部件在整体中的部位和它的功能,知网遵循这样一种认识:事物的部件在它整体中的部位和功能的描述大体上比照人体。例如:山头、山腰、山脚、桌腿、椅背、河口,建筑物的门和窗比照人体的口和眼等等。汉语用拟人的手法来描述部件,别的语言也类似,这反映了人类认识事物方法的共性。

关于对属性的认识是:任何一个事物都包含着多种属性,事物之间的异或同是由属性决定的,没有了属性就没有了事物。人有种族、肤色、性别、年龄、性格、会思维、会使用语言等自然属性以及国籍、出身、职业、贫富等社会属性。在某些特定的情况下可以说属性比事物更重要,这一点在人们的日常生活的替代活动中可以得到体现。如:当我们要把一个钉子钉到墙上,但我们没有锤子,于是我们要找锤子的替代物,那么什么是锤子的替代物呢?那应该是属性最接近锤子的属性的物品才可能是替代物,而这时重量和硬度是关键性的属性。属性和它的宿主之间的关系是固定的,这是说有什么样的宿主就有什么样的属性,反之亦然。属性与宿主之间的关系同部件与整体之间的关系是不同的。这也体现在知网在涉及属性的标注规范上,知网规定在标注属性时必须标注它可能的宿主的类型。知网还规定在标注属性值时都必须标注它所指向的属性。

折叠 编辑本段 网站特色

计算机化是知网的重要特色。知网是面向计算机的,是借助于计算机建立的,将来可能是计算机的智能构件。

知网作为一个知识系统,实副其名是一个网而不是树。它所着力要反映的是概念的共性和个性,例如:对于"医生"和"患者","人"是它们的共性。知网在主要特性文件中描述了"人"所具有的共性,那么"医生"的个性是他是"医治"的施事,而"患者"的个性是他是"患病"的经验者。对于"富翁"和"穷人","美女"和"丑八怪"而言,"人"是它们的共性。而它们的个性,即:"贫"、"富"与"美"、"丑"等不同的属性值,则是它们的个性。

同时知网还着力要反映概念之间和概念的属性之间的各种关系。知网把下面的一种知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。

知网描述了下列各种关系:

(a) 上下位关系 (由概念的主要特征体现,请参看《知网管理工具》)

(b) 同义关系(可通过《同义、反义以及对义组的形成》获得)

(c) 反义关系(可通过《同义、反义以及对义组的形成》获得)

(d) 对义关系(可通过《同义、反义以及对义组的形成》获得)

(e) 部件-整体关系(由在整体前标注 % 体现,如"心","CPU"等)

(f) 属性-宿主关系(由在宿主前标注 & 体现,如"颜色","速度"等)

(g) 材料-成品关系(由在成品前标注 ? 体现,如"布","面粉"等)

(h) 施事/经验者/关系主体-事件关系(由在事件前标注 * 体现,如"医生","雇主"等)

(i) 受事/内容/领属物等-事件关系(由在事件前标注 $ 体现,如"患者","雇员"等)

(j) 工具-事件关系(由在事件前标注 * 体现,如"手表","计算机"等)

(k) 场所-事件关系(由在事件前标注 @ 体现,如"银行","医院"等)

(l) 时间-事件关系(由在事件前标注 @ 体现,如"假日","孕期"等)

(m) 值-属性关系(直接标注无须借助标识符,如"蓝","慢"等)

(n) 实体-值关系(直接标注无须借助标识符,如"矮子","傻瓜"等)

(o) 事件-角色关系(由加角色名体现,如"购物","盗墓"等)

(p) 相关关系(由在相关概念前标注 # 体现,如"谷物","煤田"等)

知网的一个重要特点是:类似于同义、反义、对义等种种关系是借助于《同义、反义以及对义组的形成》由用户自行形成而不是逐一地、显性地标注在各个概念之上的。

知网是一个知识系统,而不是一部语义词典。尽管被我们称为知识词典的常识性知识库是知网的最基本的数据库。知网的全部的主要文件包括知识词典构成了一个有机结合的知识系统。例如,主要特征文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分,而不仅仅是标注的规格文件。我们预计用户将来把它们与知识词典一起加以利用。

折叠 编辑本段 建设方法

折叠 概述

知网是一个以上述各类概念为描述对象的知识系统。知网不是一部义类词典。知网是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。这是它与其他的树状的词汇数据库的本质不同。知网的哲学和它的根本特性决定了它的特别的建设方法。

折叠 义原的提取

什么是义原,跟什么是词一样的难以定义。但是也跟词一样并不因为它难于定义人们就无法把握和利用它们。大体上说,义原是最基本的、不易于再分割的意义的最小单位。例如:"人"虽然是一个非常复杂的概念,它可以是多种属性的集合体,但我们也可以把它看作为一个义原。我们设想所有的概念都可以分解成各种各样的义原。同时我们也设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果我们能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,我们就有可能建立我们设想的知识系统。利用中文来寻求这个有限的集合,应该说是个捷径。中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。

所用方法的一个重要特点是对大约六千个汉字进行考察和分析来提取这个有限的义原集合。以事件类为例,在中文中具有事件义原的汉字(单纯词)中我们曾提取出3200个义原。试以下面为例我们得到了9个义原但其中有两对是重复应予合并。

治:医治 管理 处罚 ……

处:处在 处罚 处理 ……

理:处理 整理 理睬 ……

3200个事件义原在初步合并后大约可以得到1700个,然后我们再进一步加以归类,我们便得到大约700多个义原。当我们发现这700多个义原不符合或不满足要求时,我们便进行的合理调整或适当扩充。这样就形成了今天的800多个事件义原的标注集以及由它们标注的中文的事件概念。

综上所述,知网的建设方法的一个重要特点是自下而上的归纳的方法。它是通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。

折叠 义原的考核与确定

第一、在扩大标注中观察该义原的覆盖面。原则:已有的义原一定要能够描述全部的概念。这里有一个比较硬性的规定,即当发现一个具有多个概念的词语,例如八个,而已有的义原不能够把这八个概念区别开来时,就必须对我们的标注集加以调整,这是绝大多数的情况。在很个别的情况下不排除怀疑其中某个概念是否存在,以决定取舍。

第二、观察某一个义原在概念之间关系中的地位。如果一个义原在同类别的许多概念中出现或者不同类别的概念中出现,那么这样的义原就是稳定的义原是一个必须确定的义原。以事件类"医治"这个义原为例,它不仅出现在"医"、"治"、"治疗"、"医疗"、"治病"、"求医"、"看病"等概念中,并且还出现在"医生"、"医院"、"医药"、"诊所"、"不治之症"、"有病乱投医"。因此,"医治"这个义原是稳定的、是必须确定的。

无论是义原的提取还是义原的考核与确定,在知网的建设中都是至关重要的和具有决定意义的。它们贯穿于知网建设的全过程。因此,知网建设的方法的主要特点是:(1)自下而上的;(2)标注集的形成和知网建设是互动的。

折叠 编辑本段 系统概貌

折叠 数据文件和程序

1.知网管理系统

2.中英双语知识词典

知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的,修改和增删都很方便,因此它的规模是动态的。它的规模通常以词语的条数以及由词语所表述的概念的条数计算。

折叠 词典记录

知识词典是知网系统的基础文件。在这个文件中每一个词语的概念及其描述形成一个记录。每一种语言的每一个记录都主要包含4项内容。其中每一项都由两部分组成,中间以"="分隔。每一个"="的左侧是数据的域名,右侧是数据的值。它们排列如下:

W_X= 词语

E_X= 词语例子

G_X= 词语词性

DEF= 概念定义

折叠 词语概念选择

第一,我们不认为汉语有很严格的、如印欧语言那样的"词"。因此知识词典的描述的最基本单位,不必要去追求严格的关于词的定义。我们选择词语的依据是建立于4亿字汉语语料库按出现频率形成的词语表,而不是仅仅依据某一本现成的词典。知识词典很注意收集已经流行又有较固定可能的词语,如"因特网"、"欧元"、"二恶英"、"下载"、"点击"、"黑客"等,但又不盲目求新,如不收"打的"。

第二,词语的概念或称义项的选择也是经过精心考虑的。一般很注意某一义项的现代的流通性。例如"曹"在普通词典中至少有两个义项,一是"姓",另一是"辈"如用于"尔曹"。而知识词典只选择第一个义项。

第三,我们同时给出了与词语相对应的英文释义。我们的目的是体认知识词典对概念的描述方法是否也适用于另一种语言。按理是应该能够适合的。我们的目的当然不是为最终用户提供普通的汉英词典。

折叠 词语例子

迄今为止,我们主要是为那些具有多个义项提供例子。这些例子的要求是:强调例子的区别能力而不是它们的释义能力。它们的用途在于为消除歧义提供可靠的帮助。这里试以"打"的两个义项为例,一个义项是"buy/买",另一个是"weave/辫编"。

折叠 定义标注

知网对概念的描述是要着力体现概念与概念和概念的属性与属性之间的相互关系,因此,知网对于概念的描述必然是复杂的。这就必须有一套明确的规范,否则便无法保证描述的复杂度和描述的一致性。概念描述既有总的、一般性的描述,也有因不同类别的细节性描述。

但是,描述的方法和规定又必须保证能够最大限度地表现概念与概念和概念的属性与属性之间的相互关系。事实证明满足复杂性和一致性统一的要求的可行途径是设计一种知识词典的描述语言。知网建设的过程也是设计与建立这样的描述语言的过程。

折叠 编辑本段 规定

折叠 简要概括

(1) 任何一个概念的DEF项是必须填写的,不得为空。

(2) DEF项中用以定义的特性至少是一个,但也可以是多个,数量没有限制,只要内容是合理的且形式是合乎规范的。

(3) DEF项的第一位置所标注的必须是知网所规定的主要特征(详见《知网管理工具》),否则视为语法错误。但是有些关系意义,可以把次要特征置于{}中后,作为第一位置标注。例如一些介词、连词等虚词,严格地说它们本身没有概念意义

(4) 多个特征之间应以英文逗号","分隔,且逗号与特征之间没有空格。

(5) 除第一位置以外,其他位置也可以填有主要特征,但应该说明的是,当主要特征在非第一位置时它失去了原有的上下位关系。

(6) DEF项中任何一个位置上的信息都可以带有知网所规定的标示符号。

折叠 细节

关于事件类概念的规定

(1) DEF项的第一位置只能是事件类文件所规定的主要特征;

(2) 对于那些以事件为中心的复杂概念的标注则应遵循如下规定:

(a) 应利用动态角色来标注复杂概念,因为所谓的复杂概念多半是除了事件中心本身以外还有一个或一个以上的动态角色。(b) 在表示上述动态角色时它的书写格式是:动态角色名称 = 主要特征或次要特征。

关于属性值和数量值类概念的规定

(1) "属性值"是所有属于属性值概念的唯一的主要特征,"数量值"是所有属于数量值概念的唯一的主要特征,因此他们分别是两类概念的首位标识(2) 属性值概念和数量值概念除首位标识外必须还包含有一个次要特征。在第二位上一定要标注该属性值或数量值所指向的属性或数量特征(3) 通常绝大多数情况下在第三位置上标注该属性值或数量值的具体值

关于属性和数量类概念的规定

(1) "属性"是所有属于属性概念的唯一的主要特征,"数量"是所有属于数量概念的唯一的主要特征,因此他们分别是两类概念的首位标识(2) 所有属性或数量概念都必须借助"&"标注其宿主的类型

关于单位类概念的规定

(1) 单位通常是指"米"、"公里"、"吨"等,对于中文而言还包含中文所特有的名量和动量

(2) 跟属性类一样,除在首位标注的是单位、名量或动量外,还必须借助"&"标注其指向的属性或事物的类型关于

部件类概念的规定

第二位标识必须借助于"%"指明其所属的整体的类型,并尽可能标注它在整体中的部位或它的功能。

折叠 编辑本段 事件类

折叠 简介

事件的主要特征可在《知网管理工具》中看到。其总数800以上,占整个知网特征总数的一半以上,足以见得事件类概念的重要以及知网对事件类概念的重视。上述文件中每一个主要特征附有一个必要角色框架,置于"{}"中,还有一个"[]"其中也标有各种特征。角色框架和置于"[]"中的各种特征为事件类概念的共性的次要特征。

折叠 特征关系

知网通过自下而上的事件概念的逐一考察,认定事件的主要特征之间的关系有三类:

1.上下位关系2.静与动的对应关系3.动态相互感应关系

知网认定事件中表示关系的有九类,事件中表示状态的分为物质状态和精神状态两大类。物质状态包括:存现、常态、良态、衰态、消失(如:生物的生、老、病、死)。精神状态包括:情感、态度、欲望、认知。知网认定事件中表示行为动作的都是与上述关系和状态一一对应的,归根结底体现一个"变"字,即变关系和变状态。需要提请注意的有两类:一是变具体属性的行为动作,如:"提高"、"降低"、"美化"、"加温"等;二是变使动或制动的行为动作,如:"使"、"让"、"命令"、"静止"等。粗略的看这两类行为动作与关系或状态没有具体的一一对应的关系,但是实际上它们也是变关系或状态的。任一个实体,当其属性改变的时候,如由冷变热(在"加温"的作用下),就是其自身内在状态的变化。任一实体,当在使动或制动的行为动作的作用下发生某种行为或停止某种行为,都是其与外界关系的变化。

折叠 编辑本段 角色框架

在知网中,800个事件主要特征中的每一个都标识有一个角色框架。知网所规定的动态角色载于文件"动态角色与属性"。在框架中所列出的角色是该主要特征的必要绝对角色,这就是说,少了其中的一个,该事件将不成立。我们特别提请注意:这里说的是当某一类事件发生时框架中的全部必要角色都将参与,这与实际的语言中是否出现并无关系,例如:"买"这一事件发生时,必要绝对角色是:谁(施事)买,买什么(领属物),从哪(来源)买,付多少钱(代价),为谁(受益者)买。又如:"同情"这一事件发生时,必要绝对角色是:谁(经验者),同情谁(对象),因为什么(原因)。

诚然在实际语言中在一句话中把上述角色都表达出来时不多见的,但不表达并不等于不存在。由于任何一个事件的发生都是在特定的时间与空间中,因此我们在必要角色框架中没有列入时间和空间。

必要角色框架体现了事件的共性。因此,在知网的建设中它成为判定概念的重要依据。

折叠 编辑本段 事物类

事物的主要特征也可在《知网管理工具》中看到,主要特征被组织成一个层级框架体现它们的上下位关系。事物类层次较浅,知网对于事物类的描述主要是要体现它们的共性和个性。每一个主要特征的共性在文件中置于"[]"中。而概念的个性则逐一的标注在个别的概念的DEF中。

折叠 编辑本段 费用

从事学术研究,获取文献,尤其是中文文献,中国知网(cnki)是最主要的途径。国内大部分高校都会购买中国知网的服务,因此在校园内,使用学校IP地址一般可以免费下载。

但如果非IP登录,通过注册用户名登录,购买知网卡也可以下载文献。不过,收费比较昂贵,一页0.5元。对于已经毕业或所在机构没有购买知网数据库服务但又需要获取文献的用户来说,这是一笔不小的经济负担。无奈之下,许多人只能通过在校内的朋友帮忙下载论文。

作为国内知名度与论文载量均排在前列的中文数据库,中国知网从1999年建立至今,一直都位列国内各大高校图书馆的数据库选择名单。然而,近年来知网的大幅涨价让很多学校吃不消 。2016年4月,北京大学将停用知网服务的新闻一度引起许多关注。

据媒体报道,知网涨价幅度每年都在10%以上,这样高的涨幅导致不少高校不堪重负,遂出现多家高校停用知网的现象。不仅北大停用知网,山东、云南、湖北、安徽、河北等地高校都出现过知网停用又重启的情况。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多