知识本体体系

求是1025 2023-05-02 发布于山东

展开全文

如果对于一个领域中的客体进行分析，找出这些客体之间的关系，获得此领域中不同客体的集合，这一个集合可以明确地、形式化地、可共享地描述这个领域中各个客体所代表的概念体系，这个概念体系的规范就可以看成这个领域的知识本体。

人们很早就开始研究知识本体。知识本体有很多不同的定义，这些定义有的是从哲学思辨出发的，有的是从知识的分类出发的，最近的一些定义则是从实用的计算机推理出发的。

《牛津英语词典》对于知识本体的定义是“对于存在的研究或科学”（the science or study of being），这是来自哲学研究的关于知识本体的经典定义。但这个定义是广泛的，因为它试图研究存在的一切事物，为存在的一切事物建立科学。

远在古希腊时代，哲学家就试图研究当事物发生变化的时候，如何去发现事物的本质。例如，当植物的种子发育变成树的时候，种子不再是种子了，而开始成为树。树还包含着种子的本质吗？巴门尼德（Parmenides，古希腊）认为，事物的本质是独立于人们的感官的。种子在表面上虽然变成了树，但是它的本质是没有改变的，所以，在实质上种子并没有转化为树，只不过是人们的感官原来感到它是种子，后来感到它是树。亚里士多德（Aristotle，希腊，公元前384～前322）认为，种子只不过是还没有完全长成的树，在发育过程中，树的本质并没有改变，只是改变了它存在的形式，从没有完成长成的树（潜在的树）变成了完全长成的树（实在的树）。

在中世纪，学者们研究事物本身和事物的名称之间的关系，分为唯实论（realism）和唯名论（nominalism）两派。唯实论主张，事物的名称就是事物本身；而唯名论主张，事物的名称只不过是引用事物的词而已。在中世纪晚期，大多数学者都倾向于认为，事物的名称只是表示事物的符号（symbol）。例如，“book”这个名称只不过是用来引用一切作为实体的“书”的一个符号。

1613年，哲学家R.郭克兰纽（R.Goclenius，德国）在他用拉丁文编写的《哲学辞典》中，把希腊语的“on”（也就是being，“存在”）的复数“onta”（也就是beings）与“logos”（含义为“学问”）结合在一起，创造出“ontologia”这个术语，也就是英文的“ontology”，这是西方文献中最早出现的“ontology”这个术语。1636年，哲学家A.卡洛维（A.Calovius，德国）在《神的形而上学》中，把“ontologia”看成“形而上学”（“metaphysica”，英文为“metaphysics”）的同义词，如此便把“ontologia”与亚里士多德的“形而上学”紧密地联系起来了。哲学家R.笛卡尔（R.Descartes，法国）更是明确地把研究本体的第一哲学叫作“形而上学的ontologia”，“ontologia”有由此形而上学的一个部分。哲学家G.von莱布尼兹（G.von Leibniz，德国）和他的继承者C.沃尔夫（C.Wolff，德国）更是从学科分类的角度，把“ontologia”归属为形而上学的一个分支，使“ontologia”成了哲学中一个相对独立的分支学科。

“ontologia”这个术语，在哲学中翻译为“本体论”；在语言学中，从应用的角度出发，统一地翻译为“知识本体”。

哲学家E.康德（Emmanuel Kant，德国，1724～1804）也研究知识本体。他认为事物的本质不仅仅由事物本身决定，也受到人们对于事物的感知或理解的影响。康德提出这样的问题：人们的心智究竟是采用什么样的结构来捕捉外在世界？为了回答这个问题，康德对范畴进行了分类，建立了康德的范畴框架，这个范畴框架包括4个大范畴：“quantity”（数量）、“quality”（质量）、“relation”（关系）和“modality”（模态）。每一个大范畴又分为3个小范畴：“quantity”又分为“unity”（单量）、“plurality”（多量）、“totality”（总量）；“quality”又分为“reality”（实在质）、“negation”（否定质）、“limitation”（限度质）；“relation”又分为“inherence”（继承关系）、“causation”（因果关系）、“community”（交互关系）；“modality”又分为“possibility”（可能性）、“existence”（现实性）、“necessity”（必要性）。根据这个范畴框架，人们的心智就可以给事物进行分类，从而获得对于外界世界的认识。在数据库中，可以根据康德的方法给事物建立一些范畴，从而根据这些范畴来管理数据。例如，可以给人事管理数据库建立姓名、性别、籍贯、职业等范畴，使用这些范畴进行人事管理。康德对于范畴框架的研究，为知识本体的研究奠定了坚实的基础。不过，他的这个范畴框架不同于亚里士多德的范畴系统，康德在他的《纯粹理性批判》的著作中明确地反对亚里士多德的10个范畴。

1991年，计算机专家R.尼彻斯（R.Niches，美国）等人在完成美国国防部高级研究计划局（Defense Advanced Research Projects Agency，简称DARPA）的一个关于知识共享的科研项目中，提出了一种构建智能系统方法的新思想，他们认为，构建的智能系统由两个部分组成，一个部分是“知识本体”，一个部分是“问题求解方法”（Problem Solving Methods，简称PSMs）。知识本体涉及特定知识领域共有的知识和知识结构，它是静态的知识，而PSMs涉及在相应知识领域进行推理的知识，它是动态的知识，PSMs使用知识本体中的静态知识进行动态的推理，就可以构建一个智能系统。这样的智能系统就是一个知识库，而知识本体是知识库的核心。知识本体在计算机科学中就引起了学者们的极大关注。

尼彻斯的构想可以表示为：

静态的“知识本体”+动态的“问题求解方法”=知识库

1990年，中国语言学家冯志伟提出了“双态理论”（Bi-states Theory）。根据“双态理论”，在机器翻译系统中，要把静态标记和动态标记结合起来，静态标记要表示存储在机器词典中的单词的词类特征和单词固有的语义特征，它们是与单词所在的上下文语境无关的；动态标记是使用静态标记经过计算机运算求出来的句法功能标记、语义关系标记、逻辑关系标记，它们是要根据单词的上下文语境来确定的。静态信息的制定要根据词类和语义系统的规范；动态标记的求解要根据产生式规则，产生式规则的基本形式是“条件-动作”偶对。因此，面向机器翻译的语言学研究要着重阐明规则的条件。冯志伟所说的词类规范实际上就是语法信息的规范；语义系统的规范实际上就是概念系统的规范，也就是“知识本体”。

冯志伟的“双态理论”构想可以表示为：

基于语法信息和知识本体的静态标记标注的机器词典+基于产生式规则的动态标记求解规则=机器翻译系统

通过比较可以看出：冯志伟关于静态标记与动态标记相结合的“双态理论”构想，与尼彻斯关于静态的“知识本体”与动态的“问题求解方法”相结合的构想是非常相似的。

在20世纪末21世纪初，知识本体的研究开始成为计算机科学的一个重要领域。它主要任务是研究世界上的各种事物（例如物理客体、事件等）以及代表这些事物的范畴（例如概念、特征等）的形式特性和分类。计算机科学对于知识本体的研究是建立在上述的经典的知识本体研究的基础之上的。

计算机科学中对于知识本体也有几个定义。在人工智能研究中，T.格鲁伯（T.Gruber，美国）在1993年给知识本体下的定义是“知识本体是概念体系的明确规范”（An ontology is an explicit specification of comceptualization）。这个定义比较具体，也比较便于操作，在知识本体的研究中广为传布。

1997年，W.N.波尔斯特（W.N.Borst，美国）对格鲁伯的定义做了小修改，提出了如下的定义：“知识本体是可以共享的概念体系的形式规范。”（Ontologies are defined as a formal specification of a shared conceptualization）

1998年，R.施图德（R.Studer，美国）等在格鲁伯和波尔斯特的定义的基础上，对于知识本体给出了一个更加明确的解释：

“知识本体是对概念体系的明确的、形式化的、可共享的规范。”（An ontology is a formal explicit specification of a shared conceptualization）在这个定义中，“概念体系”是指所描述的客观世界的现象中有关概念的抽象模型；“明确”是指对于所使用的概念的类型以及概念用法的约束都明确地加以定义；“形式化”是指这个知识本体应该是机器可读的；“共享”是指知识本体中所描述的知识不是个人专有的而是集体共有的。具体地说，如果把每一个知识领域抽象成一个概念体系，再采用一个词表来表示这个概念体系，在这个词表中，要明确地描述词的含义、词与词之间的关系，并在该领域的专家之间达成共识，使得大家能够共享这个词表，那么这个词表就构成了该领域的一个知识本体。

知识本体已经成了提取、理解和处理领域知识的工具，它可以被应用于任何具体的学科和专业领域，知识本体经过严格的形式化之后，借助与计算机强大的处理能力，可以对于人类的全部知识进行整理和组织，使之成为一个有序的知识网络。

知识本体还可以实现人和人之间以及人和计算机之间知识的共享，实现在一定领域中知识的重复使用。在自然语言处理的语义分析中，知识本体可以提供单词的各种信息，揭示单词之间的各种语义关系，是语义分析的知识来源。

支持知识本体的开发工具已经有数十种，功能各不相同，对于知识本体语言的支持能力、表达能力各有差别，可扩展性、灵活性、易用性也不一样。其中比较著名的有Protégé-2000、OntoEdit、OilEd、Ontolingua等。其中，Protégé-2000是使用比较广泛的知识本体工具，是可以免费获得的开放软件，它用Java语言开发，通过各种插件支持多种知识本体格式。