分享

译言网 | 语义网之路

 wyche 2010-06-12

语义网之路
Alex Iskold

        John Markoff's最近的文章在NY Times引起了一番关于语义网的WEB 3.0的大讨论。例如, Fred Wilson的博客中用冗长的评论来试图定义Web1.0, Web2.0 和Web3.0 。某些人认为, 语义网是关于AI(人工智能)的, 另一部分人主张, 它更多的是关于语义学的, 但另有人认为它是关于数据注释的。无论如何当它到来时,必将带来生产力的变革和跟多的愉悦。为了在语义网完全到来前去认识它,让我们来看下它的一些元素,定义。


什么是语义网?

        Wikipedia 定义语义网为"a project that intends to create a universal medium for information exchange by putting documents with computer-processable meaning (semantics) on the World Wide Web"。核心想法是创造元数据来描述数据,进而使计算机能处理它。一旦计算机应用了语义学, 他们将解决复杂的语义最优化问题。就如John Markoff 在他的文章里描述的那样, 如果你告诉它一个预算在3000以内的假期旅行,计算机能立即退回相关的搜索结果。

        为了使计算机能够解决上面的问题, 网络上的信息需要进行描述和关联性的注释。语义学基本分类包括对象和它的属性。例如, books归入books类,各对象包括属性,譬如作者、页的数量和出版日期等。关系的例子来自各种各样的社交网络, 我们都是其中的一部分。在一个网络中也许是朋友关系,另一个网络可能是家庭成员,也许在其他的网络里面又是工作团队关系。

RDF(Resource Description Framework) 、OWL(Web Ontology Languages)和精确的描述

        有数十亿的不遵循任意结构的HTML页面,既不包括描述也没有元数据。所以问题是我们怎么才能从现在这样的的情况出发得到一个充满语义信息的网络呢? W3C 联盟通过规定RDF (Resource Description Framework) 和OWL(Web Ontology Languages) 试图对信息进行捕获和描述, 以期用一个严谨的, 精密的方式将存在论与信息关联在一起,。

        RDF 是通过谓语来描述关系的一种基于XML的语言。Wikipedia中定义为:“The subject denotes the resource, and the predicate denotes traits or aspects of the resource and expresses a relationship between the subject and the object”。主语表示资源, 谓语表示资源的特征或资源的轮廓并且明确主语和宾语之间的关系。例如, "The sky has the color blue" 在RDF中包括三个格式串: 主语是"the sky", 谓语是"has color", 宾语是"blue" 。

        OWL是描述和论证存在论的另外一种基于XML 的语言。简言之, OWL使语义描述变得简单,譬如狗是动物或狗有四条腿。OWL有三个特性:  OWL Lite, OWL DL 和OWL Full。每个特性在描述和精确间捕获不同的侧面。这个RDF/OWL 框架比较全面, 但对于没有数学与计算机共同背景的人来说理解它还是很困难的。假设这是个通往成功的方法,  那么现在需要一种自动的机械来将现在存在的HTML内容转换成RDF 和OWL元数据。然而, 就像是鸡生蛋还是蛋生鸡问题,如果我们从现在就做起,就不存在上述问题了。我们可以用自动机器完成80% 工作和然后人工完成另外20%的 工作。 


Microformats(微缩格式)

        由于RDF 和 OWL的复杂, 一个小组正在尝试一种另外方法,microformats(微缩格式)。microformats(微缩格式) 的目标是将基本的语义学埋置入HTML 页面里。现在它不像RDF 和OWL那样富于表达, 但是它可以利用XHTML 工具紧凑和实用的增加语义学到页面中去。例如, 有一种描述关联信息的microformat 叫做hCard 。使用hCard 可以注释HTML,从而使microformat-aware浏览器或搜索引擎可能推论关于一个人的信息,譬如姓、名、公司或电话号码等。另一个成熟的microformat 称为hCalendar ,它允许页面作者自己去描述事件。许多普遍的事件站点, 譬如Facebook 和Yahoo! Local 用这种格式将注释加到他们的HTML页面中。

        暂且将表达美学放一边, microformats方法要比RDF 和OWL都清晰简单。即使它不是最强有力的, 它仍然变得普遍起来。许多站点作者开始将microformats埋置于他们的HTML页里。我们也看到一个基于microformats的早期的搜索引擎,Technorati就是个例子 。使用microformats并且排除不明确信息的搜索。这就像垂直搜索引擎-知道你搜索的垂直关系。由于microformats被埋植于页面中,数据不再是不确定的,所以搜索的结果将更加精确。

        但是, microformats也有一些问题。首先,我们必须给页面加注释,好消息是格式更加简单, 甚至可能通过反向工程和自动化来完成。第二个问题是, 当前microformats的设置不能覆盖我们在网络上遇到的所有问题。例如, 我们不会描述书或电影。在“覆盖”到整个网络前我们需要更多的格式。

语义网是个人化的网 

        注释数据这个问题很复杂而且离完全解决还有很长一段路要走。但把它先放在一边,让我们看看当所有的数据都被注释后我们能干点什么。可以肯定的一点是, 我们不用再像现在这样-从一大堆乱七八糟的东西中提取信息了。假设信息量按照指数增长并且我们允许的公差是缩小的, 这是一个非常迷人的提议。如果计算机能够立即返回你需要的结果, 我们节省很多时间。
        但是只知道语义学和数据之间的关系还是远远不够的。以旅行社为例。当您第一次去那时, 即使接待人员知道旅行语义学, 以及事务中各种因素与价格之间的关系,服务人员也不知道给您提供什么信息。为了更加有效,她需要知道您到过哪以及您新欢什么样的目的地。这就是为什么她问你问题了。
        语义网的第二个重要元素是促进生产力。一旦计算机知道您的参数并且它在网上有一个语义描述, 它就能根据规则给你一个精确,私人化的结果。更加困难的是,您个人的爱好是一个从电脑返回的数据的过滤器: 找一个预算在3000元以下的旅行计划,如果这些都实现了,那我们可以宣布语义网时代已经到来了。


结论

        那么Web 3.0就是语义网? 或许吧。但它到来了吗? 不确定。我们需要时间来注释全球的信息,通过合理的途径获得个人信息,实现我们所讨论的各种软件。我们离目标越来越近,而且数年后我们将看到一个明媚的结果。
        顺便说下, 如果您希望我们写更多关于语义网的文章,请告诉我们和我们将继续努力。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多