分享

浅读检索--《论布尔检索与语义检索的联合运用策略》

 木槿团子 2023-03-15 发布于福建

本文浅读的对象,为期刊“中国发明与专利”2019年第16卷中的检索相关文章,作者为来自国家知识产权局专利局专利审查协作四川中心的胡莹莹、陈勇。以下浅读、分析等均仅代表本人观点,不代表作者胡莹莹陈勇点。如有其他理解欢迎交流。


论布尔检索与语义检索的联合运用策略》主要阐述了布尔检索与语义检索各自的优缺点,及在不同情况下如何联合运用布尔检索与语义检索。本文的语义检索逻辑是借用了patentics数据库。我知道这个数据库,但不熟悉其具体使用技巧和内在逻辑,因此接下来的分析解读不会花大篇幅介绍patentics的语义检索使用,有对其感兴趣的可以自己联系对方数据库。

布尔检索就是利用布尔算符and、or、not构建检索式进行的检索(这里注意布尔算符和同在算符的区别,布尔算符是不包括同句、同段、邻近算符的);语义检索就是利用数据库的语义检索功能,直接输入一定检索要素进行的检索,每个数据库之间应当会有内在逻辑的区别,我们使用者对自己手头的数据库清晰认知即可。

布尔检索与语义检索各自有哪些优缺点呢。在优点上,作者认为:“布尔检索优在对具体技术特征的检索,而语义检索胜在对技术方案的整体覆盖...[1]”而缺点即对应优点。即布尔检索在对技术方案的整体覆盖方面不具有明显优势,而语义检索在对具体技术特征的检索方面不具有明显优势。

两个检索方式各自的内在逻辑,作者已经在文中说明了,我就从实际操作上,用我的理解来解读一下两个检索方式的优缺点。

1)布尔检索

布尔检索就是利用布尔算符and、or、not构建检索式进行的检索。布尔算符连接的是前后检索要素,主要是关键词和分类号,有时候也有时间范围等其他要素。要素一般经过对检索对象技术方案的分析理解后选取,在选取到扩展组合,有一个过程,这个过程中,从开始到结尾,都是把各个要素作为独立的部分看待的,在最后组合成检索式时才成为一个形式上的整体。这在操作和目的上都体现了作者所说的“布尔检索优在对具体技术特征的检索[1]

在前文中也提到,布尔算符是不包括同句、同段、邻近算符的,这几个算符所能限定的前后要素关联强度极其有限,他们不像同句、同段、邻近算符那样,可以限定前后要素在一个句、一个段中,或限定前后要素间隔几个字词。布尔算符能限定的前后要素,是出现在全文中即可,仔细理解起来就是毫无限定。在这样的算符使用条件下,我们仅能通过构建检索式来表达,“我想检索的文献有这些要素”,而不能表达,“我想检索的文献有这些要素且要素有一定位置关系”。位置关系通过前文中的同句、同段、邻近算符的句、段或其他方式来体现,这强调了要素间的关联强度。有关联强度的检索式,能一定程度的具象化整体方案。拿我某篇浅读(浅读检索--《“位置算符”在专利信息检索中的应用》)的例子来说:

图片

这在操作和可实现效果现了作所表达的布尔检索在对技术方案的整体覆盖方面具有明显优势的意思。

2)语义检索

语义检索就拿patentics数据库举例,但是文中说了很长一段,有些复杂,我就简单的概括一下,有概括不对的,喷就是了。

我的概括,语义检索在数据库的操作上是这样:数据库给每个专利文献文字内容拆分后,根据这些文字内容在文中的位置和频率等整了一系列向量值出来,而我们输入语义检索的内容,也会被数据库赋予一定向量值,两个对比一下,然后按对比的相似度排序。因其在操作和内在逻辑上考虑了要素在文中的位置和频率,因此体现了作者所说的语义检索胜在对技术方案的整体覆盖[1]

看起来真不错,那么语义检索为何在对具体技术特征的检索方面不具有明显优势呢。我想了想,暂时没想到更通俗易懂的表达,直接引用文中吧:“...在对其中的实词信息完整获取的同时,意味着对技术方案中的发明点和非发明点都进行了获取,而将代表非发明点的词汇纳入检索过程中会带来噪音,例如在技术方案的撰写内容中,若某一非发明点的技术特征出现多次时,在语义检索的词频统计过程中会对技术特征赋予较高权重,反而将真实发明点的权重降低,影响检索效果。[1]

在作者看来,布尔检索与语义检索各自优缺点相反,因此如果优势互补,如在语义检索过程中增加布尔检索的限定,即可结合双方优点以弥补双方各自不足。这的确是个办法,但我个人觉得有点问题。

文中的举例,均是在语义检索过程中发现了较为合适的、与技术方案关联性强的关键词后,在语义检索的基础上新增了布尔检索。那么既然已经找到了关联性强的关键词,是否可以直接考虑布尔检索呢,就利用布尔检索的优势?这里作者并没有交代清楚。

文中举例的做法实际上是很常见的检索思路。通过语义检索或相似检索找到关联性或相似性强的文件,再从中找到可选取并扩展的检索要素,或加深了技术理解后调整检索思路。他的特殊性在于,后续的调整是利用了语义检索的二次检索功能。因此说是联合运用策略,实际上可以说,是在强化以语义检索为主的检索策略。

如果非要说联合运用,也可以以布尔检索为主,辅助语义检索,即将语义检索过程中发现的有用的信息利用起来,用于构建完善的布尔检索式。如果是这样的联合运用策略,那么语义检索就是发现信息源的手段,而布尔检索是后续的信息利用。

想的远一些,如果不结合布尔检索及语义检索,是否可以通过其他方式来优化单一检索策略呢。我简单阐述一下自己的习惯检索方式。

1)单一布尔检索优化

这里不会太严谨,说是单一布尔检索优化,我实际上是引用同在算符来优化。前文中我已经阐述同在算符的优势,就是可以限定前后要素在一个句、一个段中,或限定前后要素间隔几个字词,并以此强调要素间的关联强度,而有关联强度的检索式,能一定程度的具象化整体方案。加入同在算符以优化的前提是做好目标文件的假设,这也在我某篇浅读(浅读检索--《“位置算符”在专利信息检索中的应用》中有所解释,感兴趣的可以点击链接细读。

2)单一语义检索优化

前文中提到语义检索的问题:“...若某一非发明点的技术特征出现多次时,在语义检索的词频统计过程中会对技术特征赋予较高权重,反而将真实发明点的权重降低...[1]”这一方面可以反向利用其逻辑,控制输入内容的词频,另一方面控制输入内容的表达,具体的说可以控制输入要素的表达准确度,及输入要素间的位置远近。

举个例子,我们经常会拿相似文件中部分内容进行语义检索,那么当我们想要用于语义检索的内容有不合适的模糊部分,我们可以修改并将其替换为准确度更高的表达,去掉不必要的可能增加噪音的部分。

参考文献:

[1]胡莹莹,.论布尔检索与语义检索的联合运用策略[J].中国发明与专利,2019,(16):161-166


黑娃王律简介

王律(王伟麟律师;思博论坛ID“小兔兔考专代”

图片

1)北京市盈科(东莞)律师事务所执业律师及专利代理机构负责人、专利代理师、思博论坛版主;

2)经办案件曾入选广东律协评选的“2019十大涉外知识产权典型案例”,曾参与处理涉及某中国头部手机及通信公司和某新西兰音乐家的跨国著作权纠纷、涉及某美国TOP1手机公司和某美国通讯研发公司的跨国SEP专利权纠纷;

3)精通日语英语并可作为工作语言,专长于知识产权法、竞争法、涉外法律纠纷;

4)中南大学工学学士、厦门大学法学硕士。

黑娃(许利民,思博论坛ID“黑娃”)

图片

1)泉州振科技术服务有限公司信息技术总监、思博论坛版主及检索讲师、检索分析师;

2)擅长无效检索、侵权检索、稳定性检索、公众意见检索、查新检索,有涉诉无效检索经验;

3)有丰富的对企、代理机构检索培训经验,有依托思博论坛和合享(incopat)平台的直播检索讲课经验。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多