分享

浅谈信息检索「查全」的三个基本要求

 木槿团子 2023-03-15 发布于福建
图片

(用最为柔软的线条来装进更多的内容,摄于西胡林途中)

本文共有2183字

图片

1 引言

了解信息检索的朋友可能都知道「查全率」和「查准率」两个概念,「查准率」相对比较好界定,通过文献的相关性可知一二。对于「查全率」,操作起来就比较复杂了,也是一个较难客观评价的指标。

本文应该也不能直接解决该问题,不过,希望通过分析信息检索「查全」的三个基本要求,来初步探究如何使得信息检索更为全面。

这三个基本要求分别为:

重要信息的完整性

新近信息的及时性

获取信息的无偏见

图片

2 重要信息的完整性

重要信息是指对于信息收集起到重要作用的信息。如果检索结果里面的非重点信息太多,重点信息不足,将可能会蒙住了真相,产生错觉。

一般来说,可从时间节点,相关主体以及重点区域等角度来确定重要信息

以专利检索为例,相关主题的技术起点是重要的时间节点之一,也是大家常说的“第一篇专利文献”,该类信息引领了整个行业的发展,在专利检索时不可或缺。

怎么来获取第一篇专利文献呢?可以从内外两个方向去探寻:

从内来看,可以通过不断检索,包括追踪检索和主题检索,来获取最早的专利文献;通过穷尽检索内容来确定 the first patent。

从外来寻,可以通过查询相关的综述性文章,来获知行业内关于该技术的起源时间,甚至有时候可以直接获取他人所认定的第一篇专利文献

重要信息的完整还应该包括重要相关主题。

对于科学研究,行业大牛和知名课题组是不容错失的,否则会贻笑大方。

对于行业情报,巨头企业以及行业精英也是需要重点关注,他们是拉动行业发展的最大动力。

某些时候,重要信息还体现在对于重点区域的覆盖程度。还是以专利检索为例,在钢铁行业的信息收集中,如果忽视了韩国的相关专利文献,很有可能会造成信息的不完整。

获取到重点信息,就是捕捉到关键,明确了要害,抓住了“牛鼻子”,这样的信息情报才更有价值。

图片

3 新近信息的及时性

从时间维度,可以将信息分为新近信息和古老信息。由于新近信息与未来的关联程度更高,因此,全面的信息不应该忽略新近信息。

随着信息越来越多,除了重要信息之外,新近信息的价值非常大:新近信息可能会引领未来的发展趋势,新近信息可能会决定未来的发展方向,新进信息很有可能只有部分人士才知道的信息

一定要关注新信息,一方面,其会使得信息更为完整;另外一方面,其不广为人知的特殊性,会产生明显的信息差,继而会导致认知差,从而拉开人与人之间的差距。

如何来获取新近信息呢?

第一是关注时事新闻。新闻就是最新的消息。不过时事新闻可能会质量参差不齐,大众化内容比较多,需要有一双筛选的眼睛。

第二是关注权威期刊的最新文章。文献一般会早于专利公开。那么多期刊文献如何追踪,可以使用合适手段来进行订阅,减少获取难度。

第三是和行业内部人士交流,在互联网时代,交流的方式越来越多,包括论坛,社群,会议,付费咨询等等。

第四是关注行业大牛的微博和朋友圈。大牛们的社交账号一方面会分享最新的成果,另外一方面,他们社交账号所分享的内容具有强大的社会效应,将会在一定程度上引领着未来的发展。

及时获取新近信息,不仅可以充实信息情报的完整性,还可以快速形成信息差,构筑具有核心竞争力的护城河。

图片

4 获取信息的无偏见

在大数据时代,信息纷涌而至,筛选合适的信息成为大脑的第一件事情。但是大脑是主观的,它只会根据过往的经验来选取其视野内可见的信息,慢慢一种不易察觉的偏见就诞生了。

在信息检索时,也会形成这种偏见,这种偏见有两个层次。

第一个层次是错误偏差,例如当我们错误认为“铁红”为“四氧化三铁”时,那我们所获取的信息也会产生偏差,检索结果的完整性也会大打折扣。

另一个层次是概念偏差,当我们对于信息主题的理解不完整时,将顺势带来检索结果的不完整。

在信息检索时,我们需要对抗这种偏见。

除了人为的制造偏见外,计算机的智能算法也在为我们构建信息茧房,让眼睛所看到的,心里所想到的,都是机器根据自身的第一感觉重复推荐,慢慢的再也不能感触到其他内容

无偏见获取信息既要对抗自己的大脑和情绪,也需要时刻避免被算法所控制。

为了避免认知的偏差,可以从溯源开始,从事物的本质出发,遇事不决多查多看多问,不断修正对于事务的看法,可以尽量减少偏见。

在对抗外界所带来的偏差时,最好的办法是主动走出去,多和人交流想法,听听不同的声音。

图片

5 结语

重要信息需要完整,新进信息需要及时,主观认知需要无偏见,这三个要求从不同维度来保证了信息原始集的全面性和代表性。

再回到开头,如果做一个专利主题检索的查全率的验证,根据上述三个基本要求,也许可以从重要性,时效性以及无偏见性构建一个查全验证集,来检验检索的全面性。

在重要性方面,查全验证集包含重要时间节点的专利文献,重要申请人的专利文献以及重点区域的重要专利文献。

在时效性方面查全验证集包括近3年内容新闻和顶级期刊所直接涉及或间接涉及的专利文献。

在无偏见性方面查全验证集包括邀请第三方在其他的平台来检索一部分准确专利文献。

获取全面信息是情报分析的开端,走好第一步,让信息的使用更有价值吧。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多