基于SimHash算法的文本相似度计算原理

昵称16619343 2020-10-06

展开全文

背景

上周某一天，笔者搜遍全网，综合各种不完整的代码片段、GitHub 上几十个 SimHash 项目、几十个相关网络资源文章后，终于搞定了一个还算精确的 SimHash 算法的 Java 版本。

输出是检验掌握一个知识点的简单标准，本文就来详细介绍一下基于 SimHash 算法的相似文本检索的原理和实现过程。

最近在搞一个漏洞库爬虫项目，需要综合分析并合并几个漏洞网站的漏洞信息，不同漏洞的发布基本上是相似的，但是不同网站可能稍有差异，怎么将不同网站发布的、本质是同一种漏洞的记录合并呢？

这就涉及到了文本相似度计算问题。基本思路是：对网页漏洞解析时，先以漏洞简介或者标题去系统的漏洞库中检索，是否有相似的漏洞，如果存在，视为同一条漏洞信息，追加漏洞来源即可。

这个问题的经典解决方案就是 Google 用来处理海量文本去重的算法 SimHash ，它是一种局部敏感 hash 【全称： Locality Sensitive Hashing】，全称和缩写的 Sim 有些出入，不知道为什么呢！

利用 SimHash 判断文本相似度的基本流程为：

Java 里有 HashMap ，想必大家都不陌生，它通过一个函数得到值来标识某项数据的位置，为了避免 Hash 冲突，选中的函数应该尽量让数据分散。

SimHash 与我们熟悉的 Hash 不太一样，它要求对相同或相似的文本，产生相同或者相近的哈希值，值得相似程度同时能反映输入得文本得相似度。

它的原理是：

SimHash 原理

基本流程是：

分词：对文本进行分词，得到 N 个词 word1，word2，word3 …… wordn；
赋权重：对文本进行词频统计，为各个词设置合理的权重 weight1，weight2，weight3 …… weightn；
哈希：计算每个分词的哈希值 hashi，得到一个定长的二进制序列，一般是 64 位，也可以是 128 位；
加权重：变换每个分词 wordi 的 hashi，将 1 变成正的权重值 weighti，0 变成 −weighti，得到一个新的序列 weightHashi；
叠加权重：对每个 weightHashi 各个位上的数值做累加，最终得到一个序列 lastHash，序列的每一位都是所有分词的权重的累加值；
降维：再将 lastHash 变换成 01 序列 simHash ，方法是：权重值大于零的位置设置为 1，小于 0 的位置设置为 0，它就是整个文本的局部哈希值，即指纹。