这一点刚开始也让我感到很神奇,但是事实是新闻分类的基本原理其实就是余弦定理。首先让我们来回顾一下什么是余弦定理。 余弦定理和正弦定理是我们在高中时期学习三角函数时学到的两个定理。其中余弦定理说的是如果我们知道三角形的两条边和这两条边的夹角,那么我们便可以通过以下公式来求出第三条边。 图1. 余弦定理示意图 我们利用余弦定理可以求出两条边的夹角,即下面这个公式: cosA=(b²+c²-a²)/(2bc) 当我们在坐标系里研究余弦定理时,其实就是在求两个向量之间的夹角,这个公式我们也是很熟悉的, cosθ=a·b/|a|·|b| 在新闻分类中做的事就是将每一篇新闻都总结成一个向量,而两篇新闻之间的相似度就可以用两个向量的夹角大小来表示,夹角的大小就在某种程度是反映了两篇新闻之间距离的远近。 所以问题就是我们应该如何将一篇好多个字的新闻总结成一个向量。这看起来是不可思议的,但是现代的自然语言处理的理论发展出来了这样的方法。 想象我们有一个词汇的数据库,这个数据库中包含了十万个词,这十万个词基本可以将新闻中出现的各种词所覆盖,那么我们可以计算出每篇新闻对这个数据库中的每个词语的单词文本频率/逆文本频率值。这个值是什么意义呢?在一篇文章中,重要的词的文本频率值就高。所以进行这样的处理之后,对于每一篇新闻我们都可以得到一个十万维的向量,然后根据上面的公式就可以计算向量的夹角,从而得出新闻之间相似度了。 值得一提的是,2002年,谷歌推出了自己的新闻服务,这个服务通过计算机对各个网站的新闻内容进行了整理和分类,核心技术就是我们这里提到的新闻自动分类。 |
|