期刊向量：学科关系的语义表示

昵称16619343 2019-05-18

展开全文

如何判断期刊之间的相关关系，将期刊划分到合适的学科，是期刊分区表重要的工作内容。

通常，我们会构建期刊的引用关系网络，然后根据期刊之间的相互引用，以及与其它期刊的引用情况，来计算两本期刊之间的相关性。最后，把相关性作为引文网络中两个期刊节点之间的边的权重，用社团聚类方法给期刊划分学科；也可以用PCA/MDS对期刊相关性矩阵降维，然后用K-means等聚类算法给期刊划分学科。

现在机器学习，尤其是深度学习技术的发展，图嵌入方法（graph embedding）在众多的复杂网络节点聚类、分类和推荐等任务中展示更有的效果。我们能否有更好的方法或者工具，将基于期刊引用的相关关系更好表示出来。这个表示方法能将使用更好的机器学习方法，将期刊划分到更加合适的学科。

Aditya Grover和Jure Leskovec提出的node2vec就提供了很好的思路。node2vec将复杂网络中的节点用低维稠密的向量表示，最大程度保存了邻居节点之间的关系[1]。网络中任意两个节点的相关关系，就是对应两个向量的相关性。而且，更小信息损失的低维向量，使得更多机器学习的方法引入到网络节点关系标识任务成为了可能。

下面，我们将尝试图嵌入方法node2vec在期刊表示上的潜在应用。

首先，构建期刊引用网络；然后，用node2vec方法训练期刊；最后，得到每本期刊的32维向量。两个向量之间的相关性越高，表示这两本期刊的相关性也越高，非常的直观。

下图是我们将期刊向量用t-sne映射到二维平面，可视化所有的期刊。

在自然语言处理中，用神经网络训练得到的低维稠密的词向量，会保留大量语言规则和模式，通常线性表示出来。如，与v('Germany') + v('captial')最相近的是v('Berlin')，与v('King') - v('man') + v('women')最相近的是v('Queen')。[2]

通过node2vec训练出来的期刊向量也会有类似的现象，因为node2vec训练向量的时候使用了训练词向量相同的方法[3]。不过，期刊向量的语义关系直接反映出学科属性，这一点还是挺让人惊喜的。

这三组测试能清晰反映出期刊向量的语义关系，就是期刊本身的学科属性。

Test 1: 计算生物 - 生物 + 物理 = 计算物理学

Test 2: 计算生物 - 生物 + 基因 = 生物信息学

Test 3: 计算生物 - 生物 + 神经 = 计算神经科学

用低维稠密的向量表示期刊引用关系，也就是有效提取期刊引用关系网络中的特征项，为我们在期刊分类、聚类和推荐等多项任务，引入机器学习和深度学习方法提供重要基础。当然，我们也可以用期刊其他关系网络来训练向量，目前来看，引用关系是效率最高的一种。

我们相信，在以后的工作中，期刊向量和机器学习方法能帮助我们更好地给每本期刊划分学科。

参考文献：

[1] Grover, A., & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855–864). ACM.

[2] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111–3119).

[3] Z Shen, F Chen, L Yang, J Wu, Node2Vec representation for clustering journals and as a possible measure of diversity, Journal of Data and Information Science.