分享

期刊向量:学科关系的语义表示

 昵称16619343 2019-05-18

如何判断期刊之间的相关关系,将期刊划分到合适的学科,是期刊分区表重要的工作内容。

通常,我们会构建期刊的引用关系网络,然后根据期刊之间的相互引用,以及与其它期刊的引用情况,来计算两本期刊之间的相关性。最后,把相关性作为引文网络中两个期刊节点之间的边的权重,用社团聚类方法给期刊划分学科;也可以用PCA/MDS对期刊相关性矩阵降维,然后用K-means等聚类算法给期刊划分学科。

现在机器学习,尤其是深度学习技术的发展,图嵌入方法(graph embedding)在众多的复杂网络节点聚类、分类和推荐等任务中展示更有的效果。我们能否有更好的方法或者工具,将基于期刊引用的相关关系更好表示出来。这个表示方法能将使用更好的机器学习方法,将期刊划分到更加合适的学科。

Aditya Grover和Jure Leskovec提出的node2vec就提供了很好的思路。node2vec将复杂网络中的节点用低维稠密的向量表示,最大程度保存了邻居节点之间的关系[1]。网络中任意两个节点的相关关系,就是对应两个向量的相关性。而且,更小信息损失的低维向量,使得更多机器学习的方法引入到网络节点关系标识任务成为了可能。

下面,我们将尝试图嵌入方法node2vec在期刊表示上的潜在应用。

首先,构建期刊引用网络;然后,用node2vec方法训练期刊;最后,得到每本期刊的32维向量。两个向量之间的相关性越高,表示这两本期刊的相关性也越高,非常的直观。

下图是我们将期刊向量用t-sne映射到二维平面,可视化所有的期刊。

在自然语言处理中,用神经网络训练得到的低维稠密的词向量,会保留大量语言规则和模式,通常线性表示出来。如,与v('Germany') + v('captial')最相近的是v('Berlin'),与v('King') - v('man') + v('women')最相近的是v('Queen')。[2]

通过node2vec训练出来的期刊向量也会有类似的现象,因为node2vec训练向量的时候使用了训练词向量相同的方法[3]。不过,期刊向量的语义关系直接反映出学科属性,这一点还是挺让人惊喜的。

这三组测试能清晰反映出期刊向量的语义关系,就是期刊本身的学科属性。

Test 1: 计算生物 - 生物 + 物理 = 计算物理学

Test 2: 计算生物 - 生物 + 基因 = 生物信息学

Test 3: 计算生物 - 生物 + 神经 = 计算神经科学

用低维稠密的向量表示期刊引用关系,也就是有效提取期刊引用关系网络中的特征项,为我们在期刊分类、聚类和推荐等多项任务,引入机器学习和深度学习方法提供重要基础。当然,我们也可以用期刊其他关系网络来训练向量,目前来看,引用关系是效率最高的一种。

我们相信,在以后的工作中,期刊向量和机器学习方法能帮助我们更好地给每本期刊划分学科。

参考文献:

[1] Grover, A., & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855–864). ACM.

[2] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111–3119).

[3] Z Shen, F Chen, L Yang, J Wu, Node2Vec representation for clustering journals and as a possible measure of diversity, Journal of Data and Information Science.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多