【原】大规模、结构化新冠知识图谱如何实现？这里是清华大学AMiner和智谱AI团队的技术报告

学术头条 2020-11-27

展开全文

2019 年末，一场突如其来的新型冠状病毒肺炎疫情迅速蔓延，并造成全球大流行，截止 5 月 18 日全球累计确诊病例达 470 万。全世界的科研人员、医疗人员、政府工作人员和公众渴望获得开放、全面的新冠知识以对抗新型冠状病毒。

为此，清华大学 AMiner 和智谱.AI 团队收集整理了前期人工整理的 COVID-19 开放知识图谱，并进一步融合，构建了一个大规模、结构化新冠知识图谱(COKG-19)。

COKG-19 旨在帮助发布者和科研人员识别和链接文本中的语义知识，并提供更多智能服务和应用。目前，COKG-19 包含了 505 个概念、393 个属性、26282 个实例和 32352 个知识三元组，覆盖了医疗、健康、物资、防控、科研和人物等。此外，COKG-19 是一个中英文双语知识图谱。

与此同时，联合团队还进一步收集了开放新冠论文数据(例如 CORD-19),以构建一个更为全面、细粒度的新冠知识图谱。

1.COKG-19 第一版构建

图 1 COKG-19 第一版构建流程

1.1 Schema 层融合

疫情爆发初期，OpenKG（）公布了新冠知识专题，其中包括了 8 个独立的人工或半人工整理的知识图谱，涉及健康、防控、流行病、百科、人物、医疗、物资、事件、科研等方面。然而这些知识图谱规模不一，质量不一，且存在重叠和不一致等情况。

团队通过语义匹配和排岐方法，将相同含义的概念进行合并，将同名不同义的概念进行区分；其次，根据相关专家的意见对排歧合并后的概念间关系进行修正和补充，例如删除冗余概念，细分病毒等专业子类，修正疾病的子类等；最后得到的 COKG-19 概念层共包含 505 个概念，其中顶层概念为22个(疾病、症状、药物、医疗设备、病毒、防控等)，大致可划分为生物学、流行病学和通用百科三个方向。对于属性的排歧与合并也采取类似的语义融合方法处理，并将不同 domain 和 range 的概念进行区分，共包含 393 个属性。

1.2 实例数据层的融合

将原有知识图谱的全部实例进行归纳并进行语义排歧，并根据融合后的图谱 Schema，修正其中的错误数据。同时，根据原有图谱中实例与概念间的关系，将实例与已构建好的概念层进行关联，最后筛选出 26282 个实例。

1.3 知识图谱的存储与发布

团队将构建好的 Schema 与实例数据进行合并，并利用专业翻译工具将概念、属性和实例进行翻译得到对应的英文数据。然后，根据已有数据将概念和实例数据组合成知识三元组（实体-关系-实体、实体-属性-值），输出三种不同的知识图谱存储格式：JSON-LD 文件、OWL/RDF 文件、以及 Neo4j 图数据库文件。

JSON-LD 文件：根据以组合好的知识三元组，按照 JSON-LD 的规则进行存储。

OWL/RDF 文件：利用 rdflib python 第三方包将已经构建好的 JSON-LD 文件转换为 OWL 文件（RDF 书写规则）。

Neo4j 图数据库：利用 py2neo python 第三方包将组合好的三元组数据填充的创建好的 Neo4j 数据库中。

2.COKG-19 与 CORD-19 数据融合

首先，利用专用实体识别工具（例如 PubTator，https://www.ncbi.nlm./research/pubtator/）对 CORD-19 论文数据进行实体识别，共识别出 Gene、Virus、Chemical、Disease 等 18 种类型实体。其次，根据概念的英文名称和已构建好的 COKG-19 概念层进行语义合并和去重。最终，CORD-19 与 COKG-19 概念合并后共包含 510 个概念，比 COKG-19 第一版增加了 Compound(化合物), SNP(单核苷酸多态性), BiologicalProcess(生物过程)等 5 个概念和相关属性。

在实例数据进行融合阶段，团队利用了 WikiData 百科数据作为辅助知识，实现对异构和跨语言实例的对齐。例如两个实例能够链接到同一 WikiData 页面，则认为是相同实体并将其合并。此外，经过分析 CORD-19 数据中抽取的部分实例所属概念分类粒度不够细的问题（如：大量病毒被分类为生物或组织概念），将其进行整理并全部分到对应的细粒度概念下。

经过合并、去重之后，COKG-19 中共包含 510 个概念，414 个属性和 76 万实例。此外，我们利用 CORD-19 数据集中提供的 PMID（PubMed 的文章唯一标识）信息将融合后 COKG-19 中的实例数据与 CORD-19 中的论文数据进行了关联，论文数据包括（题目、作者、关键词等信息）。

构建流程：

图 2 COKG-19 第二版构建流程

3.COKG-19 疫情图谱应用

COKG-19 的应用除了可作为基础的科研用知识数据库之外，还可以提供实体链接和知识检索等功能。

3.1实体链接

基于 COKG-19 图谱，团队利用 lattice LSTM 和 Scispacy 等模型和工具，实现了基于知识图谱的中英文双语文本实体链接工具。

图 3 基于 COKG-19 的实体链接工具

该实体链接工具已经应用于 AMiner 知识疫图智能驾驶舱（https://covid-dashboard.）系统的事件文本数据语义分析固件中，为全球疫情风险指数的分析提供了坚实的知识基础和工具。

3.2知识检索

针对 COKG-19 中知识的检索可基于实体排岐和全文索引等简单实现。

图 4 基于 COKG-19 的知识检索

3.3 知识分析

融合多种知识数据之后，COKG-19 本身就为更深层次的知识挖掘提供了非常丰富的知识数据基础。例如，研究者可以方便地获得一些关键实体（基因、药物等）间的关联关系，从而为新冠肺炎治疗药物的潜在化合物筛选提供帮助。

图 5 COKG-19中包含的关键实体间关联关系

图 6 指定实体间的关联路径分析

总结

COKG-19 知识图谱的构建充分利用了开源社区（OpenKG 等）和领域专家的力量，同时又应用了实体识别、语义消岐、知识融合等多种自然语言处理和机器学习算法，充分展现了 AI+ 大数据技术在快速应对疫情过程中的广泛作用。

关于清华大学AMiner

科技情报大数据挖掘与服务系统平台 AMiner，由清华大学计算机系研发，系统 2006 年上线，吸引了全球 220 个国家/地区 1000 多万独立 IP 访问，数据下载量 230 万次，年度访问量超过 1100 万，已成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

AMiner 项目团队与中国工程科技知识中心、微软学术搜索、ACM、IEEE、DBLP、美国艾伦研究所、英国南安普顿大学等机构建立了良好的合作关系、共享数据及技术资源。项目成果及核心技术应用于中国工程院、科技部、国家自然科学基金委、华为、腾讯、阿里巴巴等国内外 20 多家企事业单位，为各单位的专家系统建设及产品升级提供了重要数据及技术支撑。

关于智谱.AI

智谱.AI 是由清华大学 (Tsinghua University) 孵化出的人工智能（AI）科技公司，旨在打造先进的认知计算引擎，为研究和创新领域提供强大的数据支持和后台服务。智谱.AI 致力于通过利用其在超大规模网络分析、深度隐含语义挖掘和认知推理等技术方面的优势，帮助解决研究机构及政府机构当前面临的学术挑战及社会热点问题。

参考资料：
[1] https://allenai./scispacy/
[2] 新冠健康知识图谱，http://www./dataset/covid-19-health
[3] 新冠防控知识图谱，http://www./dataset/covid-19-prevention
[4] 新冠流行病知识图谱，http://www./dataset/covid-19-epidemiology
[5] 新冠百科知识图谱，http://www./dataset/covid-19-baike
[6] 新冠人物知识图谱，http://www./dataset/covid-19-character
[7] 新冠医疗知识图谱，http://www./dataset/covid-19-medical
[8] 新冠物资知识图谱，http://www./dataset/covid-19-goods
[9] 新冠事件知识图谱，http://www./dataset/covid-19-event
[10] 新冠科研知识图谱，http://www./dataset/covid-19-research