大模型统一知识图谱的挑战

非著名问天 2024-03-20 发布于内蒙古

展开全文

为深入探讨知识图谱与大模型的现状和未来发展，DataFunSummit2024：知识图谱在线峰会将于2024年3月23日9:00-17:00线上举办，欢迎广大从业者参与交流！

峰会议程

知识图谱的最大难题

知识图谱目前最大的难题在于规范不统一，而大模型能为知识图谱的规范统一提供强大推力。

知识图谱一直以来面临着构建复杂度高，也就是构建成本高的问题，很难有一套统一规范的构建框架，解决所有知识构建问题。根源在于数据层面，大部分知识的表达都是偏自然语言的，知识表达方式非常多元化和不规范。

知识图谱的语义规范是很陈旧的，从最早的语义网开始算，已经有几十年的发展时间，如果从以知识图谱的名字命名，则是从2012年由谷歌提出，到现在也有十几年的时间。虽然知识图谱早期有一套语义网框架，比如RDF、OWL等等，但它们在工业界并没有落地。因此人们是基于属性来存储知识图谱的，也就是目前的图数据库。

但图数据库和知识图谱之间还是有差距的。图数据库只是一种数据存储的形式，没有语义，导致每家定义的知识图谱都不一样，这些知识图谱之间不能做数据交换，因为协议差异很大。

在这很长的发展时间内，知识图谱发展出了很多概念，比如静态图谱、动态图谱、实体图谱、概念图谱、事件图谱、事理图谱、时序图谱、多模态图谱、因果图谱等等。可以说每个人心中都有一种图谱，每种图谱都有自己的定义表示方式。

构建成本巨大，导致人们对知识图谱的价值不断提出质疑。

所以在该领域，面对大模型的来势汹汹，人们才会发出“知识图谱要完”的声音。

大模型不能取代知识图谱，两者将共存

但从目前知识图谱领域专家的经验来看，大模型自身目前是无法解决幻觉、时效性、事实性、多跳推理等问题的，所以也没有办法一劳永逸地解决知识图谱构建的问题。

从应用场景的结构化程度来看，比如在风控场景中，对于风险团伙的表示，用文本表达是无法被模型理解的。目前业界对于大模型能否代替风控的核心能力没有怀疑——就是不行。因此，面向高度结构化的决策场景，大模型还不能胜任，但知识图谱可以在其中发挥很大作用。

不仅是共存，大模型自身特点也能助力知识图谱统一

因此，在未来，知识图谱仍将与大模型共存。并且，一套新的、统一的、能融合到工业界场景中的知识图谱语义框架会是非常重要的一步，目前已有较为先进的成果，相关技术理论涉及到，关键语义能力的定义，构建一套标准的知识构建链路，融合不同推理引擎，比如专家规则推理、图表示学习推理等等。

由于规范统一的工作也是相当庞大的，因此在大模型时代，人们自然会设想，基于大模型融合各种知识图谱的可能性。基于大模型统一的语言理解范式，消除不同类型知识图谱之间的壁垒。目前该方向已有相关探索，但还有很多的困难。

基于大模型的统一仍会遇到许多困难

比如，在基于大模型构建知识图谱的实践中发现，幻觉会导致生成的知识图谱有很多噪声需要清洗，多元化数据的知识抽取则需要大小模型协同来做知识构建，最后就是大模型时代的知识表示需要进一步迭代，当前领域内最好的框架也都是非大模型时代的产物，相关的语义表示需要变得对大模型更加友好。

知识图谱统一的未来

所以，统一规范的知识图谱的实现，需要在深入融合大模型之后，才能构建出完整的形态，而这还有很长的路要走。

扫码免费报名参加

峰会详情

① 知识获取与构建论坛

出品人：张亦弛 Shopee Marketplace Intelligence Listing Team Leader

个人介绍：张亦弛，现任电商平台 Shopee Marketplace Intelligence Listing 商品算法负责人，服务全球十余个市场的商品智能化识别，工作研究方向为电商领域知识图谱构建、自然语言处理和多模态技术在电商业务中的应用等。毕业于伦敦大学，学术论文曾发表在 BMVC / EMNLP / WSDM / CVPR 等国内外会议和期刊，出版专著一部。

王超伦中国信息通信研究院云计算与大数据研究所数据智能应用方向高级业务主管

个人介绍：于中国信息通信研究院云计算与大数据研究所从事数据智能方向标准化工作。

演讲题目：知识中台的发展趋势及标准化工作

演讲提纲：

1. 介绍企业知识管理体系建设的普遍现状、收益和问题

2. 介绍知识中台的概念和发展情况

3. 介绍大模型背景下知识中台建设的新趋势

4. 介绍信通院知识中台相关标准编制情况，包括知识图谱、知识问答等

听众收益：

1. 企业知识体系建设的普遍现状如何？

2. 企业的知识中台建设是否具备必要性？

3. 大模型背景下知识中台的发展趋势如何？

4. 知识中台相关标准的编制情况如何？

张文浙江大学特聘研究员

个人介绍：张文，浙江大学软件学院特聘研究员，研究方向为知识图谱、图数据处理、大数据系统。在包括NeurIPS/KDD/WWW/IJCAI/AAAI/ICDE/ACM MM/WSDM等在内的国际顶级会议上发表多篇论文。主持国家自然科学基金青年科学基金项目、浙江省自然科学基金探索青年项目、宁波市自然科学基金探索一般项目。曾获国际知识图谱联合会议IJCKG最佳论文奖、最佳应用论文奖，浙江省科技进步二等奖等奖励。入选副省级市高层次人才引进计划、百度2023年度AI华人女性青年学者榜。

演讲题目：大语言模型与知识图谱：机会与挑战

演讲提纲：大语言模型实现了基于参数的隐式知识表示，这使得显式的知识表示方法逐渐向混合了符号化和参数化的表示方法迁移，本报告将从知识表示的视角介绍和讨论一些知识图谱和大语言模型融合的辩论点、机会、挑战、和研究点。

听众收益：

1. 知识计算社区针对大语言模型和知识图谱结合的辩论点

2. 语言模型和知识图谱结合的机会与展望

3. 语言模型和知识图谱结合关键研究点和相关挑战

郑鑫 Shopee MPI&D Senior Expert Engineer

个人介绍：郑鑫，南洋理工大学（NTU）计算机博士，有多篇一作论文发表在WWW/ EMNLP / CIKM / TKDE 等顶会和期刊，2项US专利。现任Shopee Marketplace Intelligence and Data 团队 Senior Expert Enginner，参与或负责众多Listing 基础数据建设及相关toB、toC的数据应用，如Global Category、 SPU、比价系统等，有多语言自然语言处理、多模态模型及知识图谱构建等经验。

演讲题目：电商知识图谱建设及大模型应用探索

演讲提纲：

1. 知识图谱概览

2. 电商知识图谱构建

3. 电商知识图谱应用

4. 大模型与知识图谱探索及展望

听众收益：

1. 电商知识图谱建设基本框架

2. 知识图谱在电商领域应用

3. 电商知识图谱与大模型的结合点

陈辉华中信证券高级副总裁

个人介绍：硕士，2018年加入中信证券，负责中信证券知识图谱系统建设。曾就职于中国农业银行软件开发中心。

演讲题目：中信证券基于图数据库构建知识图谱平台实践

演讲提纲：中信证券基于分布式图数据库StellarDB，替代国外开源图数据库产品，打造全新的企业级知识图谱平台，应用于同一客户集团画像、科创板关联发现、风险事件报告、全球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等应用场景。本次演讲内容主要介绍我们的一些金融领域知识图谱应用实践和感悟。大纲如下：

第一部分：项目背景

第二部分：解决方案

第三部分：项目价值与效果

第四部分：实践总结

听众收益：

1. 引入独特HTAP图数据库架构，实现统一图存储服务和多套计算引擎物理隔离，满足本项目对图计算，图联机查询和API调用的不同资源需要；

2. 构建了端到端全流程图机器学习框架，解决目前深度图应用无法在大规模分布式图数据库上直接进行高效计算和学习的痛点，该框架广泛应用于反洗钱异常行为监测和场外配资等多个深度图应用场景；

3. 平台易用性提升显著。提供自助的可视化图谱分析功能，实现业务0代码完成图谱构建和分析；在运维管理、权限管理及可视化等方面也得到了很大的提升。

扫码免费报名参加

② 知识增强与推理论坛

出品人：王文广达观数据创新产品部副总裁

个人介绍：高级工程师职称，浦东新区“明珠计划”菁英人才，曾获得广东省科技进步奖二等奖，上海市计算机学会科技进步奖二等奖和上海市浦东新区科技进步奖二等奖。人工智能标准编制专家，《知识图谱：认知智能理论与实战》作者，参与编撰《智能文本处理实战》，《新程序员 * 人工智能新十年》顾问专家和文章作者，专注于知识图谱、通用人工智能 AGI、大模型、AI 大工程、NLP、认知智能、强化学习、深度学习等人工智能方向。上海市人工智能技术标准化委员会委员、上海科委评审专家、中国计算机学会（CCF）高级会员、中文信息学会（CIPS）语言与知识计算专委会委员、中国人工智能学会（CAAI）深度学习专委会委员。申请有数十项人工智能领域的国家发明专利，在国内外知名期刊会议上发表有十多篇学术论文。曾带队获得国内国际顶尖算法竞赛 ACM KDD CUP、EMI Hackathon、“中国法研杯”法律智能竞赛、CCKS 知识图谱评测的冠亚季军成绩。曾获 BroadView2023“技术成长领路人”、2022 年度出版社电子工业博文观点“优秀作者”等称号，2021 年度浦东职工科技创新英才优秀奖。被聘为上海市质量和标准化研究院培训中心企业标准化总监高级研修班教课讲师，高校学生人工智能训练营（同济大学）特邀企业导师，浙江大学中国数字贸易大讲堂讲师团专家。在达观数据致力于将自然语言处理、知识图谱、计算机视觉和大数据技术产品化，以 OCR、文档智能处理、知识图谱、RPA 等产品服务于金融、智能制造、贸易、半导体、汽车工业、航空航天、新能源、双碳等领域。

杨成北京邮电大学副教授

个人介绍：杨成，北京邮电大学副教授，长期从事数据挖掘和自然语言处理相关方向的研究，发表相关领域CCF A类论文30余篇，谷歌学术被引九千余次，相关成果获2020年教育部自然科学奖一等奖（排名第四）等省部级奖励。曾获中文信息学会优秀博士论文奖，先后入选百度发布的首届“AI华人青年学者百强” 榜单、第九届中国科协“青年人才托举工程”。

演讲题目：面向开放任务场景的图模型与大语言模型对齐

演讲提纲：ChatGPT等大语言模型展示了强大的零样本学习和指令跟随能力，可以有效服务于由自然语言描述的各类开放式任务。然而在图结构数据的分析领域，图神经网络等图模型受限于节点分类、链接预测等预定义形式的任务，如何适应更加通用的开放任务场景仍亟待探索。为此，我们提出了GraphTranslator来连接预训练好的图模型和大语言模型，其中图模型负责预定义任务，大语言模型作为图模型的扩展接口来处理各种开放式任务。为了训练GraphTranslator，我们设计了一个能够自动构建节点-文本对齐数据的Producer，对齐数据中包括节点信息、邻居信息和模型信息。通过将节点表示翻译成token，GraphTranslator赋予了大语言模型根据语言指令进行预测的能力，为预定义和开放式任务提供了统一的解决方案。

听众收益：

如何面向图数据分析场景使用大语言模型？

图神经网络模型如何与大语言模型相结合？

郑志彤 OPPO AI中心大模型算法部首席算法架构师

个人介绍：现任AI中心大模型算法部首席算法架构师，曾任数智系统机器学习TMG主任和小布多模态负责人。2020年加入OPPO，参加软件商店首页攻坚，贡献2个多点ARPU值提升，当年指标超越头条；随后负责机器学习部，负责并完成了StarFire项目，构建了云原生机器学习平台和部门架构；之后调入小布智能中心，负责多模态学习，短时间搭建了多模态预训练团队、虚拟人团队和StarLite团队，完成了小布AIGC等项目；在AI中心，主导了codeLLM和dataLLM的研发，参与了RAG项目研发，其中code和data指标达到SOTA。在机器学习相关领域有十几年的经验，对CV、NLP、语音、推荐系统、大模型和多模态等算法有深刻认知和实践，十分关注通用智能的发展并有一套自己的理论。学历硕士，毕业于清华大学。

演讲题目：codeLLM和RAG技术在OPPO的探索

演讲提纲：

1. LLM的缺陷与领域知识。

2. codeLLM与dataLLM技术创新。

3. RAG技术落地。

4. 展望LLM与符号化知识的结合。

听众收益：

1. 如何训练好的codeLLM；

2. codeLLM如何落地到业务场景；

3. RAG如何落地到实时信息等场景。

扫码免费报名参加

③ 大规模知识存储与计算论坛

出品人：曾立华为 GTS—AI算法部数据智能计算专家

个人介绍：本科和博士毕业于北京大学计算机科学技术专业，在图处理领域有九年多的实践经验，主导研发过图数据库系统gStore、电信图查询引擎、分布式图学习加速组件，将亿级电信网络的图查询和图学习性能提升至行业标杆TigerGraph和DGL的2倍以上，内存占用降低一半。当前负责图技术探索及大模型全栈加速。

范志东蚂蚁集团图计算开源负责人

个人介绍：蚂蚁图计算开源负责人，专注于TuGraph的开源技术演进、社区运营和商业化等工作。先后就职于腾讯、阿里云、蚂蚁，从事大数据平台、云数据库、图计算相关的产品设计和技术建设。在分布式计算、数据安全管理、数据中台架构、开源布道等领域有丰富的开发和实践经历，目前专注于TuGraph的开源建设与技术合作。

演讲题目：蚂蚁TuGraph计算引擎技术架构与应用

演讲提纲：

● 蚂蚁TuGraph计算引擎发展历程与建设背景。

● TuGraph计算引擎的架构设计与技术原理。

● TuGraph计算引擎的应用场景与建设规划。

听众收益：

● TuGraph图计算引擎的设计、实现和应用价值。

● 如何实现流计算、批处理、图计算一体化执行能力。

● 大规模图计算的典型应用场景与未来思考。

曾维彬阿里巴巴高级开发工程师

个人介绍：北京航空航天大学计算机硕士，目前在阿里巴巴通义实验室任高级开发工程师，负责一站式图系统 GraphScope 和图数据存档格式 GraphAr 的开发。

演讲题目：GraphAr: 开源的标准化图存储文件格式

演讲提纲：本次演讲主要介绍标准化图存储文件格式GraphAr的设计和特性，当前开源社区的发展以及在图数据和知识图谱场景下的应用前景

1. 背景：图计算的生态和文件存储

介绍GraphAr设计的背景和Motivation

2. 标准化图存储文件格式GraphAr

- 设计与特性

- 对比其他格式的优点（一些性能对比）

3. GraphAr 的应用与开源社区发展

4. GraphAr 在知识图谱下的应用前景

听众收益：

1. 了解大数据场景下图数据和知识图谱数据的存储

2. 专门用于大规模图数据和知识图谱数据的标准文件格式是什么样的？

3. 了解如何高效地提升数据湖中图查询的能力

庞悦北京大学博士研究生

个人介绍：庞悦本科毕业于北京大学元培学院计算机科学与技术专业，目前在北京大学王选计算机研究所数据管理实验室攻读博士学位，导师为邹磊教授。为国家自然基金会“大规模图数据管理与分析”、“大规模图的复杂性分析与高效计算”项目及与华为等公司合作多个项目的主要研究骨干，在SIGMOD、ICDE、CIKM等数据管理领域的国际高水平会议上以第一作者身份发表过论文，为开源图数据库gStore的主要开发者之一。

演讲题目：图上的高效路径查询

演讲提纲：图是一种聚焦于实体之间的关系的数据模型，通过将实体映射成节点、将关系映射成边来直接地刻画和存储关系，广泛应用于社交网络、金融和生物信息学等领域。由图上首尾相连的边构成的路径揭示了实体之间的间接关系。因此，返回满足特定约束条件的路径或其端点的路径查询是许多应用场景中的核心查询形式。真实图的动态性和对路径可施加的丰富约束条件给高效的路径查询带来了挑战。在本次演讲中，我将介绍几种受其他图问题和关系型查询优化的启发而设计的路径查询优化技术，包括一种基于社区检测的高效可达性查询算法、一种用于正则路径查询的物化视图选择算法和基于视图的查询计划选择框架。此外，我还将讨论未来在图数据库系统的查询执行流程中整合高效路径算法的机遇。

听众收益：

1. 把数据建模成图有什么收益？图数据上的路径查询有哪些应用场景？

2. 如何加速图上的路经查询？

3. 如何把高效图算法整合到图数据库系统中？

扫码免费报名参加

④ 知识问答与检索论坛

出品人：刘焕勇 360人工智能研究院资深算法专家

个人介绍：360 人工智能研究院资深算法专家、知识图谱方向负责人,“老刘说 NLP”公众号作者，曾就职于中国科学院软件研究所。主要研究方向为大模型数据挖掘与知识增强、领域知识/事件图谱的构建与落地应用，主持或参与研制全行业事理图谱、百科图谱、知识图谱平台、事件情报分析、右侧推荐、大模型研发等落地项目，申请发明专利十余项、论文数篇。近年来在OGB-Wikikg2、CCKS 多模态实体对齐、可解释类案匹配等评测中获得多项冠亚军。致力于自然语言处理技术开源共享，在 github开源项目60+，收获star数超 2W+。

演讲题目：知识图谱增强在360文档知识问答及管理中的应用实践

演讲提纲：当前，为缓解大模型在特定领域问答场景中的幻觉问题，检索增强生成(RAG)作为一种外挂输入的范式受到广泛关注。本文主要介绍360文档云在围绕知识管理场景下做的应用实践，涉及到如何对文档进行标准化、层次化、结构化等处理操作；如何较好地召回知识库输入到大模型；如何将知识图谱纳入到回复的逻辑以提升等多个方面的内容。

1、360文档云在知识管理/问答中应用场景

2、知识图谱在文档标准化、层次化、结构化中的应用

3、知识图谱在文档知识检索增强问答中的应用

4、知识图谱与大模型在文档场景下的挑战及展望

听众收益：

1、了解当前业界在文档云盘场景下的一些落地经验；

2、了解知识图谱在文档问答/管理场景中的一些技术坑点；

3、了解知识图谱增强大模型的一些现实问题及挑战；

杜振东云问科技 NLP研究院算法负责人

个人介绍：云问科技NLP研究院负责人，拥有8年机器学习与文本挖掘相关技术经验，6年中文自然语言处理相关项目实战经验，擅长运用NLP前沿技术解决真实项目。在意图识别、新闻推荐、多轮人机交互领域有数年实战经验。参与百万级用户金融资讯新闻推荐项目，作为算法主要负责人及整体框架设计者，主导全新智能新闻推荐系统的落地，并优化线上推荐算法，整体线上相较原有系统精度提高10%。主要设计面向任务驱动的多轮对话引擎，主导参与搭建NLP底层能力平台，为企业提供底层能力的服务输出。参与多家企业问答机器人系统、知识图谱系统搭建，针对集团型知识管理与问答效果优化有丰富实战经验。参与制定国家人工智能标准化总体组《人工智能标准化与开源研究报告》；参与制定中国电子工业标准化技术协会《信息技术人工智能智能助理智能能力等级评估》；编写书籍《会话式AI》与《ChatGPT原理与实战》；入选国家标准委人工智能专家及AIIA人工智能技术专家。

演讲题目：工业知识图谱进阶实战

演讲提纲：介绍图谱前沿知识如何在工业应用场景落地。

听众收益：

1.工业图谱schema如何设计

2.三元组无法支撑的业务场景如何支撑

3.LLM与KG的结合方式

鄂海红北京邮电大学计算机学院（国家示范性软件学院）北京邮电大学教授，博士生导师，教育部信息网络工程研究中心副主任

个人介绍：鄂海红，北京邮电大学教授，博士生导师，教育部信息网络工程研究中心副主任，中国科学技术情报学会科研诚信建设工作委员会副主任委员，中国计算机学会数据治理发展委员会执行委员。主要研究知识图谱与大模型协同的数据要素治理和复杂推理决策。累计主持国家重点研发计划课题、国家自然科学基金项目以及省部级课题、企事业合作项目30余项。累计发表EI/SCI高水平学术论文100余篇，获国家发明专利授权81项，专利许可实施21项。科技创新成果已在医疗健康、科技服务、金融、政务等多个行业实现规模化商用，超关系层次化知识图谱构建、推理与问答技术在多家医院临床决策支持系统（CDSS）落地应用，获聘北京市昌平区首批“科技副总”，荣获中国商业联合会中国服务业创新奖特等奖，教育部高等学校科学研究优秀成果奖进步奖二等奖，中国计算机学会科技成果奖技术发明一等奖，中国通信标准化协会科学技术奖三等奖。

演讲题目：大模型时代知识图谱赋能高血压智能诊疗实践

演讲提纲：数据是信息的来源，信息是知识的载体，知识是智能的根本。大模型时代，知识图谱与大模型的互补融合为解决垂直领域复杂决策问题打开了新的思路，为垂域AI的实现提供了更好的智能基座。本报告介绍了知识图谱构建、推理与问答技术在高血压智能诊疗场景的一些探索与实践，首先以精准用药决策问题为例阐明了高血压诊疗的本质是基于知识的复杂决策任务，并介绍了当前医学与通用大模型在该问题上的局限与不足。然后从知识图谱建模、推理与问答三个方面递进讲解超关系层次化知识建模、神经符号精准推理与大模型驱动的可解释智能问答相关工作，有效提升高血压智能诊疗的科学性、精准性与可解释性。最后，介绍了相关技术在临床决策支持系统（CDSS）等场景的落地应用情况，并探讨LLM+KG在知识图谱构建、推理与问答方向的可能路径。

听众收益：

1.如何构建高质量的垂直领域知识图谱？

2.知识图谱推理技术如何支撑医学领域复杂决策任务？

3.大模型如何赋能知识图谱问答？

王为磊智慧芽研发部搜索与算法总监、首席科学家

个人介绍：目前在智慧芽信息科技（苏州）有限公司任职搜索与算法总监，首席科学家。曾经获得过姑苏高层次人才，苏州园区紧缺人才等；发表国际核刊论文10多篇，专利30余篇，曾参与研发了国家火炬计划一项，主持国家科研项目一项，江苏科技计划项目一项，苏州重点产业科技创新等多个项目。目前主攻：专利情报挖掘，专利搜索，基于大模型的专利理解与生成等方向。目前研发的基于1.8亿专利文本为主的专利大模型（PatentGPT），在专利撰写、专利对比等产品里得到应用，取得客户高度认可，针对专利大模型，2023 受邀参加世界人工智能峰会，做“专利大模型的实践与探索”主题报告；受邀参加“中国2023知识产权年会”，做“专利大模型在知识产权的应用”主题报告。

演讲题目：专利大模型的实践与知识问答探索

演讲提纲：

1. 专利大模型介绍

2. 专利大模型的训练过程

3. 结合RAG的实践

听众收益：

1.垂直大模型必要吗？一般是如何训练的。

2. 结合RAG能解决什么问题

3. RAG的核心点是什么？为什么perplexity.ai会围绕这个来做。

扫码免费报名参加

⑤ 大模型与知识图谱论坛

出品人：孙常龙阿里巴巴资深算法专家

个人介绍：孙常龙，阿里巴巴通义实验室NLP应用算法负责人，拥有多篇授权专利，在顶级会议发表论文30余篇，承担国家科技部重点研发项目多项，带领团队在多项的国内外评测比赛中获得第一名，曾获高等学校科学研究优秀成果奖（科学技术）科技进步一等奖。研究方向包括机器学习、自然语言理解、文档理解等。在技术赋能业务方面，深入司法、通信、互联网等垂直领域的智能化建设，首创了司法全流程智能化审判系统，该智审模式2022年纳入社科院《法制蓝皮书》，构建了法律垂直大模型通义法睿，已经落地多家法院。

陈玉博中国科学院自动化研究所副研究员

个人介绍：陈玉博，中科院自动化所副研究员，研究方向为自然语言处理和知识图谱，在ACL、EMNLP、AAAI 等国际重要会议和期刊发表学术论文40 余篇，Google Scholar引用量5200余次，其中两篇论文入选ACL、EMNLP高影响力论文（Paper Digest评选），获ISWC 2023（CCF-B类）最佳张贴论文奖。出版学术专著两部《知识图谱》、《知识图谱：算法与实践》，由人工智能学会推荐入选十三五国家重点图书出版规划教材。连续多年在中国科学院大学主讲《知识图谱》课程，2021 年获得中国科学院大学优秀课程。主持国家自然科学基金面上项目、青年基金项目，参与国家自然科学基金重点项目、2030新一代人工智能重大项目、重点研发计划课题。主持研发的信息抽取和知识图谱构建系统多次获得国际/国内学术评测冠亚军。入选2020 年第五届中国科协青年人才托举工程、2022 年百度全球华人AI 青年学者、2022 年中国科学院青年创新促进会会员、担任中国中文信息学会青年工作委员会秘书长、COLING 2022领域主席、Data Intelligence编委等。获2018 年中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖，2019 年度北京市科学技术进步奖一等奖。

演讲题目：预训练语言模型中的知识分析、萃取与增强

演讲提纲：近年来，大规模预训练语言模型在知识密集型的自然语言处理任务上取得了令人瞩目的进步。这似乎表明，预训练语言模型能够自发地从语料中学习大量知识，并隐式地保存在参数之中。然而，这一现象的背后机理仍然萦绕着许多谜团。语言模型究竟掌握了哪些知识，如何提取和利用这些知识，如何用外部知识弥补模型不足，这些问题都亟待进一步探索。该报告将重点介绍预训练语言模型知识分析、知识萃取、知识增强等领域的基础知识和近期研究进展。

听众收益：

1.预训练语言模型中蕴含哪些知识？

2.如果从预训练语言模型中萃取知识？

3.如何增强预训练语言模型的知识？

张宁豫浙江大学副教授

个人介绍：张宁豫，浙江大学副教授，博士生导师。研究方向包括知识图谱、自然语言处理等，在知识图谱和自然语言处理领域已发表多篇顶级会议和期刊文章，包括ACL、EMNLP、NAACL、NeurIPS、ICLR等，五篇论文入选Paper Digest高影响力论文，获浙江省科技进步二等奖，国际会议IJCKG最佳论文/提名2次，CCKS最佳论文奖1次；担任ACL、EMNLP领域主席、ARR Action Editor、IJCAI 高级程序委员、ACM Transactions on Asian and Low-Resource Language Information Processing Associate Editor及NeurIPS、ICLR、ICML等会议程序委员会委员。

演讲题目：从知识图谱的视角看大模型知识编辑问题

演讲提纲：大模型是人工智能领域的一次重大突破，其成功也揭示了大规模参数化神经网络在习得和刻画世界知识上的巨大潜力。其通过将海量的、以文本序列为主的世界知识预先学习进神经网络中，并实现在参数化空间对知识进行处理和操作。知识编辑旨在通过对大模型进行精准、轻量的操作，实现对知识谬误的修正，为可信、可控、可靠的大模型应用提供了支持。本次报告将从知识图谱视角剖析现有大模型知识编辑问题，并重点分析知识冲突、知识扭曲现象和概念知识编辑问题。

听众收益：

1.什么是大模型知识编辑?

2.大模型知识编辑的知识冲突和知识扭曲现象

3.大模型概念知识编辑问题

4.开源大模型知识编辑工具EasyEdit

蒋卓人浙江大学信息资源管理系 “百人计划”研究员

个人介绍：浙江大学“百人计划”研究员，博士生导师。已在国际国内重要刊物或会议上发表60余篇高质量学术文章。主持包括国家自然科学基金、科技部重大专项子课题、国家社科重大项目子课题、国家自科重点项目子课题在内的十余项课题。担任中国人工智能学会青工委委员、中文信息学会青工委委员，以及信息检索、情感计算、社会媒体处理专委会委员。曾任阿里巴巴达摩院语言技术实验室顾问；曾获得2013年ACM/IEEE-CS Joint Conference on Digital Libraries（JCDL）Best Poster Award和多项人工智能和数据算法国际比赛冠军。研究方向包括计算社会科学，自然语言处理，信息检索。

演讲题目：利用大语言模型促进综合图学习能力

演讲提纲：虽然大语言模型已经展现出了其纯文本推理能力，但其是否可以泛化到图的学习上还未被充分探索。在本次演讲中，我们将初步回顾一下大语言模型在图上的技术应用。具体的，我们从图学习的不同场景以及大语言模型在图学习中的不同角色等角度对相关文献进行了总结。我们发现大语言模型为图上跨领域跨任务的统一学习框架发展提供了机会。最后，我们将总结在这个快速发展领域的潜在研究方向。

听众收益：

- 了解适应大语言模型的图学习的研究现状。

- 如何利用大语言模型促进跨领域数据源和不同学习任务的图学习。

- 了解这个领域的潜在研究方向。

梁家卿复旦大学大数据学院青年副研究员

个人介绍：梁家卿博士，复旦大学大数据学院青年副研究员，主要研究方向为基于知识图谱与大模型的认知智能。在国际顶级学术会议与期刊（包括TKDE，AAAI，IJCAI，ICDE等）发表论文50多篇。在应用落地方面，作为技术负责人研发并公开发布了多个知识图谱与大模型应用平台如CuteGPT、Emo-CuteGPT、CN-DBpedia、ProbasePlus、CN-Probase、“不倒翁”智能问答等，相关产品API被工业界与学术界多家单位已调用累计17亿次以上，并形成了16个专利。有成功训练百亿参数量级别模型的经验和在大规模集群上训练千亿参数量级别模型的经验。先后在国际性的“知识库构建”比赛中荣获第二名；在中国计算机学会和中国中文信息学会的主办的语言与智能技术竞赛“信息抽取”比赛中荣获第一名。主持研发的情感增强大模型 CuteGPT 在上海卓辰信息科技有限公司（帮助其情报信息知识抽取准确率达到 90%以上）、上海双地信息系统有限公司（帮助其开发了内容管理产品“小孔商业智能AI助理”）、上海光唯文化传媒有限公司（应用于其客户在新产品研发业务，新产品销售额超过千万元）等单位实现了落地应用。并且曾获ACM-ICPC区域赛金牌、TopCoder Open全球前150名、吴文俊人工智能科学技术奖科技进步奖三等奖、上海市优秀博士毕业生、上海市计算机学会优秀博士论文、华为云最佳论文复现奖、复旦大学超级博士后、上海市超级博士后、中国博士后科学基金面上资助、国家自然科学基金青年基金资助。

演讲题目：领域大模型的挑战与机遇：从构建到应用

演讲提纲：目前，GPT-4等大规模的预训练语言模型（以下简称大模型）已经获得了惊人的效果，促成了新的人工智能应用范式。然而，由于其开放性和幻觉现象，大模型在领域落地仍然遇到了诸多挑战。

事实上，大模型仍不足以也不应当整个替代现有的领域中的工作流程，而应当作为强大的人工智能工具融入其中。为此，准确定位大模型在现有工作流程中的角色和针对性地构建和增强就成为了重要的任务。

本演讲从大模型的领域适配、能力提升和协同工作三个层次，介绍和分享本团队在领域大模型构建和落地的一些实践。其目的并非提升模型的“智商”或使其在MMLU等考试中获得更高的分数，而是如何融入和赋能现有的领域应用中的工作流程，使其真正产生价值。

听众收益：

1. 大模型是否终结了知识工程？

2. 大模型和专业领域中的知识如何进行结合？

3. 大模型在领域应用中应当扮演什么角色？

4. 大模型在领域落地中遇到了哪些困难？如何一定程度缓解？

扫码免费报名参加

⑥ 多模态知识图谱论坛

出品人：李直旭复旦大学研究员、博导

个人介绍：李直旭，复旦大学计算机科学技术学院研究员、博士生导师，上海市数据科学重点实验室主任助理，复旦大学知识工场实验室执行副主任，曾兼任科大讯飞苏州研究院副院长，博士毕业于澳大利亚昆士兰大学，主要研究方向为认知智能与知识工程、多模态知识图谱、大数据分析与挖掘等。在领域主流期刊和国际会议上发表论文150余篇，主持十余项国家和省部级科研项目。

刘铭哈尔滨工业大学计算学部教授/博士生导师

个人介绍：刘铭，教授/博士生生导师，哈尔滨工业大学计算学部。先后主持国家重点研发计划项目（课题)、国家自然科学基金、中国博士后科学基金特别资助等多项基金项目。任黑龙江省自然语言处理专委会副主任。获黑龙江省科学技术一等奖，哈尔滨市科技成果，第六届全国青年人工智能创新创业大会一等奖。担任多个国内外知名会议的领域主席和程序委员会主席。

演讲题目：多模态知识图谱构建初探

演讲提纲：报告分两部分：1）介绍当前知识图谱中条件知识缺少的情况，并提出一种事实和条件联合抽取方法，2）围绕多模态知识图谱构建介绍一些多模态实体和关系抽取的方法。

听众收益：

1.给出当前知识图谱中条件知识缺失的情况

2.提出一种事实知识和条件知识联合抽取的方法

3.提出多模态实体和关系抽取的一些启发性方法

冯在文华中农业大学副教授，博士生导师

个人介绍：冯在文，华中农业大学信息学院副教授，博士生导师，2009年于武汉大学计算机学院获得软件与理论博士学位，在澳大利亚昆士兰科技大学和南澳大学完成博士后的研究经历。华中农业大学信息学院智能化软件工程团队负责人。冯在文副教授为ISO SC32（国际标准化组织数据管理专委会）委员、国家农业大数据与信息服务联盟理事会理事、武汉计算机软件工程学会理事会理事、中国计算机学会服务计算专委委员、中国计算机学会数字农业分会执行委员、中国中文信息学会语言与知识计算专委委员、中国人工智能学会会员、《农业大数据学报》编委、《华中农业大学学报》青年编委。

自2005年以来，一直致力于面向服务计算的软件工程、基于图数据的知识抽取与融合、AI大模型等相关领域的研究。对于语义网技术、面向服务的软件建模、本体建模等领域的理论知识具有全面的掌握，并熟练掌握图数据分析、逻辑推理、机器学习、因果推理等技术与相关工具。

主持并完成（或正在主持）国家重点研发计划子课题、国家自然科学基金、湖北省自然科学基金、国家数字畜牧业（生猪）创新分中心建设项目、内蒙古自治区重大科技专项课题、湖北洪山实验室重大专项、海南省崖州湾种子实验室“揭榜挂帅”项目子课题、国防科工委军工项目、军事科学院重点项目等，以技术骨干身份参与了澳大利亚CRC项目1项、澳大利亚国家自然科学基金1项，国家科技部973项目2项、十二五国家科技支撑计划1项等多个中澳重大科学研究项目。

在发表研究论文方面，以第一作者在IEEE Transactions on Services Computing，Service Oriented Computing and Applications，Information Systems Frontier等本领域国际重要学术期刊，计算机学报、电子学报等本领域国内权威期刊上发表论文多篇，以第一作者在International Conference on Advanced Information Systems (CAiSE), IEEE International Conference on Bioinformatics and Biomedicine (IEEE BIBM), IEEE International Conference on Data Mining (IEEE ICDM) 等本领域国际重要学术会议上发表论文多篇，共发表本领域专业技术论文90篇（其中SCI、EI收录80篇），获得6项国家发明专利，是国际标准ISO/IEC SC32 19763(我国数据管理领域第一个ISO国际标准系列)第7部分及四项国家行业标准的主要编制人。应邀担任IEEE Transactions on Services Computing，Information and Software Technology Journal，Journal of Web Service Research，软件学报等本领域国际国内权威期刊的审稿人。

2015年获ISO特别贡献奖，并分别于2011年和2015年两次获湖北省科技进步一等奖、2014年中国计算机学会科技进步一等奖、 2010年中国电子学会科技进步二等奖、2010年湖北省自然科学优秀论文三等奖等奖励。冯在文博士参与研究的代表性成果曾被学习强国、科学网、科技日报、中国科技网、珞珈新闻、南湖新闻网等多家媒体报道。

演讲题目：基于知识图谱增强AI大模型的农业智能知识服务研究与实践

演讲提纲：

1. 农业智能知识服务研究发展现状

2. 代表性成果

3. 结论与展望

听众收益：

1. 了解国内国际农业智能知识服务发展现状。

2. 了解如何构建与应用农业知识图谱，农业知识图谱发展的痛点问题是什么，解决方案又是什么。

3. 农业知识图谱的案例分析。

蔡毅华南理工大学教授

个人介绍：华南理工大学软件学院院长，教授，博导；大数据与智能机器人教育部重点实验室主任、香港裘搓基金访问学者。现为中国计算机学会杰出会员、自然语言处理专委会常委、数据库专委会、信息系统专委会执行委员；中国中文信息学会语言与知识计算专委会委员、情感计算专委会执委、社会媒体计算专委会委员；广东省计算机学会大数据专委会副主任、数字经济专委会副主任。曾获得多个学术奖项，包括2019年47届日内瓦国际发明展银奖，2019年广东省科技进步二等奖，2018 中国计算机学会科学技术奖技术发明二等奖等，在 IEEE TKDE、IEEE TMM、IEEE/ACM TASLP、IEEE Transactions on Affective Computing、AAAI、ACL、ACM MM、SIGIR、EMNLP、COLING等多个顶级国际期刊和会议上发表论文200多篇。担任NLPCC 2023组织主席， APWeb-WAIM 2021大会主席，ICEBE 2021、IEEE DSC 2020和 APWeb-WAIM 2018程序委员会主席，CCKS 2020工业论坛主席，国际学术期刊IEEE/ACM TASLP副主编，CMC-Computers, Materials & Continua副主编，Natural Language Processing Journal编委。

演讲题目：基于多模态数据的命名实体识别和关系抽取

演讲提纲：命名实体识别（NER）和关系抽取（RE）是知识图谱构建任务中的两个基本子任务。最近的研究表明视觉模态信息可以为文本提供补充性的上下文信息，从而提升命名实体识别（NER）和关系抽取（RE）的性能。在本次演讲中，我们将介绍一系列多模态命名实体识别（MNER）和多模态关系抽取（MRE）模型。

听众收益：

1.多模态命名实体识别

2. 多模态关系抽取

3.多模态命名实体和关系联合抽取

刘孟洋腾讯TEG 算法工程师

个人介绍：香港城市大学博士学位，腾讯高级算法工程师，5年计算机视觉从业经验，现从事文生视频算法研究工作。研究方向包括视频生成，图像生成，多模态，视频表征学习，大规模视频检索系统等。曾参与构建十亿级视觉检索系统，服务于视频去重，版权保护等。

演讲题目：扩散模型与文生视频

演讲提纲：近年来扩散模型在视觉生成领域大放异彩，跨模态对齐技术让文本控制生成成为可能，文生图以及文生视频领域迎来飞速发展。本次分享将主要介绍文生视频近期的主流方法，以及我们在画质提高、语义一致提升上的一些探索。同时也会介绍一些有趣的应用实践，以及一些可能并不会太长期的展望。

听众收益：

1. 如何用扩散模型实现文本控制生成？