编辑整理:朱瑞杰 出品平台:DataFunTalk、AI启蒙者
人工智能技术可以划分为四个部分:
在这四种关键技术之上,知识图谱则是多种技术的综合体,像人类大脑和神经系统一样,构建出合适的知识体系,存储知识并应用知识于具体的场景之中从数据到知识的转换过程中,让企业的员工更快,更轻松的完成工作。 达观有着一系列的产品对整个流程进行智能化处理:
达观渊海知识图谱包括下列特点:
下图为渊海知识图谱平台示例: 02 这一过程类似图片所示,需要我们不断循环迭代,是一个十分复杂的过程。 与硅砂到晶片的过程类似,构建的过程就是从海量数据中把我们所需要的有价值的信息抽取出来,从而形成有价值的图谱的过程。原始的数据可能庞杂难以被利用,价值不大;但是经过信息抽取构建图谱形成知识之后,其价值就很十分巨大。 知识图谱的构建与应用是一个复杂的系统工程,不是单纯的算法和算法优化的问题,而是业务和算法的紧密结合。步骤可以分为: 1. 图谱模式设计 又称Schema设计或者本体设计;首先需要想清楚需要怎样的知识图谱,要和我们的业务相符合,这需要深厚的业务理解和相关领域的知识积累,通常来说,是由领域专家和知识图谱专家一同完成:
2. 知识抽取 从结构化数据和非结构化数据进行信息抽取 构建技术,从大的方面分为两块: 映射式构建:从各种各样的结构化数据(包括业务数据,传感器,QA系统,经营性数据,专家规则,统计报表等)里构建知识图谱。金融领域在过去数十年已经积累了大量的结构化数据,比如股票信息,银行资金流水等等,利用达观渊海知识图谱的映射式构建工具可以方便地将这些数据充分利用起来,成为金融知识图谱的一部分。 这是一个达观知识图谱的用例,来介绍映射式构建,通过图形化界面来选定数据源进行一些简单的操作,比如加减运算,聚合,以及各种数据库操作,把这类内容和操作规范映射到我们的图谱模式中去,可以一次性批量操作数据,也可以使用定时任务进行增量更新。 抽取式构建:对于知识图谱更大的信息来源是各类公共文档、即时消息、邮件、新闻、专业文档、书籍、财报、语音识别文本等各类非结构化数据。将这些文本应用各种信息抽取技术来构建图谱,即知识抽取。 知识抽取是业界一大难题,大量模型和算法被用以解决这个问题,首先的问题就是实体识别和关系抽取的问题。 ① 命名实体识别 NER(Named Entity Recognition,命名实体识别)又称作专名识别,是自然语言处理中常见的一项任务,使用的范围非常广。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。NER系统就是从非结构化的文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。 NER的常见方法包括:基于规则、机器学习、深度学习、混合方式等。
② 关系抽取 关系抽取,是指是从文本中抽取实体对之间的关系,实体可以是预先给定的或者通过实体抽取获得的,从算法角度上说,是把关系识别的问题转化为有监督的分类问题,辅以规则的方法。 方法上有:
上述方案都不会是100%,那么错误怎么办?
这里展示金融知识图谱的构建的整体流程: 例如,针对企业工商信息,上市公司信息等机构化数据直接使用映射式构建存入知识图谱;抽取式构建推荐使用弱监督学习+人工审核确认的方式来构建图谱;同时,不同的数据源都可以作为构建图谱的原始材料,同一数据源由于业务场景的不同也可以为不同的图谱提供知识来源。 3. 知识融合 由于知识图谱的数据来源多样这就涉及到怎么将结构化数据提取结构和非结构化数据提取结构相融合与合并的过程;另外,对于不同的数据源之间对应相同的知识点的信息也是要进行融合的,既要考虑到语义上的一致,也要考虑到业务上的一致性。 4. 知识存储 需要有相配套的综合的存储方案,需要多图谱管理和平台。知识图谱的存储技术,通常包括大家所熟知的neo4j等图数据库,当数据量较小时,存在mysql等关系数据库里也没问题,但数据量较大时必须要用分布式图数据库存储平台,达观这里以Hbase和JanusGraph为基础平台,融合了ES,Spark,KafKa等一系列技术组合成的混合型存储和计算平台。此外,我们也可以将原始文档储存在HDFS或HBase上,并用ES实现全文检索。 5. 知识应用 这是要与业务相关的,例如各种企业风险控制的判断的应用等等。知识图谱的应用技术,最简单的知识图谱的应用就是语义搜索,推理,推荐系统,问答系统这些通用的技术,可以帮我们辅助理解,比如百度谷歌将知识图谱的应用结果反馈显示到我们搜索的结果中。专业领域中知识图谱也可以应用到问答检索中,让我们更便捷的获取信息。基于知识图谱,我们还可以做一些更复杂的操作,实时报表应用,比如我们构建海关信息的知识图谱,将进出口商提交的信息自动生成海关报表,提交到海关平台上。辅助决策模型也是知识图谱的一大应用,我们利用知识图谱将各种标准文件结构化,辅助决策。建立产业链图谱,基于此图谱,我们可以对某种行为或者实体做风险预测等工作。 03 1. 基于金融知识图谱的金融资讯智能标签 构建金融领域知识图谱,对每天实时发生的大量金融资讯,基于咨询内容在图谱中关联的相关知识,生成资讯的多维智能标签。对于一段金融文本,由于已有各种金融领域知识图谱,包括产业链图谱,股权图谱,就可以对资讯的标签补充更为丰富信息内容,这些提取的标签可以有很多用途,例如对标签进行检索,另外可以为推荐系统提供有价值的标签。 2. 基于知识图谱的推荐和撮合 知识产权图谱,可以帮助用户从数以亿计的知识产权数据中准确全面的获取到有价值得到情报及其关联信息,具体包括,根据用户画像智能推荐知识产权,知识产权可视化检索和查看,以及智能问答知识产权机器人。 3. 政策图谱 帮助金融机构理解各级政府关于金融的各种各样的政策。 4. 高管潜在投资关系挖掘 对于上市公司高管的分析和研究,是投资者在对上市公司进行调研时的重要部分。面对众多企业的高管信息,每位高管是否在当前上市公司任职的同时还与其他公司有着关联关系,依靠传统数据查询方法很难做到准确全面的定位到某一个人物机器关联的各种公司信息。 今天的分享就到这里,谢谢大家。 |
|