作者信息If any question about the project or me ,see https://liuhuanyong./. 如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我: - 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
- github主页:https://github.com/liuhuanyong
ChineseSemanticKBChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。
项目介绍语义知识库是自然语言处理中十分重要的一个基础资源,与学术界追求算法模型不同,工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高,具体体现在: 1、具有落地场景的自然语言处理任务都是业务高度相关,一个业务需求刚进去,需要解决的是业务的词汇问题,无基础词库,无项目冷启动; 2、规则和正则启动下的工业级应用,规则的扩展、泛化都需要底层的词汇网络做支撑; 3、目前包括搜索、问答、舆情监控、事件分析等应用,与标签体系的运作关系密切,而这与先验的底层词汇库依赖性很强; 4、自然语言场景越来越关注推理层面,即所谓的“认知”层面,认知背后的各种逻辑关系库,是驱动这一决策的根本途径; 5、当前,面向中文开源词库的工作存在少量、分散的状态,无论从规模,还是质量,都需要进一步聚合; 因此,我从过往的开源工作中进一步抽离和整理,形成了中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,用于相关下游任务。 项目放于dict当中,可直接下载,不建议二次建库共享,尊重开源。 词库的类别词库类型 | 词库规模 | 词库举例 | 词库应用 |
---|
抽象关系库 | 346,048 | 座椅,抽象,家具 | 事件抽象与泛化,人民币贬值到货币贬值,再到美元贬值,可支持查询扩展、推荐等任务 | 反义关系库 | 34,380 | 开心@苦恼 | 可用于句子改写,开心改苦恼,支持数据增强,句子生成 | 同义关系库 | 424,826 | 开心@高兴 | 可用于查询扩展、数据增强,也可结合抽象关系库完成推荐等任务 | 简称关系库 | 136,081 | 北京大学@北大 | 可用于句子标准化、句子改写、实体消歧等任务 | 程度副词 | 222 | 极其,2.0 | 可用于情感强度计算,带情感色彩的句子生成 | 否定词 | 586 | 不,无,没有 | 可用于情感计算等任务 | 节日时间词 | 54 | 春节、五四节 | 可用于时间词识别等任务 | 量比词 | 7 | 占比、环比、同比 | 可用于金融领域指标类数据提取任务 | 数量介词 | 24 | 大约、达到、超过 | 可用于金融事件抽象或主干化的搭配词处理任务 | 停用词 | 3,861 | ?、的、着 | 常规的文本特征提取等任务 | 修饰副词 | 222 | 所、有所 | 可结合程度副词完成情感强度计算等任务 | 情态词 | 77 | 肯定、应该、大概 | 可用于句子主观性计算、舆情与可信度计算 |
总结1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库,总规模数目一百余万; 2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库,在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途; 3、中文常用语义常用词典,均来源于公开文本+人工整理+机器抽取形成,其中若有质量不高之处,可积极批评指正; 4、中文开源事业还是要坚持做下去,尽可能地缩短自然语言处理学术界和工业界之间的鸿沟。
插广告-为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节! 在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题: - 网络爬虫技术 解决 如何从网络世界中高效地 采集数据?
- 文本分析技术 解决 如何从杂乱的文本数据中抽取文本信息(变量)?
|