分享

自然语言处理简介

 脑系科数据科学 2020-07-30

自然语言处理又称计算语言学,其目标是让计算机处理或"理解"自然语言,以完成有意义的任务。

自然语言的难度

将自然语言与编程语言对比,直观的的体会自然语言的复杂程度。

  • 自然语言词汇量大

  • 自然语言是非结构化的,编程语言是结构化的

  • 自然语言含有大量歧义

  • 容错性

  • 易变性

  • 简略性-人类经常省略大量背景知识或尝试说话

自然语言处理的层次

QQ20200112-0

  1. 自然语言处理的输入源有3个:语音、图像和文本。
    前两者分别需要通过语音识别和光学字符识别(OCR)转化为最后的文本内容。一旦转化为文本,就可以开始NLP任务,对文本的处理才是NLP的关键。

  2. 词法分析:通常是后续高级任务的基础
    主要分为三个任务:中文分词,词性标注,命名实体识别
    中文分词:将文本分为有意义的词语
    词性标注:确定每个词语的类别和浅层的歧义消除
    命名实体识别:识别出一些较长的专有名词

  3. 句法分析:侧重于分析句子的语法

  4. 语义分析与篇章分析:侧重于分析句子的语义
    主要分为词义消歧,语义角色标注乃至于语义依存分析。属于较为高级的课题

  5. 信息抽取:词义分析后对部分结构化的文本抽取想要的关键短语乃至句子

  6. 文本分类和聚类

  7. 其他高级任务:
    上述的属于“工具类”任务,比较基础。自动问答、自动摘要、机器翻译等就是综合性的任务

注:一般认为信息检索(IR)是区别与自然语言处理的独立学科。因为IR的目标是查询信息,NLP的目标是理解语言。

自然语言处理的流派

  1. 基于规则的专家系统:尝试用编程语言制定一系列的规则来表示人类语言。但是难以拓展。

  2. 基于统计的学习方法:运用统计模型和语料库让计算机自己学习

机器学习

上面的基于统计的学习方法就是以机器学习的方法。机器学习指的是计算机通过某项任务的经验数据提高了在该项任务的能力。

简而言之,机器学习就是让机器学会算法的算法。前面的算法就是想要得到的用来完成指定任务的算法,后面的算法通常称为模型

  • 模型由假设函数和一系列参数构成

  • 特征提取和特征模版

  • 神经网络也就是深度学习,属于机器学习的一种

  • 数据集(在NLP中称为语料库)

  • 监督学习:数据集中样本由标注

  • 无监督学习:数据集中样本无标注。一般用于聚类和降维

  • 半监督学习:将多个模型预测相同的无标注样本作为新的训练样本扩充训练集

语料库

语料库就是NLP中的数据集,根据我们想要教机器干什么,分为不同的语料库:中文分词语料库、词性标注语料库等。

开源工具

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然
语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构
清晰、语料时新、可自定义的特点。
功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取
新词发现 短语提取 自动摘要 文本分类 拼音简繁

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多