自然语言处理又称计算语言学,其目标是让计算机处理或"理解"自然语言,以完成有意义的任务。
自然语言的难度将自然语言与编程语言对比,直观的的体会自然语言的复杂程度。 自然语言词汇量大 自然语言是非结构化的,编程语言是结构化的 自然语言含有大量歧义 容错性 易变性 简略性-人类经常省略大量背景知识或尝试说话
自然语言处理的层次自然语言处理的输入源有3个:语音、图像和文本。 前两者分别需要通过语音识别和光学字符识别(OCR)转化为最后的文本内容。一旦转化为文本,就可以开始NLP任务,对文本的处理才是NLP的关键。 词法分析:通常是后续高级任务的基础 主要分为三个任务:中文分词,词性标注,命名实体识别 中文分词:将文本分为有意义的词语 词性标注:确定每个词语的类别和浅层的歧义消除 命名实体识别:识别出一些较长的专有名词 句法分析:侧重于分析句子的语法 语义分析与篇章分析:侧重于分析句子的语义 主要分为词义消歧,语义角色标注乃至于语义依存分析。属于较为高级的课题 信息抽取:词义分析后对部分结构化的文本抽取想要的关键短语乃至句子 文本分类和聚类 其他高级任务: 上述的属于“工具类”任务,比较基础。自动问答、自动摘要、机器翻译等就是综合性的任务
注:一般认为信息检索(IR)是区别与自然语言处理的独立学科。因为IR的目标是查询信息,NLP的目标是理解语言。 自然语言处理的流派基于规则的专家系统:尝试用编程语言制定一系列的规则来表示人类语言。但是难以拓展。 基于统计的学习方法:运用统计模型和语料库让计算机自己学习
机器学习上面的基于统计的学习方法就是以机器学习的方法。机器学习指的是计算机通过某项任务的经验数据提高了在该项任务的能力。 简而言之,机器学习就是让机器学会算法的算法。前面的算法就是想要得到的用来完成指定任务的算法,后面的算法通常称为模型。 语料库语料库就是NLP中的数据集,根据我们想要教机器干什么,分为不同的语料库:中文分词语料库、词性标注语料库等。 开源工具HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然 语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构 清晰、语料时新、可自定义的特点。 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁
|