配色: 字号:
人工智能基础-PPT课件
2022-11-27 | 阅:  转:  |  分享 
  
Artificial intelligence人工智能基础21 世纪技能创新型人才培养系列教材·人工智能系列contents绪论 人工
智能(Artificial Intelligence),英文缩写为 AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、
技术及应用系统的一门新的技术学科。20 世纪 40 年代和 50 年代,来自不同领域(数学、心理学、工程学、经济学和政治学)的一批
科学家开始探讨制造人工大脑的可能性。学习目标1. 了解人工智能的定义、发展简史。2. 熟悉人工智能的研究与应用领域。3. 认识人工
智能未来的发展趋势。1.1.1 像人类一样思考1.1.2 像人类一样行动 “像人类一样思考”的核心是认知心理学科学中的发现,该
发现测试了感知(感官感知,物体识别)、注意力、记忆(短期和永久性)、抽象思维、面向目标的行为(决策、发起和监视行为)、情绪、社会关
系、意识和自由意志。 AI 系统建模以使其受大脑功能启发的方式构成了一种创建行为类似于人类的解决方案。人工智能手臂概念图如图
1-2 所示。1.1.3 理性思考 逻辑定律是理性思考的基础,并已被发现和发展了数千年。1.1.4 理性行动理性主体是行为合
理的主体。特定时刻行为的合理性取决于以下几点:(1)定义成功标准的效率度量。(2)代理对背景的了解。(3)代理当前可能采取的行动。
(4)迄今为止代理已经获取的有关环境的信息序列。1.2.1 孕育期一般认为 AI 的最早工作是伦·麦克卡洛克(Warren McC
ulloch)跟沃特·皮特斯(Walter Pitts)完成的。1.2.2 形成期人工智能诞生于 1956 年一次历史性的聚会。1
.2.3 知识应用期1977 年,费根鲍姆在第五届国际人工智能联合会议上正式提出了知工程的概念。1.2.4 综合集成期在专家系统方
面,从 20 世纪 80 年代末开始逐步向多技术、多方法的综合集成与多学科、多领域的综合应用型发展。1.3.4 人工神经网络人工神
经网络是在研究人脑的奥秘中得到启发,是通过范例的学习,修改了知识库和推理机的结构,达到实现人工智能的目的。1.3.5 智能决策支持
系统决策支持系统属于管理科学的范畴,它与“知识—智能”有着极其密切的关系。1.3.6 自动定理证明自动定理证明是指利用计算机证明非
数值性结果,即确定真假值。1.3.1 专家系统专家系统是依靠人类专家已有的知识建立起来的知识系统,是一种具有特定领域内大量知识与经
验的程序系统。1.3.2 机器学习机器学习就是机器自己获取知识。1.3.3 模式识别模式识别是研究如何使机器具有感知能力,主要研究
视觉模式和听觉模式的识别,如识别物体、地形、图像、字体(如签字)等。人工智能能让我们害怕什么?文章节选1. 人工智能是一门什么科学
?2. 为什么可以用机器来模仿人的智能?3. 人工智能的发展阶段有哪些?4. 人工智能研究包括哪些内容?请举例说明5. 人工智能未
来有哪些研究热点?请举例说明。人工智能基本概念 学习人工智能,知识是最重要的。知识即为各种概念。概念是人类所认知的思维体系中
最基本的构筑单位。对概念准确定义是表达概念的先决条件。概念名是一个表示符号或认知的词语。学习目标1. 了解命题逻辑和谓词逻辑。2.
了解集合定义;集合的常用表示方法;集合的基本运算。3. 掌握现代各种表示概念的方法。含义: 数理逻辑是用数学方法研究逻辑
或形式逻辑的学科,是利用计算的方法来代替人们思维中的逻辑推理过程。数理逻辑的核心是把逻辑数理化,把逻辑运作转化为数学运算。数理逻辑
中两个最基本也是最重要的组成部分,就是“命题逻辑”和“谓词逻辑”。命题逻辑 在命题逻辑中,简单命题常用 p、q、r、s、t
等小写字母表示。复合命题则用简单命题和逻辑联结词进行符号化。常用的逻辑联结词有五个——否定联结词、合取联结词、析取联结词、蕴含联结
词、等价联结词。具体表示如表 2-1所示。命题逻辑 否定联结词是一元联结词,表示为 ┐。设 p 为一个命题,复合命题“非
p”(或p 的否定)称为 p 的否定式,记作 ┐p。┐p 的真值与 p 的真值相反。在自然语言中,否定联结词一般用“非”或“不”等
表示,但不是自然语言中所有的“非”“不”都对应否定联结词。否定联结词对应真值表如表 2-2所示。命题逻辑命题逻辑 合取联结词
为二元联结词,其符号如表 2-1 所示,为∧。设 p,q 为两个命题,复合命题“ p 并且 q”(或“ p 与 q”)称为 p 与
q 的合取式,记作 p∧q。不是所有的“与”“和”都对应合取联结词,合取联结词对应真值表如表 2-3 所示。命题逻辑 析取
联结词为二元联结词,其符号为∨。自然语言中的“或者”与析取联结词不完全等价,自然语言中的“或者”可以表示“排斥或”,也可以表示“可
兼或”,由于“∨”允许 p,q 同时为真,因此析取联结词是“可兼或”。析取联结词对应真值表如表 2-4所示。命题逻辑 蕴含联
结词为二元联结词,其符号为→。在日常生活中,p → q 中的前后件往往存在某种内在关系,而在数理逻辑中并不要求前后件存在联系。例如
“如果雪是黑色的,则太阳从西方升起。”蕴含联结词对应真值表如表 2-5 所示。命题逻辑 等价联结词为二元联结词,其符号为 ?
。等价联结词对应真值表如表 2-6 所示。谓词逻辑含义:集合有三种常用的表示方法:枚举表示法、谓词表示法和文氏图。 从 1 到
100 的所有整数组成的集合可以表示为 {1,2,3,…,100} 所有直角三角形的集合可以表示为 {x|x 是直角三角形 }
集合具有三个特性:确定性、互异性和无序性。 在当今这个人工智能不断取得突破的时代,人工智能带来的风险也与日俱增。比如,当工
业机器人和工人一起工作时,如何保证机器人不误伤工人?当街上的无人驾驶汽车越来越多时,如何保证无人驾驶汽车不被恐怖分子中的黑客入侵,
变成杀人工具?当服务机器人或机器宠物掌握了主人的无数隐私时,如何保证这些隐私不被窃取,或者不被机器人的制造商非法利用?因此,很有必
要将“良知”注入机器人“内心”,从技术底层保证所有的机器人从根本上是“善良”的。下面列出了实现这一目标的几点初步思考,抛砖引玉,期
待能引发读者更多的思考和行动。文章节选 1. 人工智能好学吗?2. 如果太阳从东边出来,那么人都会死。3. 人工智能要么好学,要么
不好学。4. 两个偶数之和是偶数。一、判断下列语句是否为命题?如果是,请写出对应的符号化形式。1. 蔬菜。2. 水果。3.冰激凌。
4. 运动员。二、思考下列事物的原型。知识表示 知识是智能的基础,知识应用的难点在于知识推理,知识推理的难点在于知识表示。
要让计算机具有人类智能,就得让它具有知识。知识表示是基于知识的人工智能应用中的核心部分。学习目标1. 了解经典知识的概念、特性以及
知识表示的概念。2. 掌握常见的知识表示方法。3.1.1 知识的概念知识的概念知识是人类在长期的生活实践中以及科学研究实验中累积起
来的,是对客观世界的认识及经验。把有关信息关联在一起所形成的信息结构称为知识。例题人类知识中“燕子低飞蛇过道,大雨不久就来到”,转
化为能让计算机理解的模式,可得到以下知识:如果燕子低飞蛇过道,则快要下大雨。还有一种知识被称为“事实”,例如“老虎是动物”,这个知
识表达了“老虎”与“动物”之间的关系。3.1.2 知识的特性(2)有利于对知识的利用(4)便于理解与实现。(1)充分表示领域知识(
3)便于对知识的组织、维护与管理。3.1.3 知识表示的概念选择知识表示方法的原则有知识表示(knowledge represen
tation)就是将人类知识形式化或者模型化。3.2.1 逻辑表示法 逻辑本身根据复杂性从简单到复杂分为:命题逻辑、一阶谓词
逻辑、高阶逻辑。为了避免运算的歧义,命题逻辑还定义了不同的连接词和操作符的优先级关系,例如非(┐)具有最高优先级。逻辑连接符根据真
值表运算组合命题的真假值,真值表如表 3-1 所示。命题逻辑和一阶谓词逻辑是人工智能领域使用最早的、最广泛的知识表示方式。3.2.
1 逻辑表示法一阶谓词逻辑谓词逻辑可分为一阶谓词逻辑和高阶谓词逻辑。一阶谓词逻辑在命题逻辑的基础上增加了量词的概念,即全称量词(?
)和存在量词(?)。一阶逻辑的基本语法元素是表示对象、关系和函数的符号。例题其中对象对应常量符号,通常指一些事物的个体或类别,如老
虎、苹果、叶子等。关系对应谓词符号,指的是一种映射,例如“朋友”便是一个谓词,对于对象“小明”,朋友(小明,x)是谓词对对象的操作
,其中 x 可以是小明的一个或多个朋友,也可以为空。3.2.2 产生式表示法3.2.2 产生式表示法3.2.3 框架表示法
在一个用框架表示知识的系统中,一般含有多个框架,一个框架一般含有多个不同槽、不同侧面,分别用不同的框架名、槽名及侧面名表示。对于框
架、槽或侧面,都可以为其附加上一些说明性的信息,一般是一些约束条件,用于指出什么值才能填入槽和侧面中去。3.2.4 语义网络表示法
(节点 1,弧,节点 2)也可以通过图 3-3 来表示体现的是“具体与抽象”的概念,含义是“是一个”,表示一个事物是另一个事物的一
个实例,如“小明是一个人”,用语义网络表示如图 3-4所示。属性关系:体现的是事物、属性及其取值之间的关系,例如,“小明今年 20
岁,身高 180cm”,用语义网络表示如图 3-5 所示。3.2.5 状态空间表示法例如,操作序列 O1,...,Ok 使初始状
态转换为目标状态,如图 3-6所示3.2.5 状态空间表示法 状态空间也可用有向图来描述,图的节点表示问题的状态,图的弧表示
状态之间的关系。初始状态对应于实际问题的已知信息,是图的根节点。求解就是找到初始状态转换为目标状态的路径。状态空间有向图如图 3-
7 所示。3.2.6 脚本表示法人工智能的基础是什么?知识、信息和数据文章节选1. 什么是知识?它有什么特性?有哪几种分类方法?2
. 用产生式表示:3. 用框架表示法描述一下自己的房间构造。(1)动物能吃、能运动。(2)鸟是一种动物,鸟有翅膀、会飞。(3)鱼是
一种动物,鱼生活在水中、会游泳。4. 用语义网络表示法表示下列信息:如果一个人发烧、呕吐以及出现黄疸,那么他患上肝炎的概率有 7
成。6. 思考知识表示的各种表示法的优点和缺点,以及适用场景。 一个老农携带一只狐狸、一头羊羔和一筐白菜,要从南岸过河到北岸。
岸边有一条小船,只有老农能划船且只能携带一样东西过河。在整个渡河过程中,无论什么情况,若老农不在场,则狐狸和羊羔不能单独相处,羊羔
也不能和白菜放在一起。请问老农如何把所有东西从南岸运到北岸?5. 用状态空间表示法表示下列问题:专家系统 世界上第一个专家系
统是 DENDRAL,诞生于 1965 年。费根鲍姆领导的小组又研发了著名的专家系统 MYCIN,这个非常重要的专家系统,因为它确
定了专家系统的基本结构,为后来的专家系统研究奠定了基础。学习目标1. 了解专家系统的定义。2. 掌握专家系统的组成。3. 掌握确定
性推理和非确定性推理。专家系统是一种模拟人类专家解决领域问题的计算机程序系统。人机界面: 是系统与用户进行交流的界面,通过该
界面,用户输入基本信息、回答系统提出的相关问题,并输出推理结果及相关的解释等;知识库用来存放专家提供的领域知识和事实等。知识库:知
识库用来存放专家提供的领域知识和事实等。推理机: 针对当前问题的条件或已知信息,反复匹配知识库中的规则,获得新的结论,以得到
问题求解结果。动态数据库: 库专门用于存储推理过程中所需的原始数据、中间结果和最终结论,往往是作为暂时的存储区知识获取:
是专家系统知识库是否优越的关键,也是专家系统设计的“瓶颈”,通过知识获取,可以扩充和修改知识库中的内容,也可以实现自动学习功能
。解释器: 能够根据用户的提问,对结论、求解过程做出说明,因而使专家系统更像一个“人”。 我们一般将存放于知识库中的知
识称为规则或者知识规则,一般以如下形式表示: IF< 前提 >THEN< 结论 > 表示:当 < 前提 > 被满足时,
可以得到 < 结论 > 例如:IF 阴天 and 湿度大 THEN 下雨 表示:如果阴天且湿度大,则会下雨。 规
则的 < 结论 > 可以是类似上例中的“下雨”这样的结果,也可能是一个“动作”,例如: IF 天黑 THEN 打开灯
也可能是其他类型,比如删除某个数据等。 推理机是一个执行结构,它负责对知识库中的知识进行解释,利用知识库进行推理。假设知识以
规则的形式表示,推理机会根据某种策略对知识库中的规则进行预测,选择一个 < 前提 > 可以满足的规则,得到该规则的 < 结论 >,
并根据 < 结论 >的不同类型执行不同操作。专家系统中最重要的部分是知识库和推理机。正向推理:按照推理的方向,推理方法可以分为正向
推理和逆向推理。 就是正向地使用规则,从已知条件触发向目标进行推理,由于这种推理方法是从规则的前提向结论进行推理,所以称为正
向推理。由于正向推理是通过动态数据库中的数据来“触发”规则进行推理的,所以又称为数据驱动的推理。正向推理:例 4.1 设有规则:R
1:IF A and B THEN CR2:IF C and D THEN ER3:IF E THEN F并且已知 A、B、D 成
立,求证 F 成立。逆向推理: 逆向推理又被称为反向推理,是逆向地使用规则,先将目标作为假设,反推是否有某条规则支持该假设,即
规则的结论与假设是否一致,然后看结论与假设相关的规则其前提是否成立。逆向推理:例 4.2 在例 4.1 中,如何使用逆向推理推导出
F 成立?02 在以上对话中,当得知动物有羽毛后,你就知道了该动物属于鸟类,于是你提问是否会飞;当得知不会飞后,你开始假定
这可能是鸵鸟,于是提问是否有长腿;在得到否定回答后,你马上想到了可能是企鹅,于是询问是否会游泳;然后为了进一步确认是否是企鹅,又问
颜色是否是黑白的;得知是黑白颜色后,马上就确认该动物是企鹅。 推理机是如何利用这些知识进行推理的呢?我们假设采用逆向推理进行
求解。首先,系统提出一个假设。假定系统首先提出的假设是鸵鸟,则推理过程如图 4-2 所示。 动态数据库中没有记载,也没有哪
个规则可以得到该结论,还是询问用户,得到回答“ Yes”后,将“不会飞”加入动态数据库。再验证“有长腿”,这时由于用户回答是“ N
o”,表示该动物没有长腿,“没有长腿”也被放入到动态数据库中。由于“有长腿”得到了否定回答,所以R11 的前提不被满足,假设“鸵鸟
”不能成立。系统再次提出新的假设动物是“企鹅”,得到如图 4-3 所示的推理过程。随机性、模糊性和不完全性均可导致非确定性。解决非
确定性推理问题至少要解决以下几个问题:(1)事实的表示。(2)规则的表示。(3)逻辑运算。(4)规则运算。(5)规则的合成。目前有
不少非确定性推理方法,各有优缺点,下面我们以著名的专家系统MYCIN 中使用的可信度方法(certain factor,CF 方法
)为例进行说明。事实 A 为真的可信度用 CF(A) 表示,取值范围为 [-1,1],当 CF(A)=1 时,表示 A 肯定为真;
当 CF(A)=-1 时,表示 A 为真的可信度为 -1,也就是 A 肯定为假。CF(A)>0 表示 A 以一定的可信度为真;CF
(A)<0 表示 A 以一定的可信度且值为(-CF(A)) 为假;或者说 A 为真的可信度为 CF(A),由于此时 CF(A) 为
负,实际上 A为假;CF(A)=0 表示对 A 一无所知。在实际使用时,一般会给出一个绝对值比较小的区间,只要在这个区间就表示对
A 一无所知,这个区间一般取 [-0.2,0.2]CF(A)。例如:CF( 阴天 )=0.7,表示阴天的可信度为 0.7。CF(
阴天 )=-0.7,表示阴天的可信度为 -0.7,也就是晴天的可信度为 0.7。4.4.1 事实的表示4.4.2 规则的表示具有可
信度的规则表示为以下形式:IF A THEN B CF (B,A)其中 A 是规则的前提;B 是规则的结论;CF(B,A) 是规则
的可信度,又称规则的强度,表示当前 A 为真时,结论 B 为真的可信度。同样,规则的可信度 CF(B,A) 取值范围也是 [-1,
1],取值大于 0 表示规则的前提和结论是正相关的,取值小于 0 表示规则的前提和结论是负相关的,即前提越是成立,则结论越不成立。
一条规则的可信度可以理解为当前提肯定为真时,结论为真的可信度。例如:IF 阴天 THEN 下雨 0.7表示:如果阴天,则下雨的可信
度为 0.7IF 晴天 THEN 下雨 -0.7表示:如果晴天,则下雨的可信度为 -0.7,即如果晴天,则不下雨的可信度为0.7。
若规则的可信度 CF(B,A)=0,则表示规则的前提和结论之间没有任何相关性。4.4.3 逻辑运算4.4.4 规则运算例如:已知:
IF 阴天 THEN 下雨 0.7CF( 阴天 )=0.5则:CF( 下雨 )=0.5×0.7=0.35,即从该规则得到下雨的可信
度为 0.35。已知:IF 湿度大 THEN 下雨 0.7CF( 湿度大 )=-0.5则:CF( 下雨 )=0,即通过该规则得不到
下雨的信息。现实中可以理解为现在不能得到湿度大的前提,所以也无法通过依靠湿度大的规则来得到下雨的信息。在可信度方法中,规则运算的规
则按照以下方式计算:已知:IFATHENBCF(B,A)CF(A)则:CF(B)=max{0,CF(A)}CF(B,A)4.4.
5 规则合成专家系统发展历史 1965 年第一个专家系统 DENDRAL 在美国斯坦福大学问世以来,经过 50 多年的开发,各种专
家系统已遍布各个专业领域,涉及工业、农业、军事以及国民经济的各个部门乃至社会生活的许多方面。文章节选2.专家系统的特点和优点是什么
?1. 什么是专家系统?它由哪几部分构成?3. 简述正向推理和逆向推理的流程。自然语言处理 自然语言处理(NLP)是一种基
于理论的计算技术,用于人类语言的自动分析和表达。自然语言处理的目的是使计算机处理、理解并能够生成人类的语言,它涉及计算机科学、人工
智能和语言学等多个学科。学习目标1. 熟悉自然语言处理发展历程。2. 了解自然语言处理的经典任务。3. 掌握自然语言处理在机器翻译
、问答系统、对话系统领域的应用。图灵测试统计的方法神经网络进一步发展自然语言处理技术快速发展主要取决于以下几个因素:彼得·特罗扬斯
基1956 年发现了专利机器翻译重点在词典的发展上5.2.1 基于规则的机器翻译5.2.1 基于规则的机器翻译1. 直接机器翻译这
是最直接的机器翻译类型。英语—德语的直接翻译示意图如图 5-1所示。5.2.1 基于规则的机器翻译2. 基于转换的机器翻译基于转换
的方法首先通过确定句子的语法结构来进行翻译,就像我们在学校学习的那样,然后修正整个结构,而不是单词。这有助于在翻译中对词序进行正确
的转换。如图 5-2 所示。5.2.1 基于规则的机器翻译3. 语际机器翻译这正是笛卡儿梦寐以求的国际语:一种元语言,遵循通用规则
并翻译转换为简单的“来回”任务。国际语可以转换为任何目标语言,这就是国际语的特点。如图 5-3 所示。5.2.1 基于规则的机器翻
译3. 语际机器翻译第一,基于人工书写翻译规则的机器翻译方法的主要优点是直观,语言学家可以非常容易地将翻译的东西利用规则的方法表达
出来,书写的翻译规则可读性比较好。第二,翻译规则的书写颗粒度具有很大的可伸缩性。较大颗粒度的翻译规则具有很强的概括能力,比如通用翻
译规则;较小颗粒度的翻译规则具有精细的描述能力,比如个性翻译规则。第三,翻译规则便于处理复杂的句法结构和进行深层次的语义理解,比如
解决翻译过程中的长距离依赖问题。第四,基于规则的机器翻译系统适应性强,完全不依赖于具体的双语训练语料,这一点不同于基于实例的机器学
习方法,包括后来的统计机器翻译和神经机器翻译方法。5.2.1 基于规则的机器翻译3. 语际机器翻译基于规则的机器翻译方法的最大问题
:第一,人工书写翻译规则的难度很大,代价非常高。第二,人工书写翻译规则的主观因素重,因人而异,有时与客观事实有一定差距。第三,翻译
规则的覆盖性差,特别是细颗粒度的翻译规则很难总结得全面,比如英语中的所有不规则动词,德语中的可分离前缀。第四,前面提到翻译规则通常
是按照形式文法规范来书写的,有些复杂的语言现象难以描述。第五,翻译规则通常不具有优先级,系统调试非常枯燥乏味,并且新增加的翻译规则
容易与之前存在的翻译规则发生冲突,称之为跷跷板现象,这个问题目前还没有很好的解决方法。5.2.2 基于实例的机器翻译 基
于实例的机器翻译向来自世界各地的科学家展示了一个“窗口”:事实证明,只需为计算机提供现有的翻译,而无须花费时间制定规则和特例。这还
称不上是革命,但显然是迈出了第一步。5.2.3 统计机器翻译 1990 年初,IBM 研究中心首次展示了一个机器翻译系统,
它对规则和语言学一无所知。它分析了两种语言的相似文本,并试图理解其中的模式。这个想法简单而美妙。将两种语言中相同的句子分解成单词,
然后再进行匹配。这项操作重复了大约 5 亿次,以计算“Das Haus”翻译成“house”“building”“construc
tion”的次数,等等。5.2.4 神经机器翻译 seq2seq 是一个编码器—解码器结构的模型,如图 5-4 所示,编码器
的输入是一个可变长度的序列,它将输入文本编码为固定长度的上下文向量。 由于输入输出为可变长度的序列,因此多数神经网络使用
RNN 作为编码器与解码器。图 5-5 所示为一个基于 RNN 的编码器结构,其中 ( xxx x 123 ,,,? n ) 为我
们的输入序列, xi 表示句子中的第 i个文字。 图 5-6 所示为一个基于 RNN 的解码器结构,其中 ( yyy y 1
23 ,,,? m ) 为我们的输出序列。解码器将编码器输出的上下文向量 hn 和 y0 (初始化为 0)作为初始的输入。5.3.
1 注意力机制 注意力机制是编码器—解码器结构的神经网络一个非常重要的概念。图 5-7 所示为带有注意力机制的 seq2
seq 模型结构,其中编码器保持不变,在解码器中我们使用 ci 来表示上下文向量。 ci 为编码器中每一个上下文向量 hi 的加权
之和。5.3.2 问答系统自然语言问题大致可以分为七类:5.3.2 问答系统01(3)答案抽取:从可能存在答案的信息块中抽取答案。
问答系统可以分为三个流程:5.3.2 问答系统1. 基于知识图谱的问答系统将问题解析为机器的查询语言后,我们就可以直接查询知识图谱
获取答案,具体的流程如下:01(3)使用一个预先训练好的机器学习模型,将正确的语法树区分出来,最终语法树的根节点则为输出的查询语句
。5.3.2 问答系统1. 基于知识图谱的问答系统01(3)向量匹配:使用答案编码分别和问句向量做相似度计算,最终的相似度为几种相
似度之和。问答任务就可以看成问句语义向量与知识谱图中实体、边的语义向量相似度计算的过程。具体的流程如下:5.3.2 问答系统2.
基于信息检索的问答系统 基于信息检索的问答的目的是通过在网络上或其他文档集合中查找简短的文本段来回答用户的问题。下面介绍
抽取式问答的步骤:(1)问题处理。(2)信息检索。(3)答案抽取。 图5-8 所示为一个使用 RNN 的变体 LSTM 的答案抽取
模型。5.3.2 问答系统3. 基于问答对的问答系统 FAQ 问答系统通常有两种实现:(1)相似问题匹配,即计算用户问题与现
有知识库中的问题的相似度,返回用户问题对应的最精准的答案;(2)问题答案匹配,即计算用户问题与知识库中答案的匹配度,返回用户问题对
应的最精准的答案,该方案是选择答案及 QA 匹配。这两种方案中都需要用到文本匹配计算。世界上第一台聊天机器人——Eliza文章节选
2. 预训练的语言模型为什么能取得好效果?1. 基于规则的方法和基于统计的方法孰优孰劣?3. 列举几个自然语言处理的领域,它们属于
自然语言理解还是自然语言生成?深度学习 深度学习使计算机模仿视觉、听觉和思考等人类活动,解决了很多复杂的模式识别难题,使得人
工智能取得了很大进步。学习目标1. 掌握深度学习的基本概念。2. 了解神经网络的基本模型。3. 认识三种基本的神经网络结构。
深度学习的概念由辛顿(Hinton)等人于 2006 年提出,但它却有着悠久而丰富的历史。一般认为深度学习的雏形出现在控制论中。
20 世纪 50 年代中后期,基于神经网络的“连接主义”学习开始出现,但早期的人工智能研究人员偏爱符号主义,所以连接主义并未纳入主
流的人工智能研究范畴。80 年代中期连接主义重新受到人们关注。首先是神经网络求解“流动推销员问题”取得重大进展,其次是反向传播算法
的提出,对神经网络产生了深远的影响。21 世纪初,连接主义又以“深度学习”的名义掀起了人工智能的热潮。 人为什么能够思考?科
学家发现,原因在于人体的神经网络,如图 6-1 所示。生物神经网络的工作流程可以简要地概述为以下 4 步:(1)外部刺激通过神经末
梢,转化为电信号,转导到神经细胞(又叫神经元)。(2)电信号最终传导到由无数神经元所构成神经中枢。(3)神经中枢综合各种信号,做出
判断。(4)人体根据神经中枢的指令,对外部刺激做出反应。 1943 年 McCulloch 和 Pitts 将上述的生物
神经网络中的神经元抽象为如图 6-2 所示的简单模型,这就是一直沿用至今的“ M-P 神经元模型”。 感知机是由两层神经元
组成的神经网络结构,如图 6-3 所示,输入层接受外界输入信号传递给输出层,输出层(也被称为是感知机的功能层)是一个 M-P 神经
元。 感知机可以很容易地实现逻辑与、或、非运算。与、或、非运算是一个二元函数,其输入为 x x 1 2 , , ∈{0
1} ,输出为 y ∈{0 1,} 。表 6-1 为与运算真值表。例如感知机甚至无法解决异或这样简单的线性不可分问题。如图 6-
4 所示。 大多数的问题都是线性不可分,尤其是计算机视觉、自然语言处理领域的问题。因此更一般的网络是如图 6-5 所示的层级
结构。 深度神经网络由感知机推广而来,也被称为多层感知机、深度前馈神经网络。其结构如图 6-6 所示,我们将第一层称为输入层
,最后一层称为输出层,中间的层称为隐层。6.4.1 前向传播 前向传播指的是信息从第一层逐渐地向高层进行传递的过程,也就是
图 6-6 中从输入 xxx 123 , , ,到输出 yyy 1 23333, , ,的过程。下面以图 6-6 为例说明前向传播
的过程。6.4.2 反向传播 对于最后一层,其输入 dyl 为 ??yJl ,我们使用反向传播计算每一层参数的梯度,然后使用梯
度下降法,根据误差来调整每一层的参数。6.4.3 为什么深度有效6.5.1 卷积运算深度神经网络应用计算机视觉时要面临一个挑战,就
是数据的输入可能会非常大。如图 6-7 所示,卷积运算输入为 5×5 的矩阵,为了进行卷积运算,你需要构造一个 3×3 的阵,在卷
积神经网络的术语中,它被称为过滤器。6.5.1 卷积运算深度神经网络应用计算机视觉时要面临一个挑战,就是数据的输入可能会非常大。如
图 6-8 所示,继续做同样的元素乘法,然后加起来得到第二个位置的值。6.5.2 池化层如图 6-9 所示,输入是一个 4×4 矩
阵,用到的池化类型是最大池化。6.5.3 为什么使用卷积 深度神经网络中两层神经元之间是全连接的,即第 i 层的一个神经元
与 i +1 层的每一个神经元相连。卷积网络参数这么少有两个原因:一是参数共享。二是使用稀疏连接。 循环神经网络(RNN)
的提出是为了解决序列问题。序列的维度不像图片那样是固定的,比如对一个句子来说,其长度是变化的。但结果表明这个方法并不好,主要有两个
问题:一是输入和输出数据在不同例子中可以有不同的长度,不是所有的例子都有同样输入长度或同样输出长度的。二是一个像这样单纯的神经网络
结构,它并不共享从文本的不同位置上学到的特征。 图 6-10 所示为一个非常简单的循环神经网络,它含有一个输入节点、一个输出
节点、一个隐层节点。 在一个循环神经网络中,我们是将系列中的数据按照顺序一个一个输入网络的,具有时间上的先后关系。因此我们也
可以按照时间线来展开这个神经网络。如图 6-11 所示。 径向基函数是中心点径向对称、取值仅依赖于距中心点距离的非负实值函数
。简单地说,就是该点的函数值只与该点距离中心点的距离有关。6.7.1 径向基函数网络(RBF)6.7.2 自适应谐振理论网络(AR
T) 自适应谐振理论网络是竞争型学习的代表,它由比较层、识别层、识别阈值和重置模块构成。比较层接收输入样本传递给识别层神
经元。在接收到比较层的输入后,识别层神经元之间互相竞争易产生获胜神经元。ART 比较好地缓解了竞争型学习中的“可塑性—稳定性窘境”
,可塑性是指神经网络对新知识的学习能力,而稳定性是指神经网络对旧知识的记忆。这就使得ART 网络可以进行增量学习或在线学习。6.7
.3 玻尔兹曼机(BM) 玻尔兹曼机是一种随机神经网络,借鉴了模拟退火思想。随机神经网络与其他神经网络相比有两个主要区别
:(1)在训练阶段,随机网络不像其他网络那样基于某种确定性算法调整权值,而是按某种概率分布进行修改。(2)在预测阶段,随机网络不是
按某种确定性的网络方程进行状态演变,而是按某种概率分布决定其状态的转移。神经元的净输入不能决定其状态取1还是取0,但能决定其状态取
1 还是取 0 的概率。这就是随机神经网络算法的基本概念。 杰弗里·辛顿(Geoffrey Hinton),被称为“神经
网络之父”“深度学习鼻祖”文章节选2. 循环神经网络处理序列数据有什么缺点吗?1. 既然“深度”有效,为什么不“无限”地加深神经网
络?3. 什么样的函数适合作为激活函数?5. 有哪些方法可以防止神经网络过拟合?4. 神经网络的参数可以初始化为 0 吗?为什么?
机器学习 机器学习(Machine Learning)属于人工智能领域,其重点是开发用于自动获取知识的原理和技术。人工智能是
研究人类智能活动规律的一门学科。学习目标1. 了解机器学习的概念以及研究目标。2. 熟知机器学习常用的方法。3. 了解机器学习的发
展历史。4. 理解监督学习、无监督学习、半监督学习等常见机器学习方法。 机器学习的研究目标有三个方向,第一个方向是从模拟人类
的学习过程出发,试图建立学习的认识生理学模型,这个方向与认知科学的发展密切相关。第二个方向是基础研究,发展各种适合机器特点的学习理
论,探讨所有可能的学习方法,比较人类学习与机器学习的异同与联系。第三个方向是应用研究,建立各种实用的学习系统或知识获取辅助工具,在
人工智能科学的应用领域,机器人系统、专家系统等建立自动获取知识系统,积累经验,完善知识库与控制知识,进而能使机器的智能水平像人类一
样。1.决策树学习是一种利用决策树逼近离散函数的方法。2.神经网络学习方法提供了一个鲁棒的方法来逼近重值、离散值和向量值函数。3.
贝叶斯推理提供了一种概率推理方法。贝叶斯推理为直接操纵概率的学习算法提供了基础,也为分析其他算法的操作提供了框架。4.强化学习解决
了如何学会选择最佳的行动来达到它的目标。5.归纳逻辑编程源于从例子中学习概念,是一种相对简单的归纳形式。概念学习的目的是从一组预先
分类的例子中发现一组具有高预测能力的分类规则。ILP 理论是基于一阶谓词演算的证明理论和模型理论。归纳假设的形成,其特点是采用了逆
分解、相对最小泛化、逆暗示和逆蕴涵等技术。6.基于案例的推理(Case-Based Reasoning,CBR)是一种惰性学习算法
,它通过分析相似的实例来分类新的查询实例,同时忽略与查询有很大差异的实例。7.支持向量机(SVM)是近年来非常流行的分类和优化方法
。SVM 是由 Vapnik等人在 1992 年引入的。这种方法结合了两个主要思想。8.遗传算法提供了一种学习方法,其动机类似于生
物进化,寻找一个合适的假设。7.3.1 推理期 在推理期,只要给予机器逻辑推理能力,机器学习就具备智能。同时期产生了纽维尔
(A.Newell)和西蒙(H.Simon)的 Logic Theorist 程序和 General Problem Solvin
g 程序。但是这时的逻辑推理机器,不能满足人工智能研究的需求。7.3.2 知识期 20 世纪 70 年代,人工智能的发展进入
了知识期,知识期即由人把知识总结出来再教给计算机。这一时期发展了大量专家系统,人工智能在众多应用领域取得了大量成果。随着知识系统的
发展,专家系统越来越复杂,人们发现这种人工总结知识教给计算机的做法非常困难,专家系统迎来了知识工程瓶颈。于是,人工智能迎来了学习期
,即机器自己学习知识,也就是机器学习。7.3.3 学习期 80 年代,R.S.Michalski 等人和 E.A.Feig
enbaum 等人在著名的《人工智能手册》中把机器学习划分为如下部分:(1)R.S.Michalsk 等人提出从样例中学习,在问题
求解和规划中学习,通过观察和发现学习,从指令中学习。(2)E.A.Feigenbaum 等人提出归纳学习、机械学习、类比学习、示教
学习。从样例中学习对应广义的“归纳学习”,即从训练样本中归纳出学习结果。7.3.3 学习期(1)决策树理论,信息熵作为变量出现的期
望值,信息熵越小,系统越有序,信息熵的最小化成为决策树的目标。(2)基于逻辑的学习,其中归纳逻辑程序设计(ILP)是使用一阶逻辑来
进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。1. 决策树和基于逻辑的学习7.3.3 学习期2. 基于神经网络的连接主
义学习 90 年代前期,基于神经网络的连接主义学习发展成为主流技术。1986 年,D.E.Rumelhart 等人重新发明了
著名的 BP 算法,产生了深远的影响,由于 BP 算法十分高效,使它在很多现实问题上发挥作用。在连接主义学习过程中,存在观点的多样
性,可能会包含大量的参数,参数的选择全靠经验判断,没有理论依据,人工调整参数可能导致误差,学习结果将会差距很大。7.3.3 学习期
3. 统计学习支持向量 SVM 90 年代中期,统计学习迅速崛起,支持向量机 SVM 成为其代表性技术。21 世纪初,深度
学习快速发展,深度学习狭义的解释就是多层神经网络。计算机硬件处理技术与数据存储技术的发展,给深度学习带来了更加广阔的发展和应用,深
度学习技术快速席卷了整个人工智能领域。处理器技术的发展也使得人工智能能够在数据和高运算能力下发挥它的作用。 监督学习需要有明
确的目标,很清楚自己想要什么结果。比如:按照“既定规则”来分类、预测某个具体的值……监督并不是指人站在机器旁边看机器做的对不对,而
是下面的流程:(1)选择一个适合目标任务的数学模型。(2)先把一部分已知的“问题和答案”(训练集)给机器去学习。(3)机器总结出了
自己的“方法论”。(4)人类把“新的问题”(测试集)给机器,让它去解答。上面提到的问题和答案只是一个比喻,假如我们想要完成文章分类
的任务,则是下面的方式:(1)选择一个合适的数学模型。(2)把一堆已经分好类的文章和它们的分类给机器。(3)机器学会了分类的“方法
论”。(4)机器学会后,再丢给它一些新的文章(不带分类),让机器预测这些文章的分类。7.4.1 监督学习概述 监督学习也称
有导师的学习,指在训练期间有一个外部导师告诉网络每个输入向量的正确的输出向量。 从给定的训练数据集中学习出一个函数(模型参
数),当新的数据到来时,可以根据这个函数预测结果。 监督学习是训练神经网络和决策树的常见技术。7.4.2 典型监督学习算法
1. K- 近邻算法(k-Nearest Neighbors,KNN)算法的步骤为:(1)计算测试数据与各个训练数据之间的距离;(
2)按照距离的递增关系进行排序;(3)选取距离最小的 K 个点;(4)确定前 K 个点所在类别的出现频率;(5)返回前 K 个点中
出现频率最高的类别作为测试数据的预测分类。7.4.2 典型监督学习算法2. 决策树(Decision Trees,DT) 决
策树是一种常见的分类方法,其思想和“人类逐步分析比较然后做出结论”的过程十分相似。决策过程如图 7-1 所示。 输入数据
没有被标记,也没有确定的结果。无监督学习目标不是告诉计算机怎么做,而是让它(计算机)自己去学习怎样做事情。无监督学习的一种思路是:
在指导 Agent 时不为其指定明确分类,而是在成功时,采用某种形式的激励制度。7.5.1 无监督学习概述 无监督学习是指
无教师监督的学习过程,即其神经网络学习样例是不带类别标号。它在广义上可分成两个子类,一个是强化学习,一个是自组织学习。 人
工神经网络是由许多人工神经单元组成的,每个单元能依照“映射”并行计算,同时可通过样例学习。 无监督学习也是自组织学习系统,学
习没有外部监督。7.5.2 自组织学习的相关形式 有以下 4 种自组织原则:(1)Infomax 原则,其包含了最大化神经网
络的多维输入和输出向量之间的互信息。(2)最小冗余原则,这基本上是另一种最大化网络的输入和输出之间的互信息导致冗余最小化的方法。(
3)Imax 原则,这是最大化一对神经网络的单一输出之间的互信息,这对神经网络是由两个空间位移多维输入向量所驱动的。(4)Imin
原则,这是最小化一对神经网络的单一输出之间的互信息,这对神经网络是由两个空间位移多维输入向量所驱动的。统计力学作为优化技术表示和
机器学习的数学基础,有以下 3 种模拟算法:(1)Metropolis 算法,这是 MCMC(Markov Chain Monte
Carlo)针对未知概率分布上的模拟。(2)模拟退火,这是一个动态的过程,利用“高温时观察到系统的总特点,低温时出现细节特征”来
避免局部极小值的一种优化算法。(3)Gibbs 抽样,它产生一个带 Gibbs 分布作为平衡分布的马尔科夫链。与Metropoli
s 算法不同,与 Gibbs 抽样器相关的转移概率不是静态的。7.5.3 无监督学习的应用 举个例子加以说明。乳腺癌早期诊
断是很困难的,一般影像只能观察几个病变像素,易被作为杂躁而忽视。利用两个不同的波段红外感应相机同时拍摄两幅图像,肿瘤在不同的生长阶
段、血管血液成分有不同的比例,从而呈现不同的红外特征。7.6.1 半监督学习概述如图 7-2 所示,半监督学习避免了数据和资源的浪
费,同时解决了监督学习的模型泛化、能力不强等问题。7.6.2 半监督学习依赖的假设(1)平滑假设(Smoothness Assum
ption)。(2)聚类假设(Cluster Assumption)。(3)流形假设(Manifold Assumption)。7
.6.3 半监督学习的分类(1)半监督分类(Semi-Supervised Classification)。(2)半监督回归(Se
mi-Supervised Regresion)。(3)半监督聚类(Semi-Supervised Clustering)。(4)
半监督降维(Semi-Supervised Dimensionality Reduction)。图 7-3 列示了各种半监督学习方
法。 AlphaGo 看机器学习现状文章节选2. 机器学习常用的方法有哪些?1. 机器学习的主要研究内容是什么?3. 机器学习的发
展经历了哪些阶段?5. 阐述监督学习、无监督学习、半监督学习各自的优缺点。4. 举例说明监督学习、无监督学习、半监督学习的区别。语
音处理 语音信号是人类进行交流的主要途径之一。语音处理不仅在通信、工业、国防和金融等领域有着广阔的应用场景,而且正在直接改变
人机交互的方式。学习目标1. 了解语音的基本概念。2. 熟悉语音识别、语音合成、语音增强、语音转换等的原理和方法。 构成语
音的四要素为:音高、音强、音长、音色。音高指声波频率即每秒钟振动次数的多少;音强指声波振幅的大小;音长指声波振动持续时间的长短,也
称为“时长”;音色指声音的特色和本质,也称为“音质”。 语音识别是指将语音自动转换为文字的过程。利用语音识别技术,能让机器把
语音信号转变为相应的文本或命令,让机器听懂人类的语音。语音识别系统主要分为四个部分:特征提取(信号处理)、声学模型、语言模型和解码
搜索。语音识别系统的框架如图 8-1 所示。8.2.1 语音识别的特征提取(1)梅尔频率倒谱系数特征是根据人耳听觉特性计算梅尔频谱
域倒谱系数获得的参数。(2)梅尔标度滤波器组特征则是保留特征维度间的相关性。(3)感知线性预测倒谱系数在提取过程中利用人的听觉机理
对人声建模。8.2.2 语音识别的声学模型1. 基于高斯混合模型 — 隐马尔科夫模型的模型如图 8-2 蓝色箭头所示,该路径对应的
概率值总和即为输入语音经隐马尔科夫模型得到的概率值。如果为每个音节训练一个隐马尔科夫模型,只需按以上步骤,哪个得到概率最高即判定为
相应音节,这也是传统语音识别的方法。8.2.2 语音识别的声学模型1. 基于高斯混合模型 — 隐马尔科夫模型的模型就基于 GMM-
HMM 的声学模型而言,对于小词汇量的自动语音识别任务,通常使用上下文无关的音素状态作为建模单元;对于中等和大词汇的自动语音识别任
务,则使用上下文相关的音素状态进行建模。该声学模型框架图如图 8-3 所。8.2.2 语音识别的声学模型2. 基于深度神经网络 —
隐马尔科夫模型的模型 GMM-HMM 不同的是,DNN-HMM 用深度神经网络模型代替高斯混合模型。该模型的建模单元为聚类后的三
音素状态,其框架如图 8-4 所示。8.2.3 语音识别的语言模型 语言模型亦是一个概率分布模型 P,用于计算任何句子 S
的概率。 语言模型的作用是在解码过程中限制搜索路径。 语言模型的评价指标是语言模型在测试集上的困惑度,该值反映句子不确
定性程度。8.2.4 语音识别的解码搜索 解码搜索的主要任务是由声学模型、发音词典和语音模型构成的搜索空间中寻找最佳路径。
在解码过程中,各种解码器的具体实现可以是不同的。按搜索算法的时间模式来分,有异步与同步两种方法。时间异步的搜索算法通过栈解码
器(Stack Decoder)来实现。时间同步的方法有 Viterbi 解码。基于树拷贝的帧同步解码器是目前比较流行的方法。8.
2.5 基于端到端的语音识别方法 上述混合声学模型仍存在着这样的不足:(1)神经网络模型的性能受限于GMM-HMM 模型的精
度;(2)训练过程过于繁复。8.2.5 基于端到端的语音识别方法 (1)基于联结时序分类的端到端声学建模方法的声学模型结构如
图 8-5 所示。8.2.5 基于端到端的语音识别方法 (2)基于注意力机制的端到端语音识别方法实现了真正的端到端,该方法将声
学模型、发音词典和语言模型联合为一个模型进行训练。模型基于循环神经网络的编码—解码结构,其结构如图 8-6 所示。 图 8-7
所示为一个基本的语音合成系统框图。 对于汉语拼音合成系统,文本分析的处理流程通常包括文本预处理、文本规范化、自动分词、词性标
注、多音字消歧、节奏预测等,如图 8-8 所示。8.3.1 基于拼接的语音合成方法 基于拼接的语音合成方法的基本原理是将原
始录音剪切成一个个基元存储下来,根据文本分析的结果,从预先录制并标注好的语音库中挑选合适基元进行适度调整,最终拼接得到合成语音波形
。以上的基元是指语音拼接时的基本单元,可以是音节或者音素等。8.3.2 基于参数的语音合成方法 最成功的是基于隐马尔科夫模型
的可训练语音合成方法,相应的合成系统被称为隐马尔科夫模型的参数合成系统,主要包括训练阶段和合成阶段,图 8-9 所示为该合成方法的
系统框图。8.3.3 基于端到端的语音合成方法 传统的语音合成流程很复杂。 2016 年,谷歌 Deep Mind
提出一种基于深度学习的 WaveNet 波形统计语音合成结构,主要单元是卷积神经网络,这种方法的特点是不会对语音信号进行参数化,
而是用神经网络直接在时域预测合成语音波形的每一个采样点。 真正端到端工作是 Tacotron 语音合成系统。 语音增强本质就
是语音降噪语音增强主要包括回声消除、混响抑制、语音降噪等关键技术。8.4.1 回声消除 回声是指自身发出的声音经过多次反射(
天花板,墙)并多次传入拾音设备。回声消除需要解决两个关键问题:第一,远端信号和近端信号的同步问题;第二,双讲模式下消除回波信号干扰
的有效方法。回声消除最典型的应用是在智能终端播放音乐时,通过扬声器播放的音乐会回传给麦克风,此时便需要有效的回声消除算法以抑制回声
干扰。回声消除算法虽然提供了扬声器信号作为参考源,但是由于扬声器放音时的非线性失真、声音在传输过程中衰减、噪声干扰和回声干扰的同时
存在,使得回声消除问题具有一定的挑战。8.4.2 混响抑制 与回声不同的是,回声是声音发出结束后听到的声音,混响在声音还没结
束听到的声音。适度的混响作用而使音乐更加动听。 按照使用传声器数量分类,去混响系统主要分为单传声器系统与多传声器阵列系统。
单传声器系统去混响技术只利用声场中接收位置这一点的声信号中时间和变换域的特性,而多传声器阵列系统能利用声场的空间特性,其主要
优点是由阵列带来的接收方向性除能直接提高信号与混响声能比之外,同时还对本底噪声有显著的抑制作用。8.4.3 语音降噪 单通道
语音降噪有三种主流方法:第一,基于信号处理技术的语音降噪方法,该方法在处理平稳噪声时具有不错性能,但面对非平稳噪声和突变噪声性能会
下降; 第二,基于矩阵分解的语音降噪方法,该方法计算复杂度相对较高; 第三,基于数据驱动的语音降噪方法,当训练集和测试
集不匹配时性能明显下降。如图 8-10 所示,语音转换系统包括训练阶段和转换阶段8.5.1 码本映射法 码本映射法
是最早应用于语音拼接的方法,这是一种比较有效的频谱转换算法。在这个算法中,源码本和目标码本的单元一一对应,通过从原始语音片段中抽取
关键的语音帧作为码本,建立起源说话人和目标说话人参数空间的关系。8.5.2 高斯混合模型法 高斯混合模型是传统方法中的主流,
它利用最小均方误差准则来确定转换函数,通过统计参数模型建立源说话人和目标说话人的映射关系,将源说话人的声音映射成目标说话人的声音。
8.5.3 深度神经网络法 比较典型的深层神经网络结构包括受限玻尔兹曼机—深层置信神经网络、长短时记忆递归神经网络、深度卷积神
经网络等。由于深层神经网络具有较强的处理高维数据的能力,因此通常直接使用原始高维的谱包络特征训练模型,从而有助于提高转换语音的话音
质量。8.6.1 情感描述 离散情感模型将情感描述为离散的、形容词标签的形式,如高兴、愤怒等。丰富的语言标签描述了大量的情感
状态,而用于研究的情感状态需要更具普遍性,因此人们定义了基本情感类别便于研究。其中,美国心理学家 Ekman 提出的 6 大基本情
感(又称为 big six,即生气、厌恶、恐惧、高兴、悲伤和惊讶)在当今情感相关研究领域的使用较为广泛。8.6.2 情感语音的声学
特征 情感语音中可以提取多种声学特征,用以反映人的情感行为的特点。用于语音情感识别的声学特征大致可归纳为韵律特征、频谱特征
和音质特征这三种类型。8.6.3 语音情感识别 语音情感识别系统由三部分组成:语音信号采集、语音情感特征提取和语音情感识别。
当今语音情感识别系统所采用的识别算法可以分为如下两类:离散语音情感分类器和维度语音情感分类器。(1)离散语音情感分类器:它们一般被
建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别。(2)维度语音情感分类器:该研究一般被建模为标准的回归预测问题,即
使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:线性回归、k-NN、ANN、支持向量回归等
。 人工智能语音识别技术方兴未艾——智能语音助手或成未来间谍?文章节选2. 语音合成主要方法有哪些?每种方法的优缺点是什么?1.
语音识别系统的组成有哪些?3. 简单介绍语音转换在语音合成中的应用。4. 语音情感识别系统由几部分组成?情感识别算法有哪几种?计算
机视觉 从一张图片上辨识出各个物体对于人类来说轻而易举,但是对于计算机来说却并不直观。从一张图片上辨识出各个物体对于人类来说
轻而易举,但是对于计算机来说却并不直观。学习目标1. 了解计算机视觉概念。2. 熟悉数字图像的类型和表示方法。3. 掌握基于浅层模
型的方法和基于深度模型的方法。9.1.1 图像分类 9-1 所示为图像分类实例,给定一张图片,通过模型给出各个种类的可能性。9.1
.2 目标检测、跟踪和定位图 9-2 所示为一个目标检测、跟踪和定位实例。9.1.3 图像语义分割图像语义分割,顾名思义是将图像像
素按照表达的语义含义的不同进行分组 /分割。图9-3 所示为一个图像语义分割实例。9.1.4 场景文字检测与识别图 9-4 所示为
一个场景文字检测与识别实例。9.1.5 图像生成图像生成是指根据输入向量,生成目标图像。图 9-5 所示为一个风格迁移的例子,将人
骑自行车按照(a)图的风格融入(b)图,结果如(c)图所示。9.1.6 人体关键点检测图 9-6 所示为人体关键点检测实例。9.1
.7 视频分类 视频分类是视频理解任务的基础,与图像分类不同的是,分类的对象不再是静止的图像,而是一个由多帧图像构成的、包含
语音数据、运动信息等的视频对象,因此理解视频需要获得更多的上下文信息,不仅要理解每帧图像是什么、包含什么,还需要结合不同帧,知道上
下文的关联信息。9.1.8 度量学习 度量学习也称作距离度量学习、相似度学习,通过学习对象之间的距离,度量学习能够用于分析对
象时间的关联、比较关系,在实际问题中应用较为广泛,可应用于辅助分类、聚类问题,也广泛用于图像检索、人脸识别等领域。 (1)二值图
像:即图像上的每一个像素只有两种可能的取值或灰度等级状态,0 和 1,0 代表黑,1 代表白,或者说 0 表示背景,而 1 表示前
景。二值图像通常用于文字、线条图的扫描识别(OCR)和掩膜图像的存储。如图 9-7(a)所示。(2)灰度图像:每个像素只有一个采样
颜色的图像,这类图像通常显示为从最暗黑色到最亮的白色的灰度,尽管理论上这个采样可以是任何颜色的不同深浅,甚至可以是不同亮度上的不同
颜色。如图 9-7(b)所示。(3)彩色图像:指 RGB 真彩色图像,通常包含三个通道的信息,每个像素通常是由红(R)、绿(G)、
蓝(B)三个分量来表示的,分量介于 [0,255]。如图 9-7(c)所示。(4)索引图像:文件结构比较复杂,除了存放图像的二维矩
阵外,还包括一个称为颜色索引矩阵 MAP 的二维数组。虽然计算机视觉的任务有多种,但是大多数任务本质上可以建模为一个广义的函数拟合
问题,如图 9-8 所示。9.3.1 基于浅层模型的方法 由于实现上述视觉任务的函数 Fθ通常都是十分复杂的,因此,基于浅
层模型的方法遵循“分而治之”的思想,将其拆分成多个子任务,分布求解。图 9-9 所示为一个常用的浅层视觉模型的处理流程。9.3.1
 基于浅层模型的方法步骤 1 :图像预处理过程 p。输入为图像 x,输出为处理后的图像 x′。步骤 2:特征设计与提取过程 q。步
骤 3:特征汇聚或变换 h。步骤 4:分类器或回归器 g。上述流程可以理解为将 Fθ 拆分成四个序贯执行的 4 个函数 p,q,h
,g,即y=g(h(q(p(x))))。9.3.1 基于浅层模型的方法SIFT 算法实现特征匹配主要有以下三大工序:1. 尺度空间
的极值检测(1)建立高斯金字塔。(2)建立 DOG 金字塔。如图 9-10 所示(3)DOG 空间的极值检测。如图 9-11 所示
。2. 特征点定位和特征方向赋值3. 特征点匹配:首先,进行相似性度量。特征汇聚与特征变换方法如下:通过图 9-9 所示的步骤 2
提取的特征通常非常多,加剧了后续计算的难度。(1)特征汇聚方法最为典型的包括视觉词袋模型、Fisher 可量和局部聚合向量(VL
AD)方法。(2)特征变换方法,又称子空间分析法。9.3.2 基于深度模型的方法1. 基于深度模型的目标检测技术2. 基于全卷积网
络的图像分割3. 基于深度模型的视觉问答 计算机视觉技术(2)计算机视觉在医疗行业中有很多用途,医疗行业的视觉数据特别丰富,包括
CT 扫描图像、X 光片等。计算机视觉让机器能够分析这些图像数据,并且能够识别出异常或者疾病。这可以大大减少花费在图像分析上的时间
,从而帮助医生减轻一些压力,让他们可以花更多的时间陪护患者。一系列专门针对医疗保健领域计算机视觉工具正在开发之中,这些工具都构建在
人工智能之上。一个例子是科技初创公司 MaxQ AI,该公司开发了一款可以通过 CT 扫描图像检测脑出血症状的软件。这款名为 Ac
cipioIx 的检测软件已获 FDA 批准使用,而 MaxQ AI 也已经宣布与三星、IBM Watson 和 GE Healt
hcare 结成伙伴关系。微软也加入了这一潮流,该公司的 InnerEye 软件可以识别 X 光片中可能存在的肿瘤和其他异常情况。
放射科医生可以上传病人的 X 光片;然后,该软件会确定它认为存在肿瘤的区域。然后,放射科医生可以将注意力集中在 X 光片中已标记的
区域上,就不用把时间浪费在那些健康的 X 光片上了。文章节选2. 试分析浅层模型方法的缺陷。1. 计算机视觉研究的目的是什么?3.
试分析 DCNN 在提取特征上与传统局部特征提取方法的异同。人工智能应用 人们可能在意识到之前,人工智能的终端设备已经渗透
到生活的方方面面。人工智能时代极有可能是继蒸汽时代、电气时代、信息时代之后,人类科技发展的下一个时代。学习目标1. 了解人工智能在
生活中的应用。2. 了解常见的人工智能应用发展历程。3. 了解人工智能应用对人类生活与发展的影响。10.1.1 计算机视觉
计算机视觉是人工智能中非常活跃的一个领域,因为人类的感官信息中,大多数来自视觉,所以要实现人工智能,对视觉的处理是很重要的方面。
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像
人类和许多其他类生物每天所做的那样。计算机视觉是一门关于如何运用照相机和算法来获取我们所需的被拍摄对象的数据与信息的学问。形象地说
,就是给设备安装上眼睛(照相机)和大脑(算法),让它能够感知环境。10.1.2 语音识别 讯飞输入法是一个非常有名的输入软
件,由中文语音产业领导者科大讯飞推出,其语音输入的速度和准确率在业界都处于领先地位。它还推出方言语音输入,支持客家语、四川话、河南
话、东北话、天津话、湖南(长沙)话、山东(济南)话、湖北(武汉)话、安徽(合肥)话、江西(南昌)话、闽南语、陕西(西安)话、江苏(南京)话、山西(太原)话、上海话等方言识别。10.1.3 虚拟个人助理 使用者可以通过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票。另外,其适地性(location based)服务的能力也相当强大,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。不过其最大的特色是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答不是答非所问,有时候更是让人有种心有灵犀的惊喜。10.1.4 推荐引擎值得一提的是,Amazon 在做推荐时,设计和用户体验也做得特别独到:(1)Amazon 利用它有大量历史数据的优势,量化推荐原因。(2)基于社会化的推荐,Amazon 会给你事实的数据,让用户信服,例如:购买此物品的用户百分之多少也购买了那个物品。(3)基于物品本身的推荐,Amazon 也会列出推荐的理由,例如:因为你的购物筐中有,或者因为你购买过,所以给你推荐类似的。 2017 年 10 月,在沙特阿拉伯首都利雅得举行的“未来投资倡议”大会上,机器人索菲亚被授予沙特公民身份,她也因此成为全球首个获得公民身份的机器人,如图 10-1 所示。索菲亚是由中国香港的汉森机器人技术公司(Hanson Robotics)开发的类人机器人。 无人驾驶汽车突破了传统的以驾驶员为核心的模式,而且因为机器不会像人类一样疲劳或者醉驾,在其正常运行时能始终保持专注和准确,在一定程度上提高了行车的安全性和稳定性,可以降低交通事故的发生率,并且能够减少尾气排放和能源损耗,具有极高的经济效益和社会效益。无人驾驶系统示意图如图 10-2 所示。 在 2017 年,一款叫作“晓医”的医疗机器人,以 456 分的成绩超过了 96% 的应试者,通过了国家医师执照的考试。如今晓医就职于安徽省立医院,负责提供导诊,晓医的服务彬彬有礼,而且不知疲倦,如图 10-3 所示。10.4.1 基于计算机视觉技术的医疗影像智能诊断10.4.2 基于语音识别技术的人工智能虚拟助理人工智能技术在医疗影像的应用主要指通过计算机视觉技术对医疗影像进行快速读片和智能诊断。电子病历记录医生与病人的交互过程以及病情发展情况的电子化病情档案,包含病案首页、检验结果、住院记录、手术记录、医嘱等信息。10.4.3 从事医疗或辅助医疗的智能医用机器人10.4.4 分析海量文献信息加快药物研发10.4.5 基于数据处理和芯片技术的智能健康管理医用机器人种类很多,按照其用途不同,有临床医疗用机器人、护理机器人、医用教学机器人和为残疾人服务机器人等。通过人工智能的应用,健康管理服务也取得了突破性的发展,尤其以运动、心律、睡眠等检测为主的移动医疗设备发展较快。人工智能助力药物研发,可大大缩短药物研发时间,提高研发效率,并控制研发成本。 目前,人工智能的研究及应用主要集中在基础层、技术层和应用层三个方面,其中基础层以 AI 芯片、计算机语言、算法架构等研发为主,技术层以计算机视觉、智能语音、自然语言处理等应用算法研发为主;应用层以 AI 技术集成与应用开发为主。人工智能技术和产品的发展速度之快,已经大大超出人类的认知和预期,注定会改变我们的世界。工信部宣布新增 5 个国家人工智能创新应用先导区该通知指出,北京国家人工智能创新应用先导区要加快核心算法、基础软硬件等技术研发,加速智能基础设施建设,打造全球领先的人工智能创新策源地。聚焦智能制造、智能网联汽车、智慧城市、“科技冬奥”等重点领域,加快建设并开放人工智能深度应用场景,优化治理环境,持续推进人工智能和实体经济深度融合,打造超大型智慧城市高质量发展的示范区和改革先行区。文章节选2. 你觉得人工智能的发展和应用是否会对人类自身造成威胁?1. 你在生活中还见过哪些人工智能的应用?3. 如果无人驾驶汽车出车祸,你觉得谁应当为此负责?以此为例思考人工智能应用过程中涉及的法律与伦理问题。THANKS感谢大家观看
献花(0)
+1
(本文系籽油荃面原创)