读书笔记-（统计学习）

新用户08306761 2021-06-23

展开全文

第一章，概论

1、统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析的一门学科（统计机器学习）；人工智能：感知、处理、反馈网络；研究对象是数据，研究方法是概率统计模型；

2、统计学习关注的三个要素：模型、策略、方法；介绍模型选择，包括正则化、交叉验证、学习泛化的能力；介绍生成模型、判别模型；最后介绍监督学习方法的应用：分类、回归、标注；

3、什么是学习：如果一个系统能够通过执行某个过程改进它的性能，这就是学习；思考：这不是就是反馈嘛，是否可以这样定义，一个能够对自身施加反馈作用的过程就具有学习能力；反馈：反馈的基础设施、反馈的处理、效果评价；数据是反馈的内容，统计方法是反馈处理的方法；不稳定系统、稳定系统；因果；线性；时不变；信号与系统：我们用GPS导航的时候，感知系统获取到了反馈信息，并依据地图对当前情况进行评价；行为可以被自身感知，并作用于自身的系统；你不了这个人，是因为你无法感知他的信息，如何感知他的信息呢，只有与他交往才能感知，交往的越深了解的越深；开放系统还是封闭系统，你发了一个信号对方没有反馈（信号没有价值被屏蔽）；

4、科学发现很多时候出现在意外，而不是正常：比如田中耕一，为什么会出错呢，因为做的太多了，黑天鹅事件在科学研究中也会出现；创新在一个规范的系统中很难诞生，而再一个杂乱的系统中才能诞生的原因；创新系统-制造系统不能同时出现，管理的机制也不同；学校是一个创新的系统，鼓励自由，而不是规范化；

5、 思想：一个封闭系统熵增加：封闭系统不就是没有反馈/反馈无法被有效处理嘛；人为什么会死，就是变成了一个封闭系统了；为什么生病了要吃药，就是因为人这个反馈、处理机制遇到了异常；细胞为什么会分裂成不同的组织？(nature)

6、 统计学习处理的对象：数据是信息记录的载体，可能只是记录了一方面；还有很多信息是无法被量化、记录和处理的；

7、 统计学习的基本假设：（基本假设就是改理论的局限性），同一类数据具有一定的统计规律，即具有某种相同的性质；可以用随机变量描述数据中的特征，用概率分布描述数据统计规律；

8、 东西就是某种存在；为什么有些人就会相互吸引，有些人就会相互排斥；什么呢？天生就会有感觉的，我感觉他不喜欢我，但是又说不出原因，不愿意亲近。核心问题是啥呢？

9、统计学习的目的：用于对数据进行分析和预测；（一维、多纬），特别是对未知新数据进行预测与分析，对数据的预测可以使计算机更加智能化？数据分为连续变量、离散变量，本书以讨论离散变量的方法为主。对数据观测和收集不做讨论；

10、统计学习的方法：监督学习、非监督学习、半监督学习、强化学习；本书讨论的是监督学习：从给定的、有限的、用于学习的训练数据集合出发，假设数据是独立同分布产生的，并且假设要学习的模型属于某个函数集合（函数就是规律、模型、映射），称为假设空间，应用某个评价准则，从假设空间选取一个最优化模型，使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测；这里面有个逻辑问题：1、假定谬误，你的假定是正确的么，未知数据的规律一定是可以描述的么？2、归纳谬误：对未知模型的预测是基于一直事实的归纳，未知数据集是无法穷举的情况下如何验证模型一定是普适的；3、评价谬误：评价集的选择是否客观的，未知数据集的投影；

11、统计学习研究：统计学习方法、统计学习理论、统计学习应用三个方面。统计学习方法的研究旨在开发新的学习方法；学习方法在于开发新的学习方法、理论在与研究方法的有效性效率及基本理论、应用考虑实际应用。

12、统计学习的基本问题；分类、标注与回归问题，应用在自然语言处理、信息检索、文本数据挖掘等领域；

13、自然语言：人类刚出生可以发出150种声音，一种语言使用的符号：70多种，还不到一半；文字是语言的载体，聋哑人则用视觉符号代替了声音，用触觉代替了视觉；声音是对外据世界描述、编码工具；世界是原子组成的，人为什么要吃呢？原子团-另外一个原子团-原子团；

14、统计学习的重要性：统计学习是处理海量数据的有效工具；统计学习是计算机智能化的有效手段；统计学习是计算机科学发展的重要组成部分；

15、监督学习：监督学习的任务，是学习一个模型，使得模型可以对任意给定的输入，对其相应的输出做出一个好的预测；

a) 基本概念：输入空间(可能的输入值给定的集合)、特征空间（输入常用特征值来表征，特征值构成的空间，有必要么？输入空间不是特征空间的超集嘛，是否都可以映射到特征空间，模型是定义在特征空间上的）、输出空间（）

b) 监督学习中：将输入和输出看作是定义在输入空间与输出空间上的随机变量取值。输入输出变量用大写字母表示，习惯上输入变量写作X，输出变量写作Y。输入输出变量的取值写作X，输出变量的取值写作y。

c) 监督学习的训练数据：集合中学习模型，对测试数据进行预测。训练数据由输入、输出对组成，训练通常表示为T={(X,Y),(XY)…}

d) 监督学习的问题：输入变量和输出变量可以是不同类型，如连续、离散，人们根据输入输出变量的类型，对预测任务给予不同的名称：两者均为连续变量称为回归问题；输出变量为有限离散变量预测问题称为分类问题；输入变量与输出变量均为变量序列，称为标注问题；

e) 联合概率分布：监督学习假设输入X和输出Y遵循联合概率分布函数p(x,y)，或者分布密度函数。学习过程中，假设这个分布是存在的，训练数据与测试数据被看作是依P(X,Y)独立同分布产生的，统计学习假设数据存在一定的统计规律。X和Y具有联合概率分布的假定就是监督学习关于数据的基本假设。

16、问题形式化：监督学习利用训练数据学习一个模型，在用模型对测试样本集进行预测。由于这个过程中需要训练数据集，而训练数据集往往是人工给出的，所以称为监督学习。监督学习分为学习和预测过程。什么是形式化：就是用数学的方式来描述问题；学习的目标是什么：学习的就是一个联合概率分布，假定这个分布是存在的，这个就是监督学习；

17、统计学习三要素：

建立一个决策函数模型/概率分布模型，按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型；

a) 模型：统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中，模型就是所要学习的条件概率分布或决策函数；由：决策函数|概率模型定义；

b) 策略：有了模型的假设空间，统计学习接着需要考虑的是按什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型；将预测的输出值与实际值相比较，度量预测错误的程度。学习目标就是选择选择期望风险最小的模型

i. 损失函数和风险函数：0-1损失函数；平方损失函数；绝对损失函数；对数损失函数；损失函数的值越小，模型就越好。学习的目标是联合概率分布，但是风险函数包括了联合概率分布，所以用训练集的联合概率分布代替要学习的概率分布函数？

ii. 经验风险最小化与结构风险最小化：经验风险最小的模型就是最优的模型；样本量足够大的时候，经验风险最小化能保证有很好的学习效果；在现实中被广泛采用：比如—极大似然估计就是风险最小化的一个例子；当模型是概率分布、损失函数是对数函数时，经验风险最小化就是极大似然估计；这个要样本量足够大，当样本量不够大的时候学习效果未必好，出现过拟合现象；

iii. 结构风险最小化：为了防止过拟合而提出的策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项，在假设空间、损失函数以及训练数据集确定的情况下，结构风险的定义如书上公式p9；复杂度越大的模型惩罚因子越大，模型越简单惩罚因子越小；需要经验风险与模型复杂度同事小。结构风险小的模型往往对训练机未知测试数据都有较好的预测。如：贝叶斯估计中的最大后验概率估计；当模型是条件概率分布、损失函数是对数函数、模型复杂度由模型的先验概率表示时，结构化风险最小等价与最大后验概率估计；

iv. 总结：策略核心就是要找到使得模型经验风险最小化、结构风险最小化的方案；对于模型是条件概率分布、损失函数是对数函数、模型复杂度模型由模型的先验概率表示时，经验风险、结构风险可以用极大似然估计、最大后验概率估计来表示；

c) 算法：是具体的计算方法，统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后考虑最优模型的计算方法；统计学习问题归结为最优化问题，如果最优化问题有显式解析解，这个最优化问题比较简单，如果解析解不存在，需要用数值计算的方法求解，如果保证找到全局最优解，使得求解的过程非常高效成为一个重要的问题。

d) 模型评估与选择：当损失函数给定时，可以定义出训练误差和测试误差，两者之间的一致性是判断算法优劣的标准；

e) 过拟合与模型选择

i. 当假设空间含有不同复杂度的模型时，面临模型选择问题；如果假设空间存在真的模型，那么选择的模型应该是逼近真模型：逼近指模型参数个数与真模型相同，参数向量与真模型相近

ii. 如果一味追求提高训练数据的预测能力，所选的模型有可能复杂度高于真实模型，称为过拟合；指学习时模型选择参数过多，以至于出现这一模型对已知数据结果很好，但是对未知数据预测很差；模型选择避免过拟合，并提高预测能力。预测股价变动模型：哪些因素呢？多了就是过拟合；反之就是欠拟合，复杂度低于真实模型，对既有模型的拟合度不高；

iii. 正则化与交叉验证：正则化：结构风险最小化策略的实现，在经验风险上加一个正则化项，正则化项一般是模型复杂度的单调递增函数，模型越复杂正则化值越大。正则化项可以是模型参数向量的范数；正则化项可以取不同的形式，如回归问题，损失函数是平方损失；正则化，符合奥卡姆剃刀原则：能够很好的解释已知数据并十分简单的才是好模型。从贝叶斯估计的角度看，正则化项对应于模型的先验概率，可以假设复杂模型有较小的先验概率，简单模型有较大的先验概率。思考：（防止过拟合就是在经验模型上加上正则化项，对于复杂结构改项目就大，概率小，简单结构该项小，概率大）；

iv. 交叉验证：另一种常用的模型评价方法是交叉验证：如果给定的样本数据足够充分，进行模型选择的一种简单方式是随机将数据集切分为三部分，分别为训练集、测试集、验证集；用于各自的目的；在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。1、简单验证交叉：2、S折交叉验证：将S集合分为S个，随机用S-1个训练，剩余的进行验证，重复该过程选择误差最小的；留一交叉验证：上一个方法的特殊情况称为留一，适用于数据缺乏的情况下；

f) 泛化能力：

i. 泛化误差：指预测未来的能力；往往通过研究泛化误差的上界进行，上界是样本容量的函数，样本容量增加，泛化上届趋于0；假设空间的容量越大，模型越难学，泛化误差上界越大；

18、生成模型与判别模型；

a) 监督学习的任务就是学习一个模型，应用这个模型，对给定的输入预测响应的输出，这个模型的一般形式为决策函数/概率分布；

b) 生成方法：由数据学习联合概率分布P(X,Y)，然后求出条件概率分布作为预测模型；P(Y|X)=P(x,y)/P(x);因为模型表示给定了输入X产生输出Y的生成关系。典型的方法包括：朴素贝叶斯法和隐马尔科夫模型；

c) 判别方法：由数据直接学习决策函数fx或者条件概率分布P(Y|X)作为预测模型，关心对给定的输入X，应该预测什么样的输出Y。典型的判别模型包括K近邻、感知机、决策树、逻辑斯递归、最大熵、支持向量机、提升方法和条件岁场；

d) 两者比较：生成方法可以还原出联合概率分布P（x,y），而判别方法则不能，因为它是直接根据数据求出P(Y|X);生成方法的收敛速度更快，当样本容量增加，学到的模型可以更快的收敛于真实模型；当存在隐变量时，仍可用生成方法学习，此时判别方法就不能用；

19、分类问题

a) 分类问题：监督学习的一个核心问题，当输出变量Y取有限个离散值的时候，预测问题便成为分类问题。输入变量可以是连续的也可以是离散的，监督学习从数据中学习一个分类模型或分类决策函数，称为分类器，分类器对新的输入进行输出的预测称为分类，能输出的类称为类；输出的分类为多类分类；分类问题包括学习、分类两个过程

b) 分类器性能评价的：精确率、召回率；

c) 分类的应用：已知类型，将输入进行归类：如文本类型归类，经济、政治、体育等等；输入文本的特征向量，输出是文本的类别；每一个单词是一个特征；根据单次属性的集合判断文本的属性；

20、标注问题：

a) 标注是一个监督学习的问题。可以认为标准问题是分类问题的一个推广，优势更复杂的结构预测问题的简单形式。标注问题的输入是一个观测序列，输出的是一个标记序列或者状态序列。标注问题的目标在于学习一个模型，使它能够对观测学列给出标记序列作为预测。可能的标记个数是有限的，其组合所成的标记序列的个数指数增长的，背包问题、商旅问题等等；标注问题包括：学习和标注两个过程，首先给定一个训练数据集，学习系统基于训练数据集构建一个模型，表示为条件概率分布；以这个学习到的概率分布模型来预测新的输入的概率；

b) 标注模型的指标和分类模型一样，准确率、精确率和召回率来定义；

c) 常用的统计学习方法：隐马尔可夫模型、条件随机场

d) 标注问题在信息抽取、自然预研处理等领域被广泛应用，是这些领域的基本问题；自然语言中的词性标注，给定一个单词序列预测其对应的词性标注序列

21、回归问题

a) 是监督学习的另一个重要的问题，用于预测输入变量和输出变量之间的关系，特别当输入变量的值发生变化时，输出变量的值随之发生的变化。回归模型正式表示从输入变量到输出变量之间映射的函数；回归问题的学习等价于函数拟合：选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据；包括学习、预测过程；给定一个训练集，

b) 回归问题按照输入变量个数，分为一元回归和多元回归；按照输入变量和输出变量之间关系的类型即模型的类型，线性回归和非线性回归；回归学习最常用的损失函数是平方损失函数，回归问题可以由最著名的最小二乘法求解；确定了损失函数，拟合问题转化为对残差平法和的最优化问题；

c) 许多领域的问题都可以形式化为回归问题；市场趋势预测，产品质量管理，客户满意度调查，投资风险分析工具。股价信息预测：目标是从过去的数据学习一个模型，使它可以基于当前信息预测该公司下一个时间节点的股票价格

第二章，感知机（1957）

1、模型：分类问题：二分类、线性分类模型

2、策略：找到一个超平面，将训练数据进行线性划分为正负两类的分类超平面，属于判别问题；定义损失函数，并将损失函数极小化；找到这个损失函数，思想就是求出误分类点到平面的距离之和最小；

3、算法：感知机问题转化为求解损失函数最优化的问题，最优化的方法是梯度下降法。算法是误分类点驱动的，更新参数w=w+ayixi b=b+ayi 0<a<1，为步长；yi(wxi+b)<0，说明分类错误，更新参数；

4、有界性证明；误分类次数是有上界的，经过有限次搜所可以找到将训练数据完全正确分开的分离超平面，如果训练集可分，感知机学习算法原始形式迭代是收敛的。感知机学习算法存在许多解，依赖于迭代过程中参数的选择顺序，为了得到唯一超平面，需要对分离超平面增加约束条件，这就是支持向量机的想法，当训练集不可分时，感知机算法不收敛。迭代结果会发生震荡；

5、对偶形式：见书34页，略；

6、扩展：口袋算法、表决感知机、带边缘感知机；

第三章， K近邻

1、 k近邻算法是一种基本的分类与回归方法；K近邻的输入为实例的特征向量，对应于空间的点，输出为实例的类别，可以取多类.

2、模型：分类/回归，对应于特征空间的划分；

3、策略：假设给定一个训练数据集，其中的实例类别已定，分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测；不具有显示的学习过程，就是没有一个优化调整的过程，与感知机有区别；实际上利用训练数据集对特征空间进行划分，并作为其分类模型。K值的选择、距离度量、分类决策规则是它的三个基本要素；

4、距离度量：特征空间中两个实例点的距离是两个实例点相似程度的反映，K近邻模型的特征空间一般是n纬实数向量空间Rn，使用距离是欧式距离，也可以是其他距离。不同的距离结果不同；

5、 K值的选择：k是领域的范围，K值越小近似误差越小，但是估计误差会增大，噪声影响较大；K值越大近似误差越大，估计误差越小，抗噪能力增强；在应用中，一般选取一个较小的数值，用交叉验证的方法选取最优的值；

6、分类决策规则：通常是多数表决方法，由输入实例的k个近邻的多数类决定输入的实例；

7、算法：k近邻算法的核心是考虑对训练数据进行快速近邻搜索，这点在特征空间的维数大及训练数据容量大时尤其必要；最简单的办法是蛮力法，线性扫描计算每一个实例的距离；更快的方法用kd树来提高检索的效率（二叉树）；找到所在区域的叶子节点，递归回到父节点比较是否存在区域的交集，如果不存在就不用继续找了，如果存在比较父节点中子节点的距离，如果是小就更新最小距离，继续回溯；平均算法度复杂度logn，适用于实例数远大于纬度数；

第四章，朴素贝叶斯法

1、朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法；对于给定的训练集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。实现简单，学习和预测效率都很高；

2、将分类问题转化为后验概率最大问题的，等价于期望风险最小化；

3、算法：贝叶斯公式，生成后验概率；已知先验概率分布（样本集给出），条件概率分布；

P（x,y）=p(x).p(y|x)，适用于X，Y是有限值，样本分布已知；特殊情况：概率有可能出现0的情况，用贝叶斯估计修正极大似然估计；

第五章，决策树

1、基本的分类与回归方法；基于特征对对实例的分类方法；

2、表示基于特征对实例空间与类空间上的条件概率分布；学习时，利用训练数据，根据损失函数最小化原则建立决策树模型，预测时，对新的数据利用决策模型进行分类。包括三个步骤：特征选择、决策树生成和决策树修剪；ID5算法和C4.5算法；

3、决策树：树形结构，两类节点，叶子节点表示一个类，内部节点表示一个属性；决策树对应的路径或规则集合有一个重要的特征：互斥、完备；每一个实例都被一条路径或者规则覆盖，而且只被一条规则或路径覆盖；

4、决策树与条件概率分布：决策树是基于特征的概率分布，当某个单元条件概率>0.5，认为这个单元属于正类；

5、决策树学习：学习的目标是依据给定的训练集建立一个决策树模型；归纳出一组分类规则；困难：符合要求的决策树可能有多个，也可能一个都没有；要找到一个与训练数据矛盾较小的树，同时有很好的泛化能力；

6、决策树学习损失函数表示这一目标；损失函数是正则化的极大似然函数；确定损失函数后，决策树选择最优问题；从所有决策树中选择最优是NP完全问题；采用启发式方法求解这一最优化问题；孙正义给出了30道题目，让管理层回答，能够全部回答与他自己答案完全相同的寥寥无几，一致的概率是非常小的。软银的成功是不可复制的的；为什么成功是不可复制的，应为成功取决于一系列决策，这个决策可能是成百、上千个，每个决策下面有N个选择，不可能用模型去量化每一个决策。让你做阿里巴巴一样做不成，所以成功是小概率事件；求解这类问题，我们有两种方式，1、蛮力法，穷举试错；2、动态规划的方法，选择局部最优的方式逼近全局最优；3、迭代改进的方法，给定一个可行解，不断优化系统参数；

7、决策树生成方法：对待分集合不断选择最优的划分方法；特征选择是决策树最核心的问题；

8、特征选择问题：如果利用一个特征进行分类的结果与随机分裂的结果没有很大差距，称为没有分类能力；通常选择特征的准则是信息增益、或者信息增益比；

a) 信息熵：表示随机变量不确定性的度量；H=-PLOGP；熵只依赖于X的分布，而与X的取值无关，所以也可以将X的熵记作H（x）;单位是比特或者nat；熵越大，随机变量的不确定度越大；

b) 条件熵：就是H(Y|X)，X就是约束，在X约束下Y的不确定度，如果X,Y相互独立，在X给定条件下Y的条件概率的分布的熵的数学期望；当熵和条件熵中的概率有数据估计得到时，所对应的熵与条件熵分别称为经验熵和经验条件熵；

c) 信息增益：信息增益表示得知特征的X的信息而使得类Y的信息bud确定度减少的程度；即在X已知的情况下Y的熵变化；G(D,A)=H(D)-H(D|A)

d) 互信息（信息增益）：一般的，熵与条件熵的差称为互信息，决策树学习中的信息增益等价于训练数据集中类与特征的互信息；

e) 信息增益选择法则：对训练数据集D，计算每个特征的信息增益，选择最大的特征。

f) 使用信息增益熵作为划分训练数据集的特征，存在偏向取值较多的特征的问题，为解决这个问题，可以对其矫正，采用信息增益比来进行。G(D,A)=G(D,A)/H(D),将信息增益比率化，可以消除数量的影响；

9、决策树生成ID3、C4.5

a) ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归的构建决策树；D,A,E（阈值，E过小容易导致过拟合）

b) C4.5与ID3算法相同，选用信息比来进行选择；

10、决策树的剪枝：

a) 决策树的局限性就是泛化，对于未知数据的划分是否准确；常常出现过拟合；原因是经验误差+结构误差，因为结构误差过大，而导致模型过拟合现象；

b) 减少复杂度的方法：剪枝；原理：依据最小化损失函数来剪枝，损失函数用经验熵来表示；

c) 决策树生成只考虑了通过提高信息增益对训练数据进行更好的拟合，而决策剪枝则考虑到减少树的复杂度；决策树生成学习局部的模型，而决策树剪枝学习整体的模型；剪枝的结果是熵增加，不确定度增加，选择的原则就是找到哪些剪掉了以后还使得树的熵增加的分支或者节点消去；损失函数本质是无序程度+复杂度；为什么在生成之前不能应用，因为无法看到整体；就是在已知整体的情况下优化局部；裁员的原理：裁撤某些人以后对组织没有影响，那就裁掉；（我应该是第一个被裁撤的么？）

d) 决策树的剪枝算法可以用动态规划的算法实现；

e) CART算法：分类与回归树；包括特征选择、树生成、剪枝；在给定输入随机变量条件下输出随机变量Y的条件概率分布；

i. 回归树：将集合递归的划分为若干个子集，构成一个二叉树，每一个划分要求两个集合均方误差之和最小；最小二乘法；

ii. 分类树形成：

11、决策树本质上来讲是一个集合划分问题，即将一个S集合划分为N个不相交的子集；是一个组合策略，所以是NP完全问题；

第六章，逻辑斯谛回归与最大熵模型

1、模型：是统计学中的经典分类方法，最大熵是概率模型学习的一个准确，属于对数线性模型；

2、策略：X是连续随机变量，X服从逻辑斯第分布具有指数分布函数和密度；类似阶跃函数和冲击函数；阶跃函数不连续，无法求导；（所以选择logistic函数来模拟）

3、二项式逻辑斯谛回归模型：输入的对数几率是输入X的线性函数，或者说输出y=1的对数机率是由输入x的线性函数表示的模型。

4、逻辑应该是这样的：二分类问题---》如果输入可以被分成两类，是不是可以用一个logistic函数来模拟概率分布，如果严格可分的，那就是一个阶跃函数，但是不是严格可分的情况下，连续曲线；猜想了一个分布函数，来模拟阶跃函数；

a) 模型参数估计：

5、最大熵模型

a) 学习概率模型中，所有可能的概率模型中，熵最大的模型是最好的模型；最大熵原理是统计学的一般原理；也可以表述为在满足约束条件下的模型集合中选取熵最大的模型；

b) 熵：信息的不确定性，0<h(p)<logx，熵和对象的信息有关；当且仅当X是均匀分布的时候，右边的等号成立，当X服从均匀分布的时候，熵最大；在没有更多信息的情况下，不确定的部分都是等可能的；当随机变量服从均匀分布的时候，熵最大；

c) 最大熵原理认为：要选择的概率模型首先必须满足已有的事实，即约束条件，在没有更多信息的时候，哪些不确定性的部分都是等可能的，最大熵原理通过熵的最大化来表示等可能性。P(A)+P(B)+P(C)+P(D)+P(E)=1，满足这个约束的概率分布有无穷多个，如果没有任何其他信息，仍要对这个概率分布进行估计，一个办法就是认为这个分布中取值的各个概率都是相等的。也体现了对系统的无知；你可以测试一个人对某个点的掌握程度，让他说出概率有多大，如果说50-50，那就说明他对这个事情一无所知；一旦加上约束，比如P(A)+P(B)=3/10,那响应的部分的概率会更加清晰了；以上模型的算法就是满足了最大熵原理；

d) 最大熵模型：就是对输入输出模型应用最大熵原理，求的概率分布P（X|Y）;

e) 特征函数关于经验分布的期望值（平均值），

f) 最大熵模型：H(P)=-P(X)P(Y|X))LOGP(Y|X), 满足约束集为C定义在条件概率分布P(X|Y)上的条件熵；最大熵模型就是求解他的过程；

g) 最大熵模型又称作为对数线性模型；

6、模型的最优化算法：

a) 逻辑斯特回归和最大熵归结为以似然函数为目标函数的最优化问题，通常通过迭代算法求解；目标函数具有很好的性质，是光滑的凸函数，能保证找到全局最优解；

b) 最大熵模型的算法优化没有看懂需要沉下来好好看；

第七章，支持向量机

支持向量机是一种二分分类模型，基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机，支持向量机包括核技巧，使它称为实质上的非线性分类器；学习策略就是间隔最大化，形式化为一个求解凸二次规划的问题，等价于正则化的合页损失函数的最小化问题；算法：求解凸二次规划的最优化算法；

1、线性可分支持向量机与硬间隔最大化

考虑一个二分分类问题，假设输入空间与特征空间为两个不同空间，输入空间为欧式空间或离散集合，输出空间为欧式空间、希尔伯特空间；线支持向量机和线性支持向量机建设这两个空间的元素一一对应，并将输入空间中的输入映射为特征空间中的特征向量；

一个输入对应特征空间的特征向量；

a) （欧几里得空间，希尔伯特空间，巴拿赫空间或者是拓扑空间都属于函数空间。函数空间 = 元素 + 规则，即一个函数空间由元素与 元素所满足的规则 定义，而要明白这些函数空间的定义首先得从距离，范数，内积，完备性等基本概念说起。
https://blog.csdn.net/lulu950817/article/details/80424288）；

b) 非线性支持向量机利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量，所以输入都由输入空间转换到特征空间，支持向量机的学习是在特征空间进行的。支持向量机的学习是在特征空间中的，目标实在特征空间中找到一个分离超平面，能将实例分到不同的类；

c) 函数间隔：用y(wx+b)定义，后项能够表示X距离超平面的远近，与符号是否一致能够表示分类是否正确；找到那个优化对象，这个优化对象就是函数间隔；可以表示分类预测的正确性及确信度，但是选择分类超平面时这个还不够，只要成比例的改变w和b，函数间隔会增加，对函数间隔进行规范化，知识函数间隔称为几何间隔；变成了对几何间求最优值；

d) 支持向量机的想法：求解能够正确划分训练数据集并且几何间隔最大的分离超平面，对线性可分训练数据集而言，线性可分分离超平面有无穷多个，但是几何间隔最大的分离超平面是唯一的；这里的间隔最大化称为硬间隔最大化。通过变换，将该问题变换为一个凸二次规划问题；

e) 算法：最大间隔法；

f) 支持向量和间隔边界：在线性可分的情况下，训练数据的样本点中与分类超平面距离最近的样本点的实例为支持向量，支持向量是使约束条件等号成立的点；决定分离超平面的时候，只有支持向量起作用，其他实例点并不起作用，如果移动支持向量，将改变所求的解；由于支持向量对分类模型起着决定性作用，所以称为支持向量机；

g) 学习时的对偶算法：利用拉格朗日对偶性，通过求解对偶问题，得到原始问题的最优解；优点：对偶问题更容易求解；自然引入核函数，进而推刚到非线性分类问题；

2、线性支持向量机与软间隔最大化

a) 加上一个松弛变量，将优化目标增加一个松弛变量的求和；

b) 求最优化的方法与线性可分支持向量机的模式一样；

3、非线性支持向量机与核函数

a) 对于非线性可分问题，超曲面分类的空间，变分的思想；将其从变换到新空间的线性可分问题；在新空间里面训练线性模型；

b) 变化的方法：核函数的方法，k(x,z)=p(x).p(z)

c) 用核函数来替代元素之间的内积；

d) 核函数的取法并不是唯一的，有多种取法；

4、 SMO算法：序列最小优化

a) 启发式算法：如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题就解决了。

b) 如果无法验证，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题；子问题有两个变量，一个是违反KKT条件最严重的那个，另一个由自由约束条件自动确定。SMO算法不断将问题分解为子问题并对子问题求，从而达到目的。

第八章，提升方法（boosting）

1、提升方法是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器。（减治、分治、变治）

2、本章首先介绍提升方法的思路和代表性的提升算法adaBoost；通过训练误差分析探讨它为什么能够提高学习精度；

3、提升方法AdaBoost算法（迭代+分治+变治）

a) 提升方法的基本思路：对一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断（三个臭皮匠顶个诸葛亮算法），将多个专家的判断进行适当的综合得出的判断。

b) 几个基本概念：强可学习，弱可学习—在概率近似正确（PAC）的学习框架中，一个概念如果存在一个多项式的学习算法，并且正确率很高，那么就称这个概念是强可学习的；同上描述如果学习的正确率仅比随机猜测略好，则称为弱可学习的。后来有人证明，强可学习和弱可学习是等价的。问题变为如果已经发现了弱学习算法，那么能否可以将其提升为强学习算法；因为比随机猜测略好，所以可以采用叠加的方式，使其收敛与强学习；

c) 给定一个训练样本集，求比较粗糙的规则要比求精确的分类规则容易的多；提升方法就是从弱学习算法出发，反复学习，一个人比较笨的人使用这个方法也可以得到聪明的结论；弱分类器也叫做基本分类器；提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合这些弱分类器构成一个强分类器；大多数的提升方法都是改变训练数据的概率分布，针对不同的训练数据分布调用弱学习算法学习一些列若分类器；

d) 弱学习算法的核心问题：1、每一轮如何改变训练数据的权值或概率分布？2、如何将弱分类器的结论组合起来。

e) Adbaboost：1、提高哪些被前一轮弱分类器分类错误分类样本的权值，降低哪些被正确分类样本的权值；2、组合的方式用加权多数表决的方法；

4、 Adaboost算法的训练误差分析

5、 Adaboost算法的解释：模型是假发模型，损失函数是指数函数，学习算法为前向分布算法时的二分类学习方法；

6、提升树：以分类数或回归树为基本分类器的提升方法，提升树被认为是统计学习性能最好的方法之一；

a) 模型：提升方法实际采用的是加法模型（基函数的线性组合），以决策树为基函数；

b) 作为回归问题提升树算法中的残差近似值拟合一个回归树；

7、

第九章， EM算法及其推广

1、 EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。算法的每次迭代由两步组成，E步：求期望；M步，求极大。所以这个算法称为期望极大算法。

2、 EM算法的思想：

a) 概率模型含有观测变量，又含有隐变量或者潜在变量。如果概率模型只是观测变量，那么给定数据，可以直接用极大似然估计法，或者贝叶斯估计法估计参数模型，但当模型含有隐变量时，就不能简单的使用这些估计方法。三硬币问题，有3枚硬币，ABC，他们出现正面的概率是abc，根据A结果选择B,C，记录投BC出现的结果，根据观测值推测ABC出现的概率，由于A的值无法观测，称为隐变量；

c) 算法：

d) 在非监督学习中的应用：监督学习的训练数据为输入输出对，可以解决分类、回归、标注等任务，有时训练数据中只有输入没有对应的输出，这样的数据学习模型为非监督学习问题；EM算法可以用于生成模型的非监督学习，可以认为非监督学习训练数据是联合概率分布产生的数据，X为观测数据，Y为未观测数据；

3、 EM算法的收敛性：

a) 提供一种近似计算含有隐变量概率模型的极大似然估计的方法，最大的优点就是简单性和普适性；

4、 EM算法在高斯混合模型学习中的应用

a) 如观测数据由高斯混合模型生成，可以估计生成模型的参数；

i. 明确隐变量，写出完全数据的对数似然函数；

ii. EM算法的E步，确定Q函数；

iii. 确定EM算法的M步，迭代M步秋熟Q函数的对隐变量极大值；

5、 EM算法的推广

a) EM算法还可以解释为F函数的极大-极大算法；广义期望极大算法；

b) 、

第十章，隐马尔科夫模型

1、隐马尔科夫模型是可用于标注问题的统计学习模型，描述由隐藏马尔科夫链随机生成观测序列的过程，属于生成模型。

2、定义：隐马尔科夫模型是时序模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态序列称为状态序列，每个状态生成的一个观测，由此产生的观测的随机序列称为观测序列，序列的每一个位置又可以看作是一个时刻。

3、隐马尔科夫模型的基本假设：1、齐次马尔科夫假设：任意时刻的状态只与前一个状态有关，与其他时刻的状态无关；2、观测独立性：任意时刻的观测只依赖于该市可的，

4、隐马尔可夫模型的三个问题：

a) 概率计算问题：给定模型和观测序列，计算在模型下观测序列X出现的概率；

b) 学习问题：已知观测序列，估计模型参数，使得该模型下观测序列概率最大；

c) 预测问题：称为解码问题，已知模型和观测序列，求对给定观测序列最大状态序列；

5、贝叶斯定理：后验概率=先验概率*调整因子（调整因子=后验概率/先验概率）P(B|A)=P(B)*P(A|B)/P(A)

6、概率计算问题：

a) 穷举法

b) 前向算法

c) 后向算法

7、学习问题：

a) 根据训练数据是包括观测序列和对应的状态序列还是只有观测序列，可以分别由监督学习与非监督学习实现。本节先介绍监督学习算法，而后介绍非监督学习算法。

8、预测问题：

第十一章，条件随机场

1、 给定一组输入随机变量条件下，另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题，本书主要讨论标注问题的应用。讲述线性链条件随机场，问题变成了由输入序列对输出序列预测的判别模型，形式为对数线性模型，学习方法是极大似然估计、正则化的极大似然估计。

2、马尔科夫随机长：概率的无向模型图，是一个可以由无向图表示的联合概率分布。

3、概率无向图:节点是随机变量，边是随机变量之间的概率依赖关系；是一种概率分布的图形表示；用概率无向图建模—GOOGLE pagerank算法；

a) 成对马尔科夫性：在概率无向图中，任意两个无边连接的点，条件概率是独立的；

b) 局部马尔科夫性：在概率无向图中，无边连接的点之间的概率分布式相互独立的；换句话说概率分布只与和它直接相连的点有关；

c) 全局马尔科夫性：无直接相连的节点组之间是相互独立的；

d) 概率无向图模型定义：联合概率分布满足成对、局部或者全局马尔科夫性，称为联合概率分布为概率无向图模型；

e) 问题：求联合概率分布，对给定的概率无向图模型，我们希望将整体的联合概率写成若干子联合概率的乘积的形式，就是将联合概率进行因子分解，通过马尔科夫性进行分解，核心思想是减治问题（分治、变治）；

f) 定义最大团：任何两个结点均有边连接的节点子集称为团。若C是无向图G的一个团，并且不能再加进任何一个G的节点使其称为一个更大的团，则称为最大团；（最大的可分割的单位，具有全局马尔科夫性的团？）；将概率五项图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解；增加规范化因子约束，保证P(Y)构成一个概率分布（函数）；0<P(Y)<1;

4、条件随机场的定义与形式

a) 条件随机场定义：给定随机变量X条件下，随机变量的马尔科夫随机场。定义在线性链条上的特殊条件随机场，称为线性链条随机场，可以用于标注问题。这是条件概率模型中的p(y|x)中，y是输出变量，表示标记序列，X是输入变量，表示要标记的观测序列。利用训练数据集，通过极大似然估计或者正则化的极大似然估计得到条件概率模型；预测时，对于给定的输入序列X，求出条件概率P的最大输出序列；在是A的前提下B的概率，选择A的前提下选B的概率，这就是条件概率；给定一个句子，包括了N多单词，在给定这个组合的情况下正确意思的概率；

b) 线性链条件随机场：节点之间的关系类似一个链表；