共 48 篇文章
显示摘要每页显示  条
机器学习里的贝叶斯基本理论、模型和算法。贝叶斯方法概念是比较简单的,一般情况下我们做贝叶斯推理,用了一个核心的工具叫贝叶斯定理或者贝叶斯准则,实际上写出来就是这么一个简单的公式,大家学概率基本上都学过这个。而主观贝叶斯,实际上是更希望利用贝叶斯框架的灵活性,因为贝叶斯框架给了你一个先验的分布,你可以在先验上做文章,我...
最大似然估计(MLE)和最大后验概率(MAP)题目中在一百次抽样中,七十次是白球的概率是P(Data | M),这里Data是所有的数据,M是所给出的模型,表示每次抽出来的球是白色的概率为p。而未考虑该模型本身的概率。假设有五个袋子,各袋中都有无限量的饼干(樱桃口味或柠檬口味),已知五个袋子中两种口味的比例分别是。假设从袋子中能拿出柠檬饼干的...
所以矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩阵,而保证这两个矩阵都是描述了同一个线性变换。下面我们得出一个重要的结论:“对坐标系施加变换的方法,就是让表示那个坐标系的矩阵与表示那个变化的矩阵相乘。”再一次的,矩阵的乘法变成了运动的施加。2.从坐标系的观点看,在M坐标系中表现为N的另一个坐标系,这也归结为,对N...
Ksvd算法。给定训练数据后一次找到全局最优的字典为NP问题,只能逐步逼近最优解.构造D算法分两步:稀疏表示和字典更新 稀疏表示 首先设定一个初始化的字典,用该字典对给定数据迚行稀疏表示(即用尽量少的系数尽可能近似地表示数据),得到系数矩阵X。字典更新 初始字典往往不是最优的,满足稀疏性的系数矩阵表示的数据和原数据会有较...
我们进行K-SVD的目标是要构造一个过完备的矩阵,然后选择最稀疏的系数解使得矩阵可以对其训练集相似的目标向量进行稀疏表示。构造字典的算法分为两步:稀疏表示和字典更新。在字典更新时,有可能出现极限情况,即xi=0xi=0,如此E收缩后也为0矩阵,即无法进行SVD,解决方法是计算误差矩阵E的每一列的平方,找到平方和最大的列也就是误差最大的列...
K-SVD.具体如下: 首先 将 DX表示成D中原子(列)与X中每行的乘积, DX=∑Ki=1dixTi 然后剥离第k个原子,上述表达式会产生一个“空洞”,字典更新的目的就是寻找新的 di 和 xi 来填补这个“空洞”来更加趋于收敛情况,所用方法就是SVD. 奇异值分解SVD是为了提取出一个矩阵最重要的特征, 适用于任何普通矩阵. 上式中的 EK 是误差矩阵, 对其做SV...
这些数据之间是有相关性的,这些数据构成的过原点的向量的最大线性无关组包含2个向量,这就是为什么一开始就假设平面过原点的原因!中心化后的数据在第一主轴u1方向上分布散的最开,也就是说在u1方向上的投影的绝对值之和最大(也可以说方差最大),计算投影的方法就是将x与u1做内积,由于只需要求u1的方向,所以设u1是单位向量。将X''...
机器学习中的数学(1)下面是一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型。我们程序也需要一个机制去评估我们θ是否比较好,所以说需要对我们做出的h函数进行评估,一般这个函数称为损失函数(loss function)或...
其实Boosting更像是一种思想,Gradient Boosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。这句话有一点拗口,损失函数(loss function)描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错(其实这里有一个方差、偏差均衡的问题,但是这里就假设损失函数越大,模型越容易出错...
主成分分析(PCA)与LDA有着非常近似的意思,LDA的输入数据是带标签的,而PCA的输入数据是不带标签的,所以PCA是一种unsupervised learning。下图是PCA的投影的一个表示,黑色的点是原始的点,带箭头的虚线是投影的向量,Pc1表示特征值最大的特征向量,pc2表示特征值次大的特征向量,两者是彼此正交的,因为这原本是一个2维的空间,所以最多有...
帮助 | 留言交流 | 联系我们 | 服务条款 | 下载网文摘手 | 下载手机客户端
北京六智信息技术股份有限公司 Copyright© 2005-2024 360doc.com , All Rights Reserved
京ICP证090625号 京ICP备05038915号 京网文[2016]6433-853号 京公网安备11010502030377号
返回
顶部