搜索

分享

QQ空间 QQ好友新浪微博微信

高斯混合模型之代码实现

陈永正的图书馆 2017-06-08

展开全文

高斯混合模型的代码实现，总体的思路是比较简单的。但涉及到具体的优化，如多维高斯概率分布协方差矩阵的逆矩阵，就是一个很头疼的奇异矩阵问题。这里我只想讲下代码实现的流程。具体的代码可以参照：http://blog.csdn.net/crzy_sparrow/article/details/7413019。（注意他的代码没有考虑协方差逆矩阵的问题）。

高斯混合模型代码实现流程：

（1）·首先是初始化，高斯混合模型的效果很大程度上依赖于初始点的设定。一般我们用K-means聚类生成K个中心节点。对于属于同一节点的数据，我们求其均值，方差以及该节点的概率。这里所谓的均值就是中心节点，协方差矩阵按照定义求解，该节点概率（选择该个高斯模型的概率）= 属于该节点的数据个数 / 总数据个数，这样初始化完成。

（2）·E-STEP:求得Q(j)，这里要将上次得到的均值u，协方差sigma，模型概率pj，带入Q(j)的定义式（见“高斯混合模型之理解”），注意p(x|j)是j类高斯概率分布；

（3）·M-STEP:按照我们推导的公式，更新均值u，协方差sigma和模型概率pj；

（4）·将（3）中更新的参数带入（2）中更新Q(j)；

（5）·最后要设定阀值，使迭代结束。按照定义，我们要将u,sigma,pj，带入L(theta)（最大似然值）公式中，如果t+1时刻的L与t时刻的L的比值接近于1，即可停止。具体的阀值还要应对实际的数据进行调整；

我的代码（MATLAB）：

·初始化函数：

[cpp] view plain copy

function [ mu,m_sigma,mp ] = GMM_ini( data,n_center )
[m,n]=size(data);
[data_id,centers]=kmeans(data,n_center);
mu=centers;
mp=zeros(1,n_center);
m_sigma=zeros(n,n,n_center);
for i=1:n_center
tem_id=(data_id==i);
m_sigma(:,:,i)=sigma(data(tem_id,:));
mp(i)=sum(tem_id)/m;
end
end

[cpp] view plain copy

function sig=sigma(data)//计算初始化的方差
[m,n]=size(data);
u=mean(data,1);
tem_data=data-repmat(u,m,1);
sig=zeros(n,n);
for k1=1:m
% for k2=1:m
sig=sig+tem_data(k1,:)'*tem_data(k1,:);
% end
end
sig=(sig+ 1E-5.*diag(ones(n,1)))/m;
end

·高斯概率分布函数

[cpp] view plain copy

function gp=GaussianPDF(data,u,sigma)
[m,n]=size(data);
pre_item=1/sqrt(((2*pi)^n)*abs(det(sigma)+realmin));
nxt_item(1:m)=0;
tem_data=data-repmat(u,m,1);
for i=1:m
tem_data_t=tem_data(i,:)';
nxt_item(i)=exp(-0.5*(tem_data(i,:)*(inv(sigma))*tem_data_t));
end
gp=pre_item*nxt_item;
end

·EM算法函数

[cpp] view plain copy

·测试函数

[cpp] view plain copy

clear all;
clc;
data=rand(1000,128);//1000个128维的数据样本
n_center=4;
thresh=0.0005;
[u,sigma,p]=GMM(data,n_center,thresh);
disp('Test Completed !');

注意，模型数在3-5左右，阀值要在0.0005-0.001，否则容易得到奇异方差矩阵。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：陈永正的图书馆 > 《算法》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

陈永正的图书馆

关注对话

TA的最新馆藏

基于Kafka与Spark的实时大数据质量监控平台
[转] Oracle 远程 RAC 打造双活数据中心| 从容灾迈向双活案例分享
dubbo性能测试报告
在 Docker 上运行一个 RESTful 风格的微服务
Tensorflow系列之（一）：Tensorflow的基本操作
识别MNIST数据集之（二）：用Python实现神经网络

喜欢该文的人也喜欢更多

热门阅读换一换