搜索

分享

QQ空间 QQ好友新浪微博微信

PLSA中的EM算法

dinghj 2014-09-30

展开全文

主要记录下几个文章博客内容

A Note on EM Algorithm for Probabilistic Latent SemanticAnalysis（翟成祥的NOTE）

A Note on EM Algorithm and PLSA（一个中文比较好的总结 by Xinyan Lu）

注意这两个是一个思路

Probabilistic Latent Semantic Analysis （原论文）

原论文是另一个思路

Notes on Probabilistic Latent Semantic Analysis (PLSA)（这个里面对比了两种不同思路，原论文与翟成祥NOTE，Xinyan Lu中文总结分布对应这两种思路）

先看第一种思路，这个更好理解一点

典型的EM算法 hidden/latent variable 是主题Z，p(d)对于我们的计算可忽略,最后面那个博客的总结证明更完整。

类似前面的混合高斯模型，这里实际Estep要估算的就是对应d,w 情况下Z的概率

Estep 对比前面高斯模型具体一个观察点情况下对应到隐藏分类的概率

解释下 sum_z(p(z|d)p(w|z))= p(w|d) p(d)p(w|d)p(z|d,w) = p(d,w,z) => p(w|d)p(z|d,w) = p(d,w,z)/p(d) = p(w,z|d)=p(z|d)p(w|z)

=> p(z|w,d) = p(z|d)(pw|z) / p(w|d)

Mstep

对比NG的课件

x对应这里的w

如果我们考虑背景噪音,翟成祥的NOTE更进一步给出了在这个基础上稍微复杂一点的MODLE和结果

考虑下翟成祥那篇EM中的简单混合模型

topic Z

其实和上面公式一样 p(z|d)

第二种思路

stanford的NLP课件是一个比较好的总结这里记录下。http://www./class/cs224n/handouts/fsnlp-em-slides.pdf

MLE

又一个不同的应用场景，但是可以看出基本都是mixture…

引入hidden variable让计算变的容易,因为确定了具体哪个part model产生

这个推导看前面的总结

关键词

下面是这个课件独有的，EM made easy

其实作者也是想证明Qfunction怎么获得的，思路和总结2中殊途同归，不过没有用log直接用概率*，利用artithmetic means >= geometric means

如果再取log形式就一样了

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： dinghj > 《自然语言处理》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

dinghj

关注对话

TA的最新馆藏

利用page rank,hits算法实现的一个简单的文本摘要系统
用graphviz,pygraphviz快速自动绘图
利用pygraphviz绘制二叉树
[转] 法国画家delphinenjolras【绝品收藏】
艾菲：你以为做的是投资，其实只是在赌博！
凌落辰：从几道题中看到的股市哲思

喜欢该文的人也喜欢更多

热门阅读换一换