分享

最大似然估计、贝叶斯估计两类参数估计的对比

 成长中辉煌 2014-05-28
参数估计问题:

   最大似然估计:把待估计的参数看作是确定性的量(只是其取值未知),其最佳估计就是使得产生已观察到的样本(即训练样本)的概率为最大的那个值。(即求条件概率密度p(D|$)为最大时的$,其中D为样本集,$为条件概率密度分布的参数)。
   特点:简单适用;在训练样本增多时通常收敛得很好。

   贝叶斯估计:把待估计的参数看成是符合某种先验概率分布的随机变量;对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。
   (典型的效果是:每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰,这个现象就称为“贝叶斯学习”过程。)

   无论采用何种参数估计方法,在参数估计完成后,我们都使用后验概率(或先验概率?)作为分类准则。

附:
   最大后验估计(MAP-Max a posterior):求p(D|$)*p($)取最大值的那个参数向量$。最大似然估计可以理解为当先验概率p($)为均匀分布时的MAP估计器。(MAP缺点:如果对参数空间进行某些任意非线性变换,如旋转变换,那么概率密度p($)就会发生变化,其估计结果就不再有效了)参数估计问题:

   最大似然估计:把待估计的参数看作是确定性的量(只是其取值未知),其最佳估计就是使得产生已观察到的样本(即训练样本)的概率为最大的那个值。(即求条件概率密度p(D|$)为最大时的$,其中D为样本集,$为条件概率密度分布的参数)。
   特点:简单适用;在训练样本增多时通常收敛得很好。

   贝叶斯估计:把待估计的参数看成是符合某种先验概率分布的随机变量;对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。
   (典型的效果是:每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰,这个现象就称为“贝叶斯学习”过程。)

   无论采用何种参数估计方法,在参数估计完成后,我们都使用后验概率(或先验概率?)作为分类准则。

附:
   最大后验估计(MAP-Max a posterior):求p(D|$)*p($)取最大值的那个参数向量$。最大似然估计可以理解为当先验概率p($)为均匀分布时的MAP估计器。(MAP缺点:如果对参数空间进行某些任意非线性变换,如旋转变换,那么概率密度p($)就会发生变化,其估计结果就不再有效了)参数估计问题:

   最大似然估计:把待估计的参数看作是确定性的量(只是其取值未知),其最佳估计就是使得产生已观察到的样本(即训练样本)的概率为最大的那个值。(即求条件概率密度p(D|$)为最大时的$,其中D为样本集,$为条件概率密度分布的参数)。
   特点:简单适用;在训练样本增多时通常收敛得很好。

   贝叶斯估计:把待估计的参数看成是符合某种先验概率分布的随机变量;对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。
   (典型的效果是:每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰,这个现象就称为“贝叶斯学习”过程。)

   无论采用何种参数估计方法,在参数估计完成后,我们都使用后验概率(或先验概率?)作为分类准则。

附:
   最大后验估计(MAP-Max a posterior):求p(D|$)*p($)取最大值的那个参数向量$。最大似然估计可以理解为当先验概率p($)为均匀分布时的MAP估计器。(MAP缺点:如果对参数空间进行某些任意非线性变换,如旋转变换,那么概率密度p($)就会发生变化,其估计结果就不再有效了)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多