数据科学之最大熵模型

当以读书通世事 2018-01-07

展开全文

hi，all：

沿着昨天的节奏，今天我们来重点谈谈最大熵建模，这里会有简单的公式推导，详细的可以参考百度搜索的相关链接结果，重点的在于最大熵模型的理解上，以及其重要的作用。

一、统计建模的基础知识

开始之前先介绍一下统计建模的基础知识，便于引出最大熵模型。

统计建模方法是用来modeling随机过程行为的。在构造模型时，通常供我们使用的是随机过程的采样，也就是训练数据。这些样本所具有的知识（较少），事实上，不能完整地反映整个随机过程的状态。建模的目的，就是将这些不完整的知识转化成简洁但准确的模型。我们可以用这个模型去预测随机过程未来的行为。

在统计建模这个领域，指数模型被证明是非常好用的。因此，自世纪之交以来，它成为每个统计物理学家们手中不可或缺的工具。最大熵模型是百花齐放的指数模型的一种，它表示的这类分布有着有趣的数学和哲学性质。尽管最大熵的概念可以追溯到远古时代，但直到近年来计算机速度提升之后，才允许我们将最大熵模型应用到统计评估和模式识别的诸多现实问题中（最大熵才在现实问题上大展身手）。

二、最大熵原理

最大熵原理指出，当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。因为这时概率分布的信息熵最大，所以人们称这种模型叫“最大熵模型”。我们常说，不要把所有的鸡蛋放在一个篮子里，其实就是最大熵原理的一个朴素的说法，因为当我们遇到不确定性时，就要保留各种可能性。说白了，就是要保留全部的不确定性，将风险降到最小。----摘自《Google黑板报》作者：吴军

最大熵的方法回答了这两个问题。直观上讲，很简单，即：对已知的知识建模，对未知的不过任何假设（model all that is known and assume nothing about that which is unknown）

接下来为最大熵模型的推导过程，沿用常用的模型上帝视角方法论：

1、目标函数和约束函数构建；2、寻找预测函数；3、构造损失函数；4、求解

（1）最大熵模型的目标函数和约束函数：

数据科学之最大熵模型