分享

如何通俗地理解信息增益?

 吴敬锐 2020-05-21

“信息增益”通俗地讲,就是某个信息出现后,带来的信息量越多,那么就说该信息带来的信息增益大;反之则信息增益小。

1 选择朋友
举个例子吧,比如因为工作原因,我新结识了一位小伙伴,现在想判断他是否值得交往,也就是想做一个“选择朋友”的决策。我择友的标准是“好人”,但是好坏不会写在人的脑门上,只能通过了解更多的信息来判断。信息知道的越多自然判断越准确。

当然,有的信息用处不大,或者说带来的“信息增益”低,对“选择朋友”这个决策帮助小。比如抽烟、喝酒这个信息对“选择朋友”帮助就不大,好人、坏人都抽烟喝酒,比如于谦、于大善人就喜欢抽烟、喝酒、烫头:

有的信息带来的“信息增益”很大,比如知道此人曾经因为故意伤人坐牢,那么“选择朋友”这个决策就很容易做了,基本就一票否决了。

2 数学建模
通过上面的例子,大概弄清楚“信息增益”想表达什么了,下面来看看怎么转为数学概念。为了讲解,这里设计了一个表格,每一行代表一个人(表格没有考虑现实生活的复杂性,望大家从理解算法的角度来看待其中的数据):

假设人群中本身就好人、坏人各占一半。从表格中可以看到,“抽烟”或者“不抽烟”的人中好坏也是各占一半,因此,这个信息没有带来任何增益:

相对而言,“坐牢”这个信息更有用,也就是带来的增益更大。坐过牢的人大概率是坏人:

下面就需要设计一个数学公式,通过它可以衡量(在判断好人、坏人这个问题上)“坐牢”的信息量(也就是“信息增益”)要大于“抽烟”的信息量。


3 熵
判断好人、坏人,在数学上和判断硬币的正反是相同的。所以先来讨论抛硬币:

抛硬币是服从伯努利分布的:

 时,正反面出现的概率相同,抛一次硬币完全不知道会出现哪一面,也就是说  提供的信息量比较小;而如果  ,那么说明这个硬币两面都是正面,抛硬币得到的也一定是正面,也就是说  提供的信息量最大:

数学家定义了一个函数,称为 熵(关于熵的进一步理解可以查看这里):

抛硬币(伯努利分布)的熵函数图像如下:

从该函数图像可以看出,   时,熵最大,此时信息量最小;而  或  熵最小,此时信息量最大。所以熵函数就可以用来衡量信息量。

4 信息增益
文章开头设计的表格实际上就是关于好人、坏人的一个概率分布(本质上也是伯努利分布),据此可以计算出熵  :

同样的,“抽烟”这个信息会讲上述表格一分为二,对这两个表格分别计算熵之后,进行加权平均得到  (这里有一些细节就不展开了,不清楚的同学可以去学习下决策树算法):

“坐牢”也会将表格一分为二,通过同样的算法可以得到熵  。相对于  而言,  、  都是有了新的信息后得到,因此这两者的确定性都会提高。用数学的语言就是熵会减小,因此有(这是可以证明的):

其中“坐牢”很显然确定性更高,因此有:

进而有:

其中  称为“抽烟”带来的“信息增益”,而  称为“坐牢”带来的“信息增益”,上面的式子表达的意思就是:

我们通过通俗易懂、图形化的方式,对《线性代数》、《单变量微积分》、《多变量微积分》、《概率论与数理统计》进行了精讲,可以直接点击下面这个图片购买包含这些内容的图解合集:

👉 也可以通过下面的链接单独购买各个科目(请放心购买,之后可以通过补差升级到合集):

 最易懂的数学知识库:

马同学高等数学

看图学数学

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多