图1:点估计作为权重的神经网络 vs 概率分布作为权重的神经网络。 这篇文章是贝叶斯卷积网络八个系列中的第一篇文章。 这些博客的大致结构如下:
让我们通过本篇博客理解贝叶斯神经网络的需求场景来开始这个系列。 问题陈述深度神经网络(DNNs)是通过学习示例来学习执行任务,而无需事先了解任务的连接系统。它们可以轻松扩展到数百万个数据点,并且可以通过随机梯度下降进行优化。 卷积神经网络(CNN)是DNNs的一个变体,已经在图像分类领域超越了人类的准确性。由于CNNs可以拟合各种非线性数据点,因此它们需要大量的训练数据。这会导致CNN和一般的神经网络经常在每类具有少量的训练样例上造成过拟合。神经网络模型可以在训练集上拟合的很好,但是不能很好的预测未曾出现的数据。这种情况经常会造成神经网络无法正确评估训练数据中的不确定性,从而导致对正确的类别,预测或行动的过度自信的决定。
为了理解这部分,让我们考虑一个猫狗图像的二分类训练任务。现在,当一个豹子的图片出现在测试集中,理想情况下模型应该预测它既不是狗也不是猫(狗的概率为50%,猫类概率为50%)。但是,由于输出层的softmax函数可以获得概率分数,它会调整一个类输出概率分数并最大化另一个类,从而导致一个类的置信度过高。这是点估计神经网络的主要问题之一。
但是我们真的需要贝叶斯神经网络吗?在工程实践中我们用各种正则化技巧去控制过拟合,比如,提前终止迭代,权重衰减,L1或者L2正则化以及最近流行的并且经验上非常有效的技术,丢弃一些神经网络的节点。 如果我们通过对模型进行正则化可以解决决策置信度过高并且防止模型过拟合,那么问题仍然存在:为什么我们需要贝叶斯神经网络? 简言之,答案是:当前神经网络架构中缺少预测中的不确定性度量,但贝叶斯神经网络将其纳入其中。 发展现状深度神经网络已经成功的应用在很多领域,包括一些非常敏感的领域,像医疗,安防,欺诈性交易等等。这些领域严重依赖模型预测的准确度,并且甚至一个过度自信的决策可以导致大问题。并且,这些领域的数据集非常不平衡(百万分之一的欺诈交易,接近5%的癌症阳性,不足百分之一的垃圾邮件),这种情况会导致模型在采样的类别上发生过拟合现象。 从概率论的角度来说,使用点估计作为基于任何分类的权重是不合理的。另一方面,贝叶斯神经网络在过拟合现象上更加鲁棒,并且能很好的从小的数据集当中学习。贝叶斯方法通过其参数以概率分布的形式进一步提供不确定性估计(见图1)。同时,通过使用先验概率分布来整合参数,在训练期间在许多模型上计算平均值,这给网络提供正则化效果,从而防止过度拟合。 贝叶斯神经网络的实用性贝叶斯神经网络通过参数进行后验推断从而防止过拟合在理论上来说是一个有吸引力的方法 ,然而,之前从未成功地对CNN的内核(也称为滤波器)进行分布建模,可能是因为在实际应用中常用的大量参数和极大模型。 即使是一个数量非常少的参数集,利用贝叶斯神经网络进行推断后验估计也是一个非常困难的任务。通常使用模型后验的近似值,变分推理是一种流行的方法。在这里,人们将使用简单的变分分布(例如高斯分布)对后验进行建模,并尝试使分布的参数尽可能接近真实的后验。这个通过最小化简单的变分分布和真实后验分布的Kullback-Leibler差异来完成。许多人过去都采用过这种方法来处理标准神经网络模型。 但是用变分方法来估计贝叶斯网络中的后验估计计算量非常大。使用高斯近似分布会大大增加模型参数的数量,而不会大幅增加模型容量。例如, Blundell et al. (2015),使用贝叶斯神经网络后验近似的高斯分布,并且模型参数的数量加倍,但报告与使用丢弃部分节点的传统方法有着相同的预测性能。这使得该方法在实践中不适合与CNN一起使用,因为参数数量的增加代价太大 接下来我们该怎么做?有很多种方法构建贝叶斯神经网络(在第三篇博客中我们会考虑到很多种)。然而,在这个系列中,我们将专注于使用Backprop的Bayes方法构建贝叶斯CNN。关于神经网络权重的贝叶斯精确推断是难以处理的,因为参数的数量非常大,并且神经网络的功能形式不适合精确积分。因此我们将会把难以处理的真实后验估计概率分布p(w|D)用带有变分的概率分布q_θ(w|D)去做近似,它符合高斯分布μ∈ℝ^ d和σ∈ℝ^ d的性质,表示为N(θ |μ,σ²),其中d是定义概率分布的参数总数。。这些高斯变分后验分布的形状由它们的方差 σ²决定,表达了一种对于每个模型参数估计的不确定性。 由Graves(2011)提出的上述的图形直觉。 如果你不能准确的理解我们之前的篇章段落,没关系。在下一篇博客中我们将会介绍理解贝叶斯神经网络所用到的所有基础知识。 接下来的几周我们期望做的事情:
想要继续查看该篇文章相关链接和参考文献? 点击【贝叶斯神经网络(系列)第一篇】或长按下方地址: https://ai./page/TextTranslation/1465 AI研习社今日推荐:雷锋网雷锋网雷锋网 卡耐基梅隆大学 2019 春季《神经网络自然语言处理》是CMU语言技术学院和计算机学院联合开课,主要内容是教学生如何用神经网络做自然语言处理。神经网络对于语言建模任务而言,可以称得上是提供了一种强大的新工具,与此同时,神经网络能够改进诸多任务中的最新技术,将过去不容易解决的问题变得轻松简单。 加入小组免费观看视频:https://ai./page/groupDetail/33 |
|
来自: taotao_2016 > 《计算机》