共 49 篇文章 |
|
非线性激活函数:用于分离非线性可分的数据,是最常用的激活函数。神经网络用于实现复杂的函数,非线性激活函数可以使神经网络随意逼近复杂函数。5. 不同类型的非线性激活函数。与 Sigmoid 函数类似,Tanh 函数也使用真值,但 Tanh 函数将其压缩至-1 到 1 的区间内。为了解决梯度消失问题,我们来讨论另一个非线性激活函数——修正线性单元(re... 阅27 转0 评0 公众公开 19-12-05 10:01 |
论文《An Alternative View: When Does SGD Escape Local Minima?》表明,实施 SGD 相当于在卷积(所以平滑)的损失函数上进行常规梯度下降。SGD 最小化的函数可以写成两项之和(Eq. 11):潜在Φ和熵的分布。如果它等于损失函数,SGD 将收敛到全局最小值。在第一篇文章中,我们试图传达更多关于神经网络高维损失函数和 SGD 解说的直观认知,同... 阅105 转0 评0 公众公开 19-12-05 09:40 |
第一门课 神经网络和深度学习第二门课 改善深层神经网络:超参数调试、正则化以及优化第三门课 结构化机器学习项目第四门课 卷积神经网络第五门课 序列模型。https://github.com/fengdu78/deeplearning_ai_books在线版深度学习笔记目录第一门课 神经网络和深度学习(Neural Networks and Deep Learning)3.9 神经网络的梯度下降(Gradient descen... 阅22 转0 评0 公众公开 19-12-03 22:24 |
过滤器深度与输入层深度一样。下面就是 3D 卷积,其过滤器深度小于输入层深度(核大小<通道大小)。如果过滤器分组的数量与输入层通道的数量相同,则每个过滤器的深度都为 Din/Din=1。AlexNet conv1 过滤器分解:正如作者指出的那样,过滤器分组似乎会将学习到的过滤器结构性地组织成两个不同的分组。正如 AlexNet 的作者指出的那样,过滤器... 阅15 转0 评0 公众公开 19-11-29 23:30 |
构建神经网络的一些实战经验和建议。随着批大小减少到 1,这样做可以梯度消失或梯度爆炸。扫码可添加CVer助手,可申请加入CVer大群和细分方向群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩... 阅35 转0 评0 公众公开 19-11-29 23:09 |
很多人认为开始训练神经网络是很容易的,大量库和框架号称可以用 30 行代码段解决你的数据问题,这就给大家留下了(错误的)印象:训练神经网络这件事是非常简单的,不同模块即插即用就能搭个深度模型。在输入网络前可视化:在运行模型之前,我们需要可视化数据。我准备用来寻找好模型的方法有两个阶段:首先获得足够大的模型,这样它能够过拟... 阅29 转0 评0 公众公开 19-11-29 23:03 |
四张图彻底搞懂CNN反向传播算法(通俗易懂)阅读本文之前,可以先阅读之前讲述的全连接层的反向传播算法详细推导过程,此时,已经将CNN转化为FC,与反向传播算法完全一致,这里不再做详细介绍。当输入图像为一个batch时, 的转化方式如上图,首先将输入图像与卷积核分别按单通道图像展开,然后将展开后的矩阵在行方向级联。此时,已经将CNN转... 阅1176 转0 评0 公众公开 19-11-29 23:01 |
2019 年机器学习框架之争:PyTorch 和 TensorFlow 谁更有胜算?尽管 PyTorch 的动态图留给我们优化的机会很少,但是已经有很多有趣的报道说明 PyTorch 的运行速度和 TensorFlow 一样快(https://www.reddit.com/r/MachineLearning/comments/cvcbu6/d_why_is_pytorch_as_fast_as_and_sometimes_faster/),甚至更快(https://arxiv.org/abs/1608... 阅51 转0 评0 公众公开 19-11-20 14:16 |
那么我们可以通过训练「学生」神经网络模仿「老师」神经网络的行为,将「老师」神经网络的知识压缩到一个「学生」神经网络中(同时重新训练学生神经网络去完成之前学过的技能,从而避免它遗忘这些技能)。还有学着对另一个神经网络的快速权值、甚至是它们自己的权值进行编程的神经网络(详见第 8 章),以及上述提到的所有其它技术:从分层强化... 阅188 转1 评0 公众公开 19-11-13 08:54 |
2.1 多层架构。多年以来,研究者已经提出了很多不同类型的多层架构,本章将会覆盖计算机视觉应用中所采用的最为突出的此类架构。除了前一节讨论的整流非线性,归一化(normalization)是 CNN 架构中有重要作用的又一种非线性处理模块。一般而言,这些方法可以分成三个方向:对所学习到的过滤器和提取出的特征图进行可视化、受理解视觉皮层的生... 阅6 转0 评0 公众公开 19-11-10 08:11 |