做人工智能必看的45篇论文

西北望msm66g9f 2019-07-17

展开全文

琳琅满目的AI技术、论文，常会把刚入行的初学者们搞得一头雾水——到底哪些论论必须要看，先看哪些后看哪些。而市面上大部分的书籍又只是讲述最基础的原理，往往不能和论文很好的衔接起来。

看着一个个大厂的黑科技产品靓丽光鲜。而自己手里看到的技术却都是向量机、矩阵、随机森林、岭回归、决策树之类的知识碎片。不仅会让人感叹，我们是一个活在时代吗？

其实IT技术发展是飞快的。而AI领域的发展会是IT中最快的。我们所看到的那些黑客技，其后面无不堆积了大量的论文。而且都是最新、最前沿的论文。

从某种调度来讲，他们所用的技术跟书籍里的内容确实不是一个时代。要想与时俱进，就必须改变思路——从论文入手。小编在这里为大家准备了一道硬菜——45篇让你跟上时代的论文。

45篇论文分为如下十一个部分：

神经网络基础部分
图像分类部分
批量正则化部分
注意力部分
高级的卷积网络知识
图像内容处理部分
循环神经网络部分
AI合成部分
多任务学习
NLP部分
模型攻防

看过《深度学习之TensorFlow工程化项目实战》的小伙伴一定会发现，这45篇论文在书中都有讲过，大部分论文还是以中文描述+实际代码案例的形式出现，便于学习了解。

（点击封面了解本书详情）

这是一本非常全面的、专注于实战的AI图书，兼容TensorFlow 1.x和2.x版本，共75个实例。结构清晰、案例丰富、通俗易懂、实用性强。适合对人工智能、TensorFlow感兴趣的读者作为自学教程。

No. 1 wide_deep模型论文

关于神经元、全连接网络之类的基础结构，想必每个AI学者都有了解。那么你是否真的了解全连接网络中深层与浅层的关系呢？来看看wide_deep模型吧。这篇论文会使你对全连接有个更深刻的理解。

关于该模型的更多介绍可以参考论文：

https:///pdf/1606.07792.pdf

在wide_deep模型中，wide模型和deep模型具有各自不同的分工。

wide模型：一种浅层模型。它通过大量的单层网络节点，实现对训练样本的高度拟合性。它的缺点是泛化能力很差。
deep模型：一种深层模型。它通过多层的非线性变化，使模型具有很好的泛化性。它的缺点是拟合度欠缺。

将二者结合起来——用联合训练方法共享反向传播的损失值来进行训练—可以使两个模型综合优点，得到最好的结果。

No.2 wide_deep模型论文

为什么Adam被广泛使用？光会用可不行，还得把原理看懂。这样出去喷一喷，才会显得更有面子。

Adam的细节请参阅论文《Adam: A Method for Stochastic Optimization》，该论文的链接网址是：

https:///pdf/1412.6980v8.pdf

No.3 Targeted Dropout模型论文

你还在用普通的Dropout吗？我已经开始用Targeted Dropout了。比你的又快，又好。你不知道吧，赶紧学习一下。

Targeted Dropout不再像原有的Dropout那样按照设定的比例随机丢弃部分节点，而是对现有的神经元进行排序，按照神经元的权重重要性来丢弃节点。这种方式比随机丢弃的方式更智能，效果更好。更多理论见以下论文：

https:///pdf?id=HkghWScuoQ

No.4 Xception模型论文

在那个图像分类的时代，谷歌的Xception系列，像x战警一样，一个一个的打破记录。其中的技术也逐渐成为AI发展的知识体系。有必要看一下。或许会对自己的工作有所启发。

详细情况请查看原论文《Xception: Deep Learning with Depthwise Separable Convolutions》，该论文网址是：

https:///abs/1610.02357

No.5 残差结构论文

运气好到没朋友，现有模型，后完善理论指的就是残差结构这哥们。他的传奇导致即使到今天的AI技术，也无法将它割舍，常微分方程都得拿它比肩。快来学学吧。用处大着呢。好多模型都拿他当先锋。

利用残差结构，可以使得网络达到上百层的深度。详情请参阅原始论文《Deep ResidualLearning for Image Recognition》，该论文网址是：

https:///abs/1512.03385

No.6 空洞卷积论文

NasNet的招牌动作，虽然不是出于NASNet，但是却被人家用得如火纯青。有时不得不惊叹，机器设计出来的模型还真是跟人设计的不一样！

想知道空洞卷积的感受为什么与层数呈指数级关系吗？

细节请查看原论文《Multi-scale context aggregation by dilated convolutions》，该论文网址是：

https:///abs/1511.07122v3

No.7 DenseNet论文

这个模型使我想到了“一根筋”，再次证明了只有轴的人才能成大事！另类的模型，神奇的效果，快来体验一下吧。这可是比华佗还牛的神医哦！

有关DenseNet模型的细节，请参考原始论文《Densely Connected Convolutional Networks》，该论文的连接是：

https:///abs/1608.06993

No.8 EfficientNet模型论文

知道目前位置图像分类界谁是老大吗？来，看看这个！

EfficientNet模型的论文地址如下：

https:///pdf/1905.11946.pdf

No.9 Grad-CAM模型论文

如果你能把神经元搞得透彻，你也会想到这个点子。不想聊太多！一个字“绝”！这TMD才叫卷积网络的可视化！

详细情况请参阅论文《Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization》，该论文的链接网址是

https:///pdf/1610.02391.pdf

No.10 分类模型泛化能力论文

知道为啥都喜欢使用ResNet模型当先锋吗？运气好就是运气好！好到大家都喜欢用它，还说不出为啥它那么好！反正就是好，不信的话看看这篇论文的实验结果。

论文中，在选取模型的建议中，多次提到了ResNet模型。原因是，ResNet模型在Imgnet数据集上输出的特征向量所表现的泛化能力是最强的。具体可以参考以下论文：

https:///pdf/1805.08974.pdf

No.11 批量正则化论文

这个没的说，必修课，不懂的话，会被鄙视成渣渣！

论文《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》，该论文网址是：

https:///abs/1502.03167

No.12 实例归一化论文

时代不同了，批量归一化也升级了，赶紧学学新的归一化吧。

在对抗神经网络模型、风格转换这类生成式任务中，常用实例归一化取代批量归一化。因为，生成式任务的本质是——将生成样本的特征分布与目标样本的特征分布进行匹配。生成式任务中的每个样本都有独立的风格，不应该与批次中其他的样本产生太多联系。所以，实例归一化适用于解决这种基于个体的样本分布问题。详细说明见以下链接：

https:///abs/1607.08022

No.13 ReNorm算法论文

ReNorm算法与BatchNorm算法一样，注重对全局数据的归一化，即对输入数据的形状中的N维度、H维度、W维度做归一化处理。不同的是，ReNorm算法在BatchNorm算法上做了一些改进，使得模型在小批次场景中也有良好的效果。具体论文见以下链接：

https:///pdf/1702.03275.pdf

No.14 GroupNorm算法论文

GroupNorm算法是介于LayerNorm算法和InstanceNorm算法之间的算法。它首先将通道分为许多组（group），再对每一组做归一化处理。

GroupNorm算法与ReNorm算法的作用类似，都是为了解决BatchNorm算法对批次大小的依赖。具体论文见下方链接：

https:///abs/1803.08494

No.15 SwitchableNorm算法论文

我们国人做产品都喜欢这么干！all in one ,好吧。既然那么多批量归一化的方法。来，来，来，我们来个all in one吧。不服来辩，我这啥都有！

SwitchableNorm算法是将BN算法、LN算法、IN算法结合起来使用，并为每个算法都赋予权重，让网络自己去学习归一化层应该使用什么方法。具体论文见下方链接：

https:///abs/1806.10779

No.16 大道至简的注意力论文

把AI搞成玄学也就算了！居然还扯到道家了！谷歌的工程师真是中外通吃啊！搞出来了一个只用注意力就能做事的模型，连卷积都不要了！你说好玩不好玩！至简不至简！刺激不刺激！

大名鼎鼎的Attention is All You Need 注意力机制论文

注意力机制因2017年谷歌的一篇论文Attention is All You Need而名声大噪。下面就来介绍该技术的具体内容。如果想了解更多，还可以参考原论文，具体地址如下：

https:///abs/1706.03762

No.17-18 孪生注意力论文

好比LSTM与GRU一样，注意力他们家也除了一对双胞胎，长得略微有点不同。但是功能一样，都能吃能喝，还能注意。老虎老鼠傻傻的不清楚！

BahdanauAttention：

https:///abs/1409.0473

LuongAttention：

https:///abs/1508.04025

No.19 各自升级的孪生注意力论文

话说这对双胞胎，出生后就分开了。各自学的不同的语言，一个学习汉语，一个学习中文。若干年后，见面，发现二者的能力还是一样！

BahdanauAttention注意力升级成了normed_BahdanauAttention，而LuongAttention注意力升级成了scaled_LuongAttention。都一样的效果，你爱用哪个用哪个吧！

例如：

在BahdanauAttention类中有一个权重归一化的版本（normed_BahdanauAttention），它可以加快随机梯度下降的收敛速度。在使用时，将初始化函数中的参数normalize设为True即可。

具体可以参考以下论文：

https:///pdf/1602.07868.pdf

No.20 单调注意力机制论文

老公主动表忠心，我以后不看别的美女。老婆觉得不够，再加个限制：你以后不准看别的女人！于是单调注意力就出来了。

单调注意力机制（monotonic attention），是在原有注意力机制上添加了一个单调约束。该单调约束的内容为：

（1）假设在生成输出序列过程中，模型是以从左到右的方式处理输入序列的。

（2）当某个输入序列所对应的输出受到关注时，在该输入序列之前出现的其他输入将不能在后面的输出中被关注。

即已经被关注过的输入序列，其前面的序列中不再被关注。

更多描述可以参考以下论文：

https:///pdf/1704.00784.pdf

No.21 混合注意力机制论文

这个注意力很强大，比一般的注意力专注的地方更多，信息更丰富。我已经注意你很久了！呵呵呵~~~

因为混合注意力中含有位置信息，所以它可以在输入序列中选择下一个编码的位置。这样的机制更适用于输出序列大于输入序列的Seq2Seq任务，例如语音合成任务。

具体可以参考以下论文：

https:///pdf/1506.07503.pdf

No.22 胶囊网络与动态路由的论文

这是一股为图像分类降温的寒风，深刻而又尖锐的点出了卷积网络的硬伤！从事最大池化再无翻身之日。

虽然胶囊网络在实际应用中，不像它的理论那么牛，但是对AI的帮助，卷积的理解是革命性的。非常值得一读。另外，这也是一篇绝对让你对数学彻底绝望的论文。花几根白头发把里面的算法啃下来吧。这样你与大神就能更近一步。

胶囊网络分为主胶囊与数字胶囊，主胶囊与数字胶囊之间的耦合系数是通过训练得来的。在训练过程中，耦合系数的更新不是通过反向梯度传播实现的，而是采用动态路由选择算法完成的。该算法来自以下论文链接：

https:///pdf/1710.09829.pdf

目前胶囊网络的研究还处于初级阶段，随着人们研究的深入，相信这些问题会得到解决。

No.23 矩阵胶囊网络与EM路由算法

如果你觉得不过瘾，那么还可以再看一篇。继续自虐一下。

带有EM（期望最大化）路由的矩阵胶囊网络是动态路由胶囊网络的一个改进版本。论文链接如下：

https:///pdf?id=HJWLfGWRb

No.24 胶囊网络的其它用处

胶囊网络全身是宝，但就是自己不争气。这也说明还有上升的空间。就拿其中一个动态路由算法来讲，居然比普通的注意力还好。

看完之后，相信你一定会手痒！要不要也试试？把你的注意力换一下。值得你尝试，会有彩蛋的！

该论文的实践也证明，与原有的注意力机制相比，动态路由算法确实在精度上有所提升。具体介绍可见以下论文：

https:///pdf/1806.01501.pdf

No.25 卷积网络新玩法TextCNN模型

早先小编在一个项目中，自己用卷积网络处理字符数据。自己感觉很Happy。没想到，无意间居然发现了一篇同样这么干的论文。居然还有个名字，叫TextCNN。哎！可惜啊！小编文化少，只会写代码，不会写论文。

TextCNN模型是利用卷积神经网络对文本进行分类的算法，由 Yoon Kim 在 Convolutional Neural Networks for Sentence Classification 一文中提出。论文地址：

https:///pdf/1408.5882.pdf

No.26 FPN模型论文

（包含了ROIAlign的匹配算法）

要是搞计算机视觉，还是要建议看一下。非常的基础。也是图像分割方面的用得最多得模型。

FPN的原理是：将骨干网络最终特征层和中间特征层的多个尺度的特征以类似金字塔的形式融合在一起。最终的特征可以兼顾两个特点——指向收敛目标的特征准确、特征语义信息丰富。更多信息可以参考论文：

ROIAlign层中的匹配算法也来自于这篇FPN论文，链接如下：

https:///abs/1612.03144

No.27 Mask R-CNN模型论文

效果好，代码多！硬货！来啃吧！

Mask R-CNN模型是一个简单、灵活、通用的对象实例分割框架。它能够有效地检测图像中的对象，并为每个实例生成高质量的分割掩码，还可以通过增加不同的分支完成不同的任务。它可以完成目标分类、目标检测、语义分割、实例分割、人体姿势识别等多种任务。具体细节可以参考以下论文：

https:///abs/1703.06870

No28 YOLO V3模型论文

这个模型的特点就是快！目标识别强烈推荐

YOLO V3模型的更多信息可以参考以下链接中的论文：

https:///media/files/papers/YOLOv3.pdf

No.29 Anchor-Fress模型--FCOS模型论文

随着AI技术的进步Anchor-Fress模型死灰复燃（早先是YOLO V1那一批模型），这次不一样的是彻底干掉带Anchor的模型。训练起来那就一个爽！妈妈再也不用为我准备单独的Anchor标签了。

与YOLO V1相比， FCOS模型的思想与YOLO V1模型非常相似，唯一不同的是FCOS模型没有像YOLOv1那样只考虑中心附近的点，而是利用了ground truth边框中所有的点来进行预测边框。并且通过 center-ness 分支来抑制那些效果不行的检测边框。这样FCOS 就可以改善YOLO V1模型总会漏掉部分检测边框的缺点。

相关论文地址：

https:///abs/1904.01355

No.30 Anchor-Fress模型--CornerNet-Lite模型论文

一样也是Anchor-Fress模型，与FCOS效果差不多少，具体看一下论文吧

CornerNet-Lite模型。相关论文地址：

https:///pdf/1904.08900.pdf

No.31 栈式沙漏网络模型--Hourglass论文

最初用户人的姿态估计，在符合模型中也是常被使用的模型。论文地址：

https:///abs/1603.06937

No.32 OCR必修课——STN模型论文

可以让模型自动仿射变化，你说牛不牛！要学OCR，就得从这个开始。

有关STN模型的论文链接如下：

https:///abs/1506.02025

No.33 QRNN模型论文

在RNN模型的cell里，如果还只知道LSTM和GRU。那就太low了。快了补补吧：

如果想更多了解QRNN，可以参考以下论文：

https:///abs/1611.01576

No.34 SRU模型论文

接着来，各种RNN的Cell。又漂亮，又好吃！

SRU单元在本质上与QRNN单元很像。从网络构建上看，SRU单元有点像QRNN单元中的一个特例，但是又比QRNN单元多了一个直连的设计。

若需要研究SRU单元更深层面的理论，可以参考如下论文：

https:///abs/1709.02755

No.35 IndRNN模型论文

再补一个，这可都是好cell啊！

将IndRNN单元配合ReLu等非饱和激活函数一起使用，会使模型表现出更好的鲁棒性。

有关IndRNN单元的更多理论，可以参考论文：

https:///abs/1803.04831

No.36 IndRNN模型论文

最后，再来一个cell，如想要了解更多关于JANET单元的内容，可以参考以下论文：

https:///abs/1804.04849

No.37-38 Tacotron与Tacotron-2模型论文

AI合成部分的经典模型，以上结构来自Tacotron与Tacotron-2两个结构，更多内容可以参考以下两篇论文：

https:///pdf/1703.10135.pdf

https:///pdf/1712.05884.pdf

No.39 DeblurGAN模型论文

图片合成的论文太多了。这里简单列几个，大体原理和思路了解，即可。

DeblurGAN模型是一个对抗神经网络模型，由生成器模型和判别器模型组成。

生成器模型，根据输入的模糊图片模拟生成清晰的图片。
判别器模型，用在训练过程中，帮助生成器模型达到更好的效果。

具体可以参考论文：

https:///pdf/1711.07064.pdf

No.40 AttGAN模型论文

同样，这也是个图片合成的。不同的是多属性合成，相对比较有意思。

AttGAN模型由两个子模型组成：

（1）利用编码器模型将图片特征提取出来。

（2）将提取的特征与指定的属性值参数一起输入编码器模型中，合成出最终的人脸图片。

更多细节可以参考论文：

https:///pdf/1711.10678.pdf

No.41 RNN.WGAN模型论文

可以合成文本的GAN。离散数据也能干！

RNN.WGAN模型使用了WGAN模型的方法进行训练。详细做法可以参考如下论文：

https:///abs/1704.00028

No.42 MKR模型论文

多任务学习模型有必要了解一下。这里推荐一个论文给你看看。

MKR是一个多任务学习的端到端框架。该框架能够将两个不同任务的底层特征抽取出来，并融合在一起实现联合训练，从而达到最优的结果。有关MKR的更多介绍可以参考以下链接：

https:///pdf/1901.08907.pdf

No.43 BERT模型论文

如果你搞NLP，那么这个就不用我来介绍了。如果你准备搞NLP,那么赶紧来看看这个，跟上时代。

BERT相关论文链接：

https:///abs/1810.04805

在BERT之后，又出了好多优秀的模型。但是，还是先把这个啃下来，再看别的才不费劲。

No.44 FGSM模型论文

攻击模型的经典方法。值得掌握。

FGSM（Fast Gradient Sign Method）是一种生成对抗样本的方法。该方法的描述如下：

（1）将输入图片当作训练的参数，使其在训练过程中可以被调整。

（2）在训练时，通过损失函数诱导模型对图片生成错误的分类。

（3）当多次迭代导致模型收敛后，训练出来的图片就是所要得到的对抗样本。

具体可以参考论文：

https:///pdf/1607.02533.pdf

No.45 黑箱攻击论文

基于雅可比（Jacobian）矩阵的数据增强方法，是一种常用的黑箱攻击方法。该方法可以快速构建出近似于被攻击模型的决策边界，从而使用最少量的输入样本。即：构建出代替模型，并进行后续的攻击操作。

详细请见如下链接：

https:///abs/1602.02697

这里只是列了一些基础的论文。如果这45篇论文看完。可以保证你再看到大厂的产品时，不会感觉有代沟。

啃论文是很费时间的事情。还好小编这里为大家准备了一本书——《深度学习之TensorFlow工程化项目实战》，在书里已经将大部分的论文转化成中文描述，并配合实际的代码案例了。因为知识比较多，所以也很厚！

（点击封面了解本书详情）

本书主要由李金洪编写，出自代码医生工作室。同时该工作室也为读者提供免费的技术问答。只要你肯学！有问必有答！

推荐理由：

涵盖数值、语音、语义、图像等多个领域96个有较高应用价值的深度学习案例
赠送12套同步配套教学视频 + 113套源代码文件（带配套样本）
内容全面，应用性强，从有监督学习到半监督学习，从简单的数据分类到语音、语言和图像分类乃至样本生成等一系列前沿技术，均有介绍
语言通俗易懂，拒绝生僻的术语，拒绝生僻的公式符号，落地性强
穿插了几十个需要读者注意的知识要点和难点，分享作者积累的宝贵经验

本书特点：

书中案例：

书中一共75个案例

如果想快速掌握这些，读书！确实是一个捷径！努力吧！热血青年。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：西北望msm66g9f > 《培训》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

西北望msm66g9f

关注对话

TA的最新馆藏

基于std::format的类型安全格式化扩展机制详解与实践指南
数学计算与作图软件大全
让数学和科学变简单，这7个网站简直开挂了！
自然语言、图形语言与数学语言之间的关系与转化
让计算机理解人类语言：词向量的构建与应用
詹姆斯·克拉克·麦克斯韦（James Clerk Maxwell）简介及麦克斯韦方程的原理及在PCB设计方面的应用

喜欢该文的人也喜欢更多

热门阅读换一换