【原】【知识星球】视频分析/光流估计网络系列上线

有三AI 2020-11-27

展开全文

欢迎大家来到《知识星球》专栏，这两天有三AI知识星球会更新一些光流估计相关的网络介绍，在视频分析等任务中，光流有着举足轻重的地位。

作者&编辑 | 言有三

有三AI知识星球-网络结构1000变

FlowNet 2.0

FlowNet是首个使用CNN来预测光流的网络，其效果还是不如最好的传统算法，FlowNet 2.0则是该算法的进阶版，只增加了少量的计算量，有更平滑的预测结果，更精细的细节，取得了与最好的传统算法持平的结果。

作者/编辑言有三

网络结构如上，可以看出这是一个级联的形式，第一个网络是FlowNetC网络，它的输出就是光流，然后作为下一个网络FlowNetS的输入。

FlowNetS的输入还包括Image1，Image2，Image2基于预测出来的光流完成的变换，以及Image1和Image2基于预测出来的光流完成的变换的差值，总计5个输入，串接两个这样的FlowNetS模块。

FlowNetC和FlowNetS的具体结构大家可以看上一期FlowNetS的介绍。

最后我们再看一下图中的FlowNet-SD那一块到底是什么。

不管是Chairs还是Things3D，其中的运动幅度都是比较大的，而真实数据的运动位移很小，这就导致训练出来的模型在真实数据集上表现差，细不精度低，如下图左图。

FlowNet-SD就是用于改进这一点的，它使用更小的卷积核和步长，具体配置如下：

除了结构上的不同，FlowNet2.0与FlowNet在数据的使用上也不同，增加了3D的训练数据集FlyingThings3D，可以看成是之前使用的Chairs的3D版，但是包含了真实的3D运动和光照变换。

如何和原来的2D数据集一起使用是个大问题，文章中测试了4种组合，即单独使用Chairs(22k)、单独使用Things3D(22k)、两者混合(从44k中采样出22k)以及先用Chairs预训练再用Things3D微调的方案。

学习率的调整也用了两种配置，如下：

可知一种学习率下降较快，另一种下降较慢，使用了两步方案，那么结果如何呢

如上，可以知道数据集的使用方法和学习率策略都是有影响的，这就比较需要经验了。如果只使用3D数据集，效果还不如2D数据集，这大概率说明训练太难了。

总的说来，FlowNet2的网络结构非常复杂，一点都不优雅。

以下是现实场景的光流预测结果，可以看出FlowNet2的结果非常的优秀，在精度和计算量上相比其他方法有明显优势。

[1] Ilg E, Mayer N, Saikia T, et al. Flownet 2.0: Evolution of optical flow estimation with deep networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2462-2470.

更多模型解读和数据集

加入有三AI知识星球即可获取

每日更新网络架构解读

已经超过3万字的内容

每日更新数据集

大量干货供你下载

转载文章请后台联系

侵权必究

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：有三AI > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章

有三AI

关注对话

TA的最新馆藏

【通知】2024年有三AI知识星球重新开放！重点新增大模型内容每日更新
【一对一小组】2024年有三AI-CV中阶-GAN组发布，如何循序渐进地学习好生成对抗网络原理与应用
【百家稷学】大语言模型核心算法原理与综合实践（北京信息科技大学实训）
【技术综述】深度学习模型结构复杂、参数众多，如何更直观地深入理解你的模型？
【百家稷学】人工智能基础理论与实践（广西电力职业学院暑期实训）
【培训】第二届深圳AI视觉项目研发与部署免费线下公开课启动！2023年9月底与我们相约，开启AI视觉之旅！

喜欢该文的人也喜欢更多

热门阅读换一换