深度学习在CV领域的进展以及一些由深度学习演变的新技术

AI科技馆 2018-07-31

展开全文

1.进展：如上图所述，当前CV领域主要包括两个大的方向，”低层次的感知” 和 “高层次的认知”。
2.主要的应用领域：视频监控、人脸识别、医学图像分析、自动驾驶、机器人、AR、VR
3.主要的技术：分类、目标检测（识别)、分割、目标追踪、边缘检测、姿势评估、理解CNN、超分辨率重建、序列学习、特征检测与匹配、图像标定，视频标定、问答系统、图片生成（文本生成图像）、视觉关注性和显著性（质量评价）、人脸识别、3D重建、推荐系统、细粒度图像分析、图像压缩
分类主要需要解决的问题是“我是谁？”
目标检测主要需要解决的问题是“我是谁？我在哪里？”
分割主要需要解决的问题是“我是谁？我在哪里？你是否能够正确分割我？”
目标追踪主要需要解决的问题是“你能不能跟上我的步伐，尽快找到我？”
边缘检测主要需要解决的问题是：“如何准确的检测到目标的边缘？”
人体姿势评估主要需要解决的问题是：“你需要通过我的姿势判断我在干什么？”
理解CNN主要需要解决的问题是：“从理论上深层次的去理解CNN的原理？”
超分辨率重建主要需要解决的问题是：“你如何从低质量图片获得高质量的图片？”
序列学习主要解决的问题是“你知道我的下一幅图像或者下一帧视频是什么吗？”
特征检测与匹配主要需要解决的问题是“检测图像的特征，判断相似程度？”
图像标定主要需要解决的问题是“你能说出图像中有什么东西？他们在干什么呢？”
视频标定主要需要解决的问题是“你知道我这几帧视频说明了什么吗？”
问答系统主要需要解决的问题是：“你能根据图像正确回答我提问的问题吗？”
图片生成主要需要解决的问题是：“我能通过你给的信息准确的生成对应的图片？”
视觉关注性和显著性主要需要解决的问题是：“如何提出模拟人类视觉注意机制的模型？”
人脸识别主要需要解决的问题是：“机器如何准确的识别出同一个人在不同情况下的脸？”
3D重建主要需要解决的问题是“你能通过我给你的图片生成对应的高质量3D点云吗？”
推荐系统主要需要解决的问题是“你能根据我的输入给出准确的输出吗？”
细粒度图像分析主要需要解决的问题是“你能辨别出我是哪一种狗吗？等这些更精细的任务”
图像压缩主要需要解决的问题是“如何以较少的比特有损或者无损的表示原来的图像？”
注：
1. 以下我主要从CV领域中的各个小的领域入手，总结该领域中一些网络模型，基本上覆盖到了各个领域，力求完整的收集各种经典的模型，顺序基本上是按照时间的先后，一般最后是该领域最新提出来的方案，我主要的目的是做一个整理，方便自己和他人的使用，你不再需要去网上收集大把的资料，需要的是仔细分析这些模型，并提出自己新的模型。这里面收集的论文质量都比较高，主要来自于ECCV、ICCV、CVPR、PAM、arxiv、ICLR、ACM等顶尖国际会议。并且为每篇论文都添加了链接。可以大大地节约你的时间。同时，我挑选出论文比较重要的网络模型或者整体架构，可以方便你去进行对比。有一个更好的全局观。具体细节需要你去仔细的阅读论文。由于个人的精力有限，我只能做成这样，希望大家能够理解。谢谢。
2. 我会利用自己的业余时间来更新新的模型，但是由于时间和精力有限，可能并不完整，我希望大家都能贡献的一份力量，如果你发现新的模型，可以联系我，我会及时回复大家，期待着的加入，让我们一起服务大家！