1. CNN+RNN 相同点 不同点 CNN进行空间扩展,神经元与特征卷积;RNN进行时间扩展,神经元与多个时间输出计算; RNN可以用于描述时间上连续状态的输出,有记忆功能;CNN则用于静态输出; CNN高级结构可以达到100+深度;RNN的深度有限。
组合的意义 组合方式 CNN特征提取,用于RNN语句生成->图片标注 RNN特征提取用于CNN内容分类->视频分类 CNN特征提取用于对话问答->图片问答
组合方式实现 2. 图片标注 问题描述 拥有大量图片及其标注信息,能够通过学习建立一个能够自动图片标注的模型? 基本思路 目标是产生标注语句,是一个语句生成的任务,根本上来说是一个RNN的任务,使用LSTM。 描述的对象是大量的图像信息,进行图像信息的表达,使用CNN。 CNN网络中全连接层利用特征进行图片的描述,特征与LSTM输入进行结合。
模型设计 1. 整体结构 2. 特征提取 图片特征:CNN全连接层提取; 语言特征:Word2Vec。
3. 数据准备 4. 模型训练 5. 模型运行 CNN进行特征提取; CNN特征+语句的开头,单词逐个预测;
图片标注升级-详细标注 DenseCap,主要基于Faster R-CNN 3. 视频行为识别 常用方法 CNN特征简单组合 3D版本CNN
RNN+CNN RNN用于CNN特征融合 CNN进行特征提取; LSTM判断; 多次识别结果进行分析。 CNN进行特征提取; LSTM融合; Linear regr + Softmax分类。
RNN用于CNN特征筛选+融合 并不是所有的视频图像包含确定分类信息; RNN用于确定哪些frame是有用的; 对有用的图像特征融合;
RNN用于目标检测
4. 图片/视频问答 给定一张图片,提出图片内容相关问题,问答模型给出答案。 问题的种类 方法流程 按照语言问答路程解决; 图片特征同语言特征融合; 训练数据:问题+图片->答案
模型设计 纯文字问答系统 背景故事生成(word embedding) 问题特征生成; 背景,问题特征融合; 标准答案回归。
图片问答系统 背景故事特征生成-CNN; 问题特征生成; 背景,问题特征融合;
注意力图对图片问答进行帮助; 根据问题产生第一次注意力图; 然后产生最终的注意力图;
|