文章目录
- 相同点
- 不同点
- 组合意义
- 组合方式
- 图片标注
- 基本思路
- 模型设计-数据准备
- 视频行为识别
- 视频行为识别
- 图片问答
相同点
传统神经网络的扩展
前向计算产生结果,反向计算模型更新
每层神经网络横向可以多个神经元共存,纵向可以多层神经网络链接
不同点
CNN空间扩展,神经元与特征卷积,RNN时间扩展,神经元与多个时间输出计算
RNN可用于描述时间上的连续状态输出,具有记忆功能,CNN静态输出
CNN100+深度 RNN深度有限
组合意义
- 大量信息同时具有时间空间特性:视频,图
文结合,真实的场景对话 - 带有图像的对话,文本表达更具体
- 视频相对图片描述的内容更完整
组合方式
- CNN 特征提取,用于RNN语句生成 图片标注
- RNN特征提取用于CNN内容分类 视频分类
- CNN特征提取用于对话问答 图片问答
- 特征提取:LSTM输出,FC层输出
- 特征合并:Concatenate 层;Attention 相乘
- 结果输出:连续语句输出 LSTM,组合分
类回归 DNN
图片标注
问题描述
拥有大量图片及标注信息,能否通过学习
建立一个能够自动图片标注的模型
基本思路
目标是产生标注的语句,是一个语句生成
的任务,LSTM?
描述的对象大量图像信息,图像信息表达,
CNN?
CNN网络中全连接层特征描述图片,特
征与LSTM输入结合?
全连接层特征用来描述原图片
LSTM输入:word+图片特征;输出下一word
模型设计-数据准备
- 图片CNN特征提取
- 图片标注生成Word2Vect 向量
- 生成训练数据:图片特征+第n单词向量:
第n+1单词向量
视频行为识别
1. CNN 特征提取
2. LSTM融合
3. Linear regr+Softmax分类
4. 1. 并不是所有的视频图像包含确定分类信息
5. RNN用于确定哪些frame是有用的
6. 对有用的图像特征融合
视频行为识别
RNN用于,目标检测
- CNN直接产生目标候选区
- LSTM对产生候选区融合(相邻时刻位置近
似) - 确定最终的精确位置
- 多种模型综合
竞赛/应用中,为了产生最好结果,多采用
多模型ensemble形式
图片问答
方法流程
依旧按照语言问答流程解决
图片特征同语言
特征融合
训练数据:问题+图片-答案
2. 模型设计-纯文字问答系统
- 背景故事
特征生成
(word embedding) - 问题特征生成
- 背景,问题特征融合
- 标准答案回归 用以训练的数据:真值是什么? 融合特征:答案