CNN+RNN

文章目录

    • 相同点
    • 不同点
    • 组合意义
    • 组合方式
    • 图片标注
    • 基本思路
    • 模型设计-数据准备
    • 视频行为识别
    • 视频行为识别
    • 图片问答

相同点

传统神经网络的扩展
前向计算产生结果,反向计算模型更新
每层神经网络横向可以多个神经元共存,纵向可以多层神经网络链接

不同点

CNN空间扩展,神经元与特征卷积,RNN时间扩展,神经元与多个时间输出计算
RNN可用于描述时间上的连续状态输出,具有记忆功能,CNN静态输出
CNN100+深度 RNN深度有限

组合意义

  1. 大量信息同时具有时间空间特性:视频,图
    文结合,真实的场景对话
  2. 带有图像的对话,文本表达更具体
  3. 视频相对图片描述的内容更完整

组合方式

  1. CNN 特征提取,用于RNN语句生成 图片标注
  2. RNN特征提取用于CNN内容分类 视频分类
  3. CNN特征提取用于对话问答 图片问答
  4. 特征提取:LSTM输出,FC层输出
  5. 特征合并:Concatenate 层;Attention 相乘
  6. 结果输出:连续语句输出 LSTM,组合分
    类回归 DNN

图片标注

问题描述
 拥有大量图片及标注信息,能否通过学习
建立一个能够自动图片标注的模型

基本思路

 目标是产生标注的语句,是一个语句生成
的任务,LSTM?
 描述的对象大量图像信息,图像信息表达,
CNN?
 CNN网络中全连接层特征描述图片,特
征与LSTM输入结合?
在这里插入图片描述
全连接层特征用来描述原图片
LSTM输入:word+图片特征;输出下一word

模型设计-数据准备

  1. 图片CNN特征提取
  2. 图片标注生成Word2Vect 向量
  3. 生成训练数据:图片特征+第n单词向量:
    第n+1单词向量
    在这里插入图片描述

视频行为识别

在这里插入图片描述1. CNN 特征提取
2. LSTM融合
3. Linear regr+Softmax分类
4. 1. 并不是所有的视频图像包含确定分类信息
5. RNN用于确定哪些frame是有用的
6. 对有用的图像特征融合

视频行为识别

RNN用于,目标检测

  1. CNN直接产生目标候选区
  2. LSTM对产生候选区融合(相邻时刻位置近
    似)
  3. 确定最终的精确位置
  4. 多种模型综合
     竞赛/应用中,为了产生最好结果,多采用
    多模型ensemble形式

图片问答

在这里插入图片描述
方法流程
依旧按照语言问答流程解决
图片特征同语言
特征融合
训练数据:问题+图片-答案
2. 模型设计-纯文字问答系统

  1. 背景故事
    特征生成
    (word embedding)
  2. 问题特征生成
  3. 背景,问题特征融合
  4. 标准答案回归 用以训练的数据:真值是什么? 融合特征:答案在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/467707.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jsr 正则验证_Java数据校验(Bean Validation / JSR303)

#简介JSR303是JAVA EE6中的子规范。用于对Java Bean的字段值进行校验,确保输入进来的数据在语义上是正确的,使验证逻辑从业务代码中脱离出来。JSR303是运行时数据验证框架,验证之后验证的错误信息会马上返回。有两个版本JSR303(BeanValidatio…

css 透明度使用

设置元素整体透明度: div{opacity: 0.5; } 设置背景色透明度 div{background: rgba(0,0,0,0.5); } 转载于:https://www.cnblogs.com/chenglj/p/7498107.html

深入理解Linux内核链表

之前写过的链表文章,再结合这篇,我觉得是一道硬菜。Linux内核链表C语言,链表大家五一节日快乐,我知道劳动节大家都辛苦了,吃点硬菜好顶住饿肚子~#一、 链表数据结构简介链表是一种常用的组织有序数据的数据结构&#x…

GAN

文章目录生成对抗网络(GAN)基础生成对抗网络 优点:缺点:生成对抗网络深度GANDCGAN结构细节特征研究DCGAN总结条件GAN模型结构INFOGANInfoGAN: 自动学习z中部分变量意义Wasserstein GANGAN存在问题原因WGAN特点改进方法:生成对抗网络(GAN)基础…

sql 查询统计最近7天,30天,1年的数据

统计最近7天每天的数据 第一个查询统计了最近7天内,每天创建的’WAIT_SEND’状态的订单数量。这是通过将当前日期向前推移6天(DATE_SUB(CURDATE(), INTERVAL 6 DAY))实现的。然后,它会按照创建日期对结果进行分组(GROU…

1200可以读取modbus tcp_S7-1200 作 MODBUS TCP服务器

S7-1200 Modbus TCP 通信指令块STEP 7 V13 SP1 软件版本中的Modbus TCP库指令目前最新的版本已升至V4.0,该版本的使用需要具备以下两个条件:1. 软件版本: STEP 7 V13 SP1及其以上2. 固件版本: S7-1200 CPU 的固件版本V4.1图1. Mod…

判断对象oStringObject是否为String

1.操作符 (1)typeof操作符 格式:resulttypeof variable 返回值: undefined 值未定义 boolean 布尔值 string 字符串 number 数值 object 对象、null function 函数 (2)instanceof操作符 格式:re…

Linux一定需要文件系统吗?

开篇题外话:对于Linux初学者来说,这是一个很纠结的问题,但这也是一个很关键的问题! 一语破天机:“尽管内核是 Linux 的核心,但文件却是用户与操作系统交互所采用的主要工具。这对 Linux 来说尤其如…

迁移学习

文章目录为什么需要迁移学习模型Fine-‐tune![在这里插入图片描述](https://img-blog.csdnimg.cn/20200612000845217.png)保守训练层迁移Multitask Learning渐进式神经网络/Progressive Neural Networks域对抗零样本学习Self-‐taught learning为什么需要迁移学习 使用深度学习…

RNA-Seq分析软件HTSeq的安装

1.本人刚开始安装的时候,先下载相关的软件包,然后安装installtion中的方法安装, 运行的时候老是报错。根据错误提示安装解决方法。也参考了其他的笔友的一些建议, 发现特别麻烦,后来无意中发现有小伙伴用bioconda来安装…

怎么撤回操作_微信又更新,拍一拍能撤回了

微信拍一拍功能在 6 月份刚上线时,「微信之父」张小龙就发朋友圈表示,微信史上仅需一行代码的有趣功能终于来了,拍一拍,像蚂蚁一样打招呼。拍一拍功能将大家在现实世界的肢体交流带到了虚拟世界,相信大家都有儿时和三俩…

吹牛

起了一个不太雅观的标题,我很想给我们的会晤起一个响亮的名字,比如「三方会谈」或者「新一代5.4事件」,再或者牛逼点的,我们可以叫「西乡起义」。好吧,我摊牌了,这次吃饭就是三个屌丝和一个大佬的闲暇吹牛&…

迁移学习实战

文章目录预处理网络模型的构建网络的训练网络模型的验证预处理 from __future__ import absolute_import from __future__ import division from __future__ import print_functionimport tensorflow as tffrom tensorflow.python.ops import control_flow_opsdef apply_with_…

Spring MVC-视图解析器(View Resolverr)-内部资源视图解析器(Internal Resource View Resolver)示例(转载实践)...

以下内容翻译自:https://www.tutorialspoint.com/springmvc/springmvc_internalresourceviewresolver.htm 说明:示例基于Spring MVC 4.1.6。 InternalResourceViewResolver用于将提供的URI解析为实际的URI。以下示例显示如何使用Spring Web MVC框架使用I…

手机是怎么确定位置信息的?

#手机是怎么定位的?定位是一个老生常谈的话题,最近几年还在讨论一个热点技术话题「室内定位」,从我知道这个技术到现在已经过了好几年了,也出现了一些室内定位的方案,而我们的手机是如何进行定位的,又有哪些…

tablestore列式存储原理_10分钟搞透:技术人必会的MySQL体系结构与存储引擎!

MySQL是目前使用最广的开源数据库,不管从装机量、使用人群、专职人员、社区发展,还是基于MySQL的其他分支,都是当之无愧的No.1。 本文将从以下4个方面,带你搞透MySQL体系结构与存储引擎。主要包括:1、MySQL数据库的体系…

使用Adobe Audition生成基本音频

#首先打开软件 #新建一个音频 #在效果菜单栏插入基本音频

viewpager 跳转到指定页面

viewPager.setCurrentItem(getUserIndex(userId)); seCurrentItem是定位到指定页面参数是position转载于:https://www.cnblogs.com/wmxl/p/7500647.html

vue里实现同步执行方法_vue中的watch方法 实时同步存储数据

RFID基础知识 BS:BinarySearch. TSA:TimeSlottedAloha. BSA:基本二进制搜索算法. DBSA:动态二进制搜索算法. RBSA:后退式二进制搜索算法. FSA:Frame Slo ... WampServer修改MySQL密码 WampServer安装后密码是空的,需要设置一下 一般有两种方式: 一是通过phpMyAdmin直接修改: 二…

更多网络类型

文章目录丰富网络类型CPPN孪生网络Triplet Network应用Variational Auto-encoder强化学习Markov decision processesBellman公式丰富网络类型 深度学习除了经典卷积神经网络,循环神经网络还有广泛的网络类型 CPPN 网络输入是像素坐标值(x,…