(论文阅读46-50)图像描述2

46.文献阅读笔记

简介

题目

Learning a Recurrent Visual Representation for Image Caption Generation

作者

Xinlei Chen, C. Lawrence Zitnick, arXiv:1411.5654.

原文链接

http://www.cs.cmu.edu/~xinleic/papers/cvpr15_rnn.pdf

关键词

2014年rnn图像特征和文本特征相互描述

研究问题

图像和基于句子的描述之间的双向映射。

句子生成、句子检索和图像检索。

目标:

能够根据一组视觉观察结果或特征生成句子,根据之前生成的单词集 Wt-1 = w1, ... , wt-1 和观察到的视觉特征 V,计算出单词 wt 在 t 时刻生成的概率。

其次,希望在一组口语或阅读单词 Wt 的情况下,能够计算视觉特征 V 的可能性,从而生成场景的视觉表征或执行图像搜索。

研究方法

提出使用循环神经网络来学习这个映射。与以前的方法将句子和图像映射到一个共同的嵌入不同,我们允许在给定图像的情况下生成新的句子。使用相同的模型,我们也可以在给定图像的视觉描述的情况下,重建与图像相关的视觉特征。

使用一种新颖的循环视觉记忆,自动学习记忆长期的视觉概念,以帮助句子生成和视觉特征重建。

Rnn:从句子中生成图像特征,从图像特征中生成句子

研究结论

学习长期的交互、反复出现的视觉记忆来学习重建视觉特征

创新不足

None

额外知识

None

47.文献阅读笔记

简介

题目

From Captions to Visual Concepts and Back

作者

Hao Fang, Saurabh Gupta, Forrest Iandola, Rupesh Srivastava, Li Deng, Piotr Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, Geoffrey Zweig, CVPR, 2015.

原文链接

http://arxiv.org/pdf/1411.4952

关键词

自动生成图像描述

研究问题

学习图像描述生成新的图像描述

研究方法

直接从图像标题数据集中学习视觉检测器、语言模型和多模态相似性模型。

该系统在图像和对应的字幕上进行训练,并学习从图像中的区域中提取名词、动词和形容词。这些检测到的单词然后指导一个语言模型生成阅读良好并包含检测到的单词的文本。最后,我们使用本文引入的全局深度多模态相似性模型对候选字幕进行重排序。

CNN AlexNet 或 VGG CNN

DMSM学习两个神经网络,将图像和文本片段映射到一个共同的向量表示。我们通过度量图像和文本对应向量之间的余弦相似度来度量图像和文本之间的相似度。

研究结论

比人类书写快

创新不足

很难评

额外知识

image captions:图像描述

48.文献阅读笔记

简介

题目

Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention

作者

Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, Yoshua Bengio, arXiv:1502.03044 / ICML 2015

原文链接

http://www.cs.toronto.edu/~zemel/documents/captionAttn.pdf

关键词

图像描述

研究问题

描述了如何使用标准的反向传播技术以确定性的方式训练这个模型,并通过最大化一个变分下界来随机地训练这个模型。我们还通过可视化展示了模型如何能够在输出序列中生成相应的单词的同时,自动学习将目光固定在显著对象上。

研究方法

Cnn+lstm+注意力机制

引入了一个基于注意力的模型,该模型自动学习描述图像的内容。

注意力:

“软”“硬”注意力结合。

研究结论

提出的注意力框架并不明确使用对象检测器,而是从头开始学习潜在排列。模型能够超越 "对象性",学习关注抽象概念。

利用学习到的注意力来赋予模型生成过程更多的可解释性,并证明了学习到的对齐非常符合人类的直觉。

创新不足

额外知识

Caption:说明文字

注意力:注意力不是将整个图像压缩成静态的表征,而是让突出的特征在需要时动态地凸显出来。当图像中存在大量杂波时,这一点尤为重要。使用表征(如来自卷积网络顶层的表征)将图像中的信息提炼为最突出的对象,是一种有效的解决方案。这种方法有一个潜在的缺点,那就是会丢失一些信息,而这些信息对于更丰富、描述性更强的字幕可能是有用的。使用更低级的表示法有助于保留这些信息。然而,使用这些特征需要一个强大的机制来引导模型获取对当前任务非常重要的信息。

Attention Mechanism:注意力机制

而在注意力机制中,每个神经元的输出不仅仅取决于前一层的所有神经元的输出,还可以根据输入数据的不同部分进行加权,即对不同部分赋予不同的权重。这样可以使模型更加关注输入序列中的关键信息,从而提高模型的精度和效率。

【深度学习】注意力机制_高效注意力机制-CSDN博客

【深度学习】(1) CNN中的注意力机制(SE、ECA、CBAM),附Pytorch完整代码_se注意力机制_立Sir的博客-CSDN博客

49.文献阅读笔记(基于短语而不是单词)

简介

题目

Phrase-based Image Captioning

作者

Remi Lebret, Pedro O. Pinheiro, Ronan Collobert, arXiv:1502.03671 / ICML 2015

原文链接

http://arxiv.org/pdf/1502.03671

关键词

生成图像的新颖文本描述

研究问题

在给定样本图像的情况下生成描述性句子,对描述的语法有很强的专注性

研究方法

提出了一个简单的模型,能够从图像样本中推断不同的短语。从预测的短语来看,模型能够使用统计语言模型自动生成句子。

CNN获得图像特征。

短语初始化:词向量表示:通过利用这些词向量表示通过简单求和组成的能力,短语的表示可以很容易地通过元素加法来计算。

短语构成句子:在识别出图像 中最有可能的 L 个成分短语之后,从这些成分中生成句子。使用统计语言框架,给定一个句子的可能性。

对句子解码:剪枝,短语只出现一次,句法限制。

对生成的句子进行排序,以选择与图像最匹配的句子。

研究结论

在不使用复杂的循环网络的情况下,句子生成问题可以有效地实现。我们的算法,尽管比最先进的模型更简单,但在这项任务上取得了类似的结果。此外,我们的模型生成了训练集中通常不存在的新句子。

创新不足

未来的研究方向将朝着利用无监督数据和更复杂的语言模型的方向发展

额外知识

None

50.文献阅读笔记(泛化)

简介

题目

Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images

作者

Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan L. Yuille, arXiv:1504.06692

原文链接

http://arxiv.org/pdf/1504.06692

关键词

从少量示例中学习物体新类别的问题(有时没有足够的数据来识别新概念,因此需要从以前学习过的类别中转移知识)不希望每次添加一些带有新概念的图像时都要重新训练整个模型,尤其是在数据量或模型参数非常大的情况下。

研究问题

从一些带有句子描述的图像中学习新颖的视觉概念,并且与其他概念的相互作用的任务。

识别、学习和使用新概念是人类最重要的认知功能之一。很小的时候,我们通过观察视觉世界和听父母的句子描述来学习新概念。这个过程一开始是缓慢的,但是当我们积累了足够多的已学过的概念之后,这个过程就会变得更快。

图1:句子新颖视觉概念学习( NVCS )任务示意图。我们从不包含"魁地奇"概念的图像训练的模型(即模型库)开始( 1 )。使用一些带有句子描述的"魁地奇"图像,我们的方法能够学习到"魁地奇"是由人用球打的。

研究方法

提出了一种方法,允许模型使用少量示例扩充其单词字典,以描述新概念,而无需大量的再训练。特别是,不需要在所有数据(所有以前学习过的概念和新概念)上从头开始重新训练模型。

 基础模型:m-RNN

首先,提出了转置权重共享策略,大大减少了模型中的参数数量。其次,我们用长短时记忆(LSTM)层取代了中的递归层。LSTM 是一种递归神经网络,专门用于解决梯度爆炸和消失问题。

该模型由三个部分组成:语言部分、视觉部分和多模态部分。

语言组件包含两个单词嵌入层和一个 LSTM 层。它将词典中的单词索引映射到语义密集的单词嵌入空间,并将单词上下文信息存储在 LSTM 层中。

视觉组件包含一个在 ImageNet 分类任务中预先训练过的 16 层深度卷积神经网络(CNN)。我们移除了深度卷积神经网络的最后一层 SoftMax,并将顶部的全连接层(4096 维层)连接到我们的模型。这 4096 维层的激活可视为图像特征,其中包含丰富的物体和场景视觉属性。

多模态组件包含一个单层表征,其中语言部分和视觉部分的信息融合在一起。我们在多模态层之后建立了一个 SoftMax 层,用于预测下一个单词的索引。

句子中单词的子模型共享权重。与 m-RNN 模型一样,我们在每个训练句中添加了开始符号 wstart 和结束符号 wend。

在图像描述的测试阶段,我们将起始符号 wstart 输入模型,并根据 SoftMax 层选出 K 个概率最大的最佳词语。重复这一过程,直到模型生成结束符号 wend。

研究结论

提出了新颖视觉概念学习( Novel Visual Concept Learning from Sentences,NVCS )任务。在该任务中,方法需要从少量图像的句子描述中学习新颖的概念。我们描述了一种方法,它允许我们在少量包含新概念的图像上训练我们的模型。这与从头开始重新训练的模型在所有数据上的表现相当,如果新颖概念图的数量很大,并且在只有少数新颖概念的训练图像可用时表现更好。

创新不足

额外知识

Zero-shot and one-shot learning:

Zero-shot learning:【精选】Zero Shot | 一文了解零样本学习-CSDN博客

one-shot learningOne-Shot学习/一次学习(One-shot learning)-CSDN博客

Zero-Shot, One-Shot, and Few-Shot Learning概念介绍-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/159143.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

验证码 | 可视化一键管控各场景下的风险数据

目录 查看今日验证数据 查看未来趋势数据 验证码作为人机交互界面经常出现的关键要素,是身份核验、防范风险、数据反爬的重要组成部分,广泛应用网站、App上,在注册、登录、交易、交互等各类场景中发挥着巨大作用,具有真人识别、身…

Leo赠书活动-10期 【AIGC重塑教育 AI大模型驱动的教育变革与实践】文末送书

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: 赠书活动专栏 ✨特色专栏:…

新手做抖店,这6点建议一定要收好,能让你不亏钱!

我是电商珠珠 我呢,目前身居郑州。 电商这个行业也做了5年多了,抖店从20年开始做,到现在也已经快3年了。 其实,我做抖店期间呢,踩过很多坑,所以今天就把我所踩过的坑,给做抖店的新手总结了6点…

QT mysql 数据库线程池 与数据库操作封装

最近事情比较多很久没有写学习笔记了,数据库线程池, 数据库封装,虽说数据库操作有很多不需要写sql 的,ORM 封装的方式去操作数据库。但是从业这些年一直是自己动手写sql ,还是改不了这个习惯。不说了直接上代码。 数据…

【23真题】劝退211!今年突变3门课!

今天分享的是23年云南大学847(原827)的考研试题及解析。同时考SSDSP的院校做一个少一个,珍惜!同时考三门课的院校,复习压力极大,但是也会帮大家劝退很多人,有利有弊,请自行分析~ 本…

YOLOv5 环境搭建

YOLOv5 环境搭建 flyfish 环境 Ubuntu20.04 驱动、CUDA Toolkit、cuDNN、PyTorch版本对应 1 NVIDIA驱动安装 在[附加驱动界]面安装驱动时,需要输入安全密码,需要记下,后面还需要输入这个密码 重启之后有的机器会出现 perform mok manage…

Android修行手册-溢出父布局的按钮实现点击

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分…

【EI会议征稿】第五届人工智能、网络与信息技术国际学术会议(AINIT 2024)

第五届人工智能、网络与信息技术国际学术会议(AINIT 2024) 2024 5th International Seminar on Artificial Intelligence, Networking and Information Technology 第五届人工智能、网络与信息技术国际学术会议(AINIT 2024)将于…

变态跳台阶,剑指offer

目录 题目: 我们直接看题解吧: 相似题目: 解题方法: 审题目事例提示: 解题思路: 代码实现: 题目地址: 【剑指Offer】9、变态跳台阶 难度:简单 今天刷变态跳台阶&#xf…

sd-webui-controlnet代码分析

controlnet前向代码解析_Kun Li的博客-CSDN博客文章浏览阅读1.5k次。要分析下controlnet的yaml文件,在params中分成了4个部分,分别是control_stage_config、unnet_config、first_stage_config、cond_stage_config。其中control_stage_config对应的是13层…

Maven依赖管理项目构建工具(保姆级教学---下篇)

对于Maven依赖管理项目构建工具的介绍,我们将其分为上篇和下篇。如果您对文章感兴趣,您可以在此链接中找到上篇详细内容: Maven依赖管理项目构建工具(保姆级教学上篇)-CSDN博客 一、Maven依赖传递和依赖冲突 1. …

left join查询耗时太慢,添加索引解决问题

背景 因为最近自己用的小app越用感觉加载越慢,以为是自己app开发逻辑出现问题了,结果才发现是自己很早以前的代码用到的是left join多表联查,以前因为数据少,所以没有感觉,现在数据量稍微一大,耗时就非常严…

珠宝饰品配送经营小程序商城作用如何

饰品有较强的价值/品牌之分,贵的上万元,便宜的几毛钱,适应不同消费群体和需求,对于珠宝类商家及小饰品商家来说,市场中都有着海量用户。 相较于以前等客上门,用户们的消费方式只有同城,如今互联…

psutil - Python中用于进程和系统监控的跨平台库

1、简介 psutil(进程和系统实用程序)是一个跨平台库,用于检索 Python 中运行的进程和系统利用率(CPU、内存、磁盘、网络、传感器)的信息。 它主要用于系统监控、分析和限制进程资源以及管理正在运行的进程。 它实现…

我们对凌鲨的一次重构

在10月我们对凌鲨进行了一次重构,把所有鸡肋的功能都删除了。 新版本界面 老版本界面 我们干掉的功能 移除沟通频道功能 沟通频道类似slack功能,用于团队沟通。由于国内有大量的沟通软件,比如企业微信,飞书,钉钉等。…

材料电磁参数综合测试解决方案-材料电磁参数测试系统 (100MHz-500GHz)

材料电磁参数测试系统 100MHz-500GHz 材料电磁参数测试系统测试频率范围覆盖100MHz~500GHz,可实现材料复介电常数、复磁导率等参数测试。系统由矢量网络分析仪、测试夹具、系统软件等组成,根据用户不同频率、材料类型的测试需求&#xff…

Doris数据模型的选择建议(十三)

Doris 的数据模型主要分为 3 类:Aggregate、Uniq、Duplicate Aggregate: Doris 数据模型-Aggregate 模型 Uniq:Doris 数据模型-Uniq 模型 Duplicate:Doris 数据模型-Duplicate 模型 因为数据模型在建表时就已经确定,且无法修改…

三十分钟学会Linux的基本操作

GNU/Linux GNU项目是由Richard Stallman发起的自由软件运动,旨在创建一个完全自由的操作系统。虽然GNU项目已经开发了大量的系统组件和工具,但它一直缺少一个完整的操作系统内核。在这时Linus Torvalds开发了Linux内核,并将其发布为自由软件…

安卓:Android Studio4.0~2023中正确的打开Android Device Monitor

Android Studio4.0~2023 中如何正确的打开Android Device Monitor(亲测有效) 前些天买了新电脑,安装了新版本的Android Studio4.0想试一试,结果就出现了一些问题。 问题引出: Android Device Monitor在工具栏中找不到,后来上网查…

Linux通过端口号找到对应的服务及其安装位置

Linux服务器中,通过端口号找到对应的服务及其安装位置,需要两步操作,如下: 第一步:根据端口号,确定对应的进程号(以redis服务为例) netstat -antup|grep 6379第二步:通…