(论文阅读51-57)图像描述3 53

51.文献阅读笔记(KNN)

简介

题目

Exploring Nearest Neighbor Approaches for Image Captioning

作者

Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, C. Lawrence Zitnick, arXiv:1505.04467

原文链接

http://arxiv.org/pdf/1505.04467.pdf

关键词

KNN、image caption

研究问题

image captioning

研究方法

explore a variety of nearest neighbor baseline approaches for image captioning。

首先查找相似图像,然后复制其标题来生成图像标题的方法

泛化到训练集以外的图像:测量每张测试图像与训练集中图像的相似度。然后,我们就可以检查各种方法在不寻常或更多样化的图像上的表现。

研究结论

更灵活、更受喜爱

创新不足

对于图片描述的评分有一定问题,对机器生成的文字评分更高,但是实际人类生成的文字更受喜爱。

额外知识

GIST

52.文献阅读笔记

简介

题目

Language Models for Image Captioning: The Quirks and What Works

作者

Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta, Li Deng, Xiaodong He, Geoffrey Zweig, Margaret Mitchell, arXiv:1505.01809

原文链接

http://arxiv.org/pdf/1505.01809.pdf

关键词

现有方法性能比较

研究问题

image captioning

研究方法

研究结论

懒得看了

创新不足

额外知识

maximum entropy (ME) language model:最大熵( ME )语言模型

Cnn生成一组候选词,然后使用最大熵( ME )语言模型将这些词排列成一个连贯的句子。

第二种是将卷积神经网络的倒数第二个激活层作为循环神经网络( RNN )的输入,然后生成字幕序列。

BLUE评分:

Multimodal —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型 - Determined22 - 博客园 (cnblogs.com)

53.文献阅读笔记

简介

题目

 What Value Do Explicit High Level Concepts Have in Vision to Language Problems?

作者

Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick, arXiv:1506.01144

原文链接

arXiv:1506.01144

关键词

研究问题

从视觉到语言(V2L)问题的最新进展主要是通过卷积神经网络(CNN)和循环神经网络(RNN)的结合实现的。这种方法并不明确表示高级语义概念,而是寻求从图像特征直接转化为文本。在本文中,我们将研究这种直接方法是否因其避免明确表示高级信息而取得成功。

研究方法

提出了一种将高级概念纳入成功的 CNN-RNN 方法的方法。

我们的视觉属性作为图像内容的高级语义表征,被输入到一个 LSTM 中,该 LSTM 会根据更大的词汇量生成目标句子。

在主要的 CNN-LSTM 框架中引入中间属性预测层的效果。

研究结论

证明这种方法在图像字幕和视觉问题解答方面都比最先进的方法有显著提高。我们还证明,同样的机制可用于引入外部语义信息,并能进一步提高性能。

创新不足

额外知识

CNN 作为图像 "编码器",生成固定长度的向量表示,然后将其输入 "解码器 "RNN 以生成字幕。

54.文献阅读笔记(有点注意力机制的意思)

简介

题目

Learning language through pictures

作者

Grzegorz Chrupala, Akos Kadar, Afra Alishahi,

原文链接

arXiv:1506.03694

关键词

研究问题

研究方法

提出了IMAGINET,一个从耦合的文本和视觉输入中学习基于视觉的语言表示的模型。该模型由两个具有共享词嵌入的门控循环单元网络组成,通过接收场景的文本描述并试图同时预测其视觉表征和句子中的下一个单词来使用多任务目标。

研究结论

它从对视觉场景的描述中获得单个单词的意义表征。而且,它学会了在多词短语的语义解释中有效地使用序列结构。

创新不足

额外知识

55.文献阅读笔记(对注意力机制的理解)

简介

题目

Describing Multimedia Content using Attention-based Encoder-Decoder Networks

作者

Kyunghyun Cho, Aaron Courville, Yoshua Bengio,

原文链接

arXiv:1507.01053

关键词

研究问题

基于注意力的编码器-解码器模型,四个最新应用:机器翻译、图像标题生成、视频描述生成和语音识别

研究方法

研究结论

创新不足

这意味着注意力机制的最终目标是帮助编码器-解码器模型进行多媒体内容描述。然而,这不应被视为注意力机制唯一可能的应用。注意力机制除了能带来卓越的性能外,还能用于提取两种完全不同的模式之间的底层映射,而无需对映射进行明确的监督。基于注意力的模型能够以一种无监督的方式推断出不同模态(多媒体及其文本描述)之间的对齐方式,在没有太多先验知识/领域知识的情况下,这种基于注意力的模型完全可以用来从一对模态中提取这些潜在的、往往是复杂的映射。

额外知识

56.文献阅读笔记

简介

题目

Image Representations and New Domains in Neural Image Captioning

作者

Jack Hessel, Nicolas Savva, Michael J. Wilber,

原文链接

arXiv:1508.02091

关键词

研究问题

即使在图像表示质量很差的情况下,最先进的神经描述算法也能够产生高质量的描述。我们将这一结果复制到一个新的、细粒度的、迁移学习的字幕域中

研究方法

研究结论

展示了 CNN 分类准确性与最先进的神经字幕算法生成的字幕质量之间的关系。训练越来越精确的图像分类器在达到一定程度后并不会带来更好的字幕。字幕质量的这种早期饱和现象表明,神经字幕生成算法的性能很可能无法通过生成更精确的 CNN 而直接提高。

此外,NIC 等模型输出的许多明显具有高度特异性的生成字幕很可能是由于语言模型捕获了粗粒度信息并生成了相应的可信自然语言序列。

图像特征过度拟合的作用很难量化。

一方面,图像表征中包含了额外的信息,而 NIC 等模型并没有利用这些信息,甚至通常会过度拟合图像表征。但是,目前还不清楚这些额外的、细粒度的信息是否值得考虑。基于离散图像表征生成语言的模型(例如(Young 等人,2014 年))所取得的成功表明,不考虑丰富的实值向量特征,算法也能达到最先进的性能。这些类型的模型很可能也不容易过度拟合。

创新不足

额外知识

57.文献阅读笔记(RCCA)(图像查询)

简介

题目

Learning Query and Image Similarities with Ranking Canonical Correlation Analysis

作者

Ting Yao, Tao Mei, and Chong-Wah Ngo, ICCV, 2015

原文链接

关键词

研究问题

图像搜索的基本问题之一是学习排名函数,即查询和图像之间的相似性。关于这一主题的研究已经发展出两种范式:基于特征的向量模型和图像排序器学习。前者依赖于图像周围的文本,而后者则根据人类标记的查询-图像对学习排序器。

研究方法

向量模型对文本描述的质量很敏感,而学习范式则很难扩展,因为获得人工标注总是过于昂贵。我们在本文中证明,通过共同探索子空间学习和使用点击数据,可以很好地缓解上述两个局限性。具体来说,我们提出了一种用于学习查询和图像相似性的新颖的排序典型相关分析法(RCCA)。

RCCA 最初通过最大化查询和图像视图之间的相关性来找到它们之间的共同子空间,并进一步同时学习双线性查询图像相似性函数和调整子空间以保留点击数据中隐含的偏好关系。一旦子空间最终确定,查询-图像相似度就可以通过双线性相似度函数计算出它们在该子空间中的映射关系。

研究结论

创新不足

额外知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/159009.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用无代码系统搭建软件平台?有哪些开源无代码开发平台?

无代码是什么 无代码开发,也称为零代码(Zero Code)开发,是一种技术概念。无代码开发无需代码基础,适合业务人员、IT开发及其他各类人员使用。他们通过无代码开发平台快速构建应用,并适应各种需求变化&#…

深入理解Java虚拟机-GC

深入理解Java虚拟机-GC 当需要排查各种内存溢出、内存泄漏时,当垃圾回收成为系统到达更高并发量的瓶颈时,我们必须对内存动态分配和内存回收技术这样的“自动化”技术采用必要的监控和调节。 Java堆和方法区:一个接口的多个实现类需要的内存…

element表格头部加入图标

首先看看效果 下面是代码 <el-table-column prop"integralBalance"><template slot"header" slot-scope"scope"><div style"display: flex;justify-content: center;align-items: center;">积分余额<i class&qu…

创建 Springboot 项目

前言 创建 Spring Boot 项目是很多Java开发人员入门的重要一步&#xff01; 欢迎来到本篇关于创建 Spring Boot 项目的博客&#xff01;Spring Boot作为一个快速、便捷的开发框架&#xff0c;为我们提供了简化和加速应用程序开发的利器。 在这个数字化时代&#xff0c;快速响…

C语言从入门到实战——数组和指针的强化练习题

数组和指针的强化练习题 前言1. sizeof和strlen的对比1.1 sizeof1.2 strlen1.3 sizeof和strlen的对⽐ 2. 数组和指针笔试题解析2.1 一维数组2.2 字符数组2.3 二维数组 3. 指针运算笔试题解析3.1 题目1&#xff1a;3.2 题目23.3 题目33.4 题目43.5 题目53.6 题目63.7 题目7 前言…

rabbit MQ的延迟队列处理模型示例(基于SpringBoot死信模式)

说明&#xff1a; 生产者P 往交换机X&#xff08;typedirect&#xff09;会发送两种消息&#xff1a;一、routingKeyXA的消息&#xff08;消息存活周期10s&#xff09;&#xff0c;被队列QA队列绑定入列&#xff1b;一、routingKeyXB的消息&#xff08;消息存活周期40s&#xf…

迪文科技工业串口屏(DMG10600C070-03WTC)更新程序烧录刷机

迪文科技工业串口屏(DMG10600C070-03WTC)更新程序烧录刷机 问题 使用SD卡上电烧录&#xff0c;SD卡文件路径如下&#xff1a; 烧录时&#xff0c;无法写入&#xff0c;成功烧录文件数为0 解决方法 格式化读卡器 格式化脚本 echo off %1 %2 ver|find "5.">…

【Redis篇】简述Redis | 详解Redis命令

文章目录 &#x1f38d;什么是Redis&#x1f38d;Redis特点&#x1f38d;Redis应用场景&#x1f354;Windows安装Redis⭐启动Redis &#x1f33a;Redis数据类型&#x1f33a;Redis常用命令⭐字符串string操作命令⭐哈希hash操作命令⭐列表list操作命令⭐集合set操作命令⭐有序集…

C++实战学习笔记

文章目录 erase()uniquevector的insert()std::string::npos erase() &#xff08;1&#xff09;erase(pos,n); 删除从pos开始的n个字符&#xff0c;比如erase(0,1)就是删除第一个字符 &#xff08;2&#xff09;erase(position);删除position处的一个字符(position是个string类…

linux下流媒体压力测试工具的使用

前言 因为领导要求做linux的推拉流时服务器压力测试&#xff0c;于是在网上找了找。一顿操作下来&#xff0c;发现很多软件盗用一款名为srs-bench的开源软件。 该代码仓库有详细的使用说明&#xff0c;而且可以在issues中找到可能会遇到的问题的解决办法 需要下载该仓库的源…

RK3568开发板在工控工业物联网网关方面的应用

在数字化转型的浪潮中&#xff0c;工控物联网关产品扮演着重要的角色。这些产品通过连接工业设备和网络&#xff0c;为数据传输和分析提供了便利。而迅为RK3568核心板作为一款高性能的芯片&#xff0c;为工控物联网关产品的性能提升和功能扩展提供了强大的支持。 迅为RK3568核心…

基于JAVA+SpringBoot+VUE+微信小程序的前后端分离咖啡小程序

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 随着社会的快速发展和…

2023年约特干故城夜间演艺《万方乐奏有于阗》完美谢幕

11月19日&#xff0c;记者走进约特干故城看到演员在欢乐地跳着刀郎舞和古典舞&#xff0c;庆祝今年以来夜间演艺《万方乐奏有于阗》演出200场完美谢幕。 11月19日在约特干故城&#xff0c;演员正在表演迎宾乐舞。阿卜力克木依卜拉依木摄 当天晚上&#xff0c;城楼上旌旗猎猎&am…

Java-接口

接口 接口 接口就是公共的行为规范,只要实现时符合标准就可以通用. 接口可以看成是: 多个类的公共规范,是一种引用数据类型. 使用关键字interface实现接口. 接口是不能被实例化的. 接口中的成员变量默认是 public static final 接口中只能有抽象方法,当中的方法不写,也是pu…

C语言中的多线程调用

功能 开启一个线程&#xff0c;不断打印传进去的参数&#xff0c;并且每次打印后自增1 代码 #include<windows.h> #include<pthread.h> #include<stdio.h>void* print(void *a) {int *ic(int*)a;float *fc(float*)(asizeof(int)*2);double *dc(double*)(as…

拆解现货黄金隔夜利息计算公式

在讨论现货黄金投资手续费的时候&#xff0c;隔夜利息是经常被忽略的一个方面&#xff0c;但它是投资者不得不考虑的成本因素&#xff0c;特别是在中长线交易的情况下。隔夜利息是根据投资者的持仓数量和交易方向所计算出的利息&#xff0c;如果投资者需要持仓过夜&#xff0c;…

9.3 Windows驱动开发:内核解析PE结构节表

在笔者上一篇文章《内核解析PE结构导出表》介绍了如何解析内存导出表结构&#xff0c;本章将继续延申实现解析PE结构的PE头&#xff0c;PE节表等数据&#xff0c;总体而言内核中解析PE结构与应用层没什么不同&#xff0c;在上一篇文章中LyShark封装实现了KernelMapFile()内存映…

Transformer的一点理解,附一个简单例子理解attention中的QKV

Transformer用于目标检测的开山之作DETR&#xff0c;论文作者在附录最后放了一段简单的代码便于理解DETR模型。 DETR的backbone用的是resnet-50去掉了最后的AdaptiveAvgPool2d和Linear这两层。 self.backbone nn.Sequential(*list(resnet50(pretrainedTrue).children())[:-2…

LabVIEW如何获取波形图上游标所在位置的数值

LabVIEW如何获取波形图上游标所在位置的数值 获取游标所在位置数值的一种方法是利用波形图的游标列表属性。 在VI的程序框图中&#xff0c;右键单击波形图并选择创建引用 &#xff0c;然后将创建的引用节点放在程序框图上。 在程序框图上放置一个属性节点&#xff0c;并将其…

聚焦数字化项目管理——2023年PMI项目管理大会亮点回顾

11月18日-19日&#xff0c;由PMI&#xff08;中国&#xff09;主办的2023年PMI项目管理大会在上海浦东嘉里大酒店圆满召开。本次大会以“数智时代&#xff0c;汇创未来”为主题&#xff0c;聚焦数智时代大背景下的项目管理行业发展和人才培养&#xff0c;吸引了海内外千余名项目…