（论文阅读51-57）图像描述3 53

（论文阅读51-57）图像描述3 53

news/2025/4/5 16:47:01/文章来源:https://blog.csdn.net/qq_46012097/article/details/134504159

51.文献阅读笔记（KNN）
简介	题目	Exploring Nearest Neighbor Approaches for Image Captioning
	作者	Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, C. Lawrence Zitnick, arXiv:1505.04467
	原文链接	http://arxiv.org/pdf/1505.04467.pdf
	关键词	KNN、image caption
	研究问题	image captioning
	研究方法	explore a variety of nearest neighbor baseline approaches for image captioning。首先查找相似图像，然后复制其标题来生成图像标题的方法泛化到训练集以外的图像：测量每张测试图像与训练集中图像的相似度。然后，我们就可以检查各种方法在不寻常或更多样化的图像上的表现。
	研究结论	更灵活、更受喜爱
	创新不足	对于图片描述的评分有一定问题，对机器生成的文字评分更高，但是实际人类生成的文字更受喜爱。
	额外知识	GIST

52.文献阅读笔记
简介	题目	Language Models for Image Captioning: The Quirks and What Works
	作者	Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta, Li Deng, Xiaodong He, Geoffrey Zweig, Margaret Mitchell, arXiv:1505.01809
	原文链接	http://arxiv.org/pdf/1505.01809.pdf
	关键词	现有方法性能比较
	研究问题	image captioning
	研究方法
	研究结论	懒得看了
	创新不足
	额外知识	maximum entropy (ME) language model：最大熵( ME )语言模型 Cnn生成一组候选词，然后使用最大熵( ME )语言模型将这些词排列成一个连贯的句子。第二种是将卷积神经网络的倒数第二个激活层作为循环神经网络( RNN )的输入，然后生成字幕序列。 BLUE评分： Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型 - Determined22 - 博客园 (cnblogs.com)

53.文献阅读笔记
简介	题目	What Value Do Explicit High Level Concepts Have in Vision to Language Problems?
	作者	Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick, arXiv:1506.01144
	原文链接	arXiv:1506.01144
	关键词
	研究问题	从视觉到语言（V2L）问题的最新进展主要是通过卷积神经网络（CNN）和循环神经网络（RNN）的结合实现的。这种方法并不明确表示高级语义概念，而是寻求从图像特征直接转化为文本。在本文中，我们将研究这种直接方法是否因其避免明确表示高级信息而取得成功。
	研究方法	提出了一种将高级概念纳入成功的 CNN-RNN 方法的方法。我们的视觉属性作为图像内容的高级语义表征，被输入到一个 LSTM 中，该 LSTM 会根据更大的词汇量生成目标句子。在主要的 CNN-LSTM 框架中引入中间属性预测层的效果。
	研究结论	证明这种方法在图像字幕和视觉问题解答方面都比最先进的方法有显著提高。我们还证明，同样的机制可用于引入外部语义信息，并能进一步提高性能。
	创新不足
	额外知识	CNN 作为图像 "编码器"，生成固定长度的向量表示，然后将其输入 "解码器 "RNN 以生成字幕。

54.文献阅读笔记（有点注意力机制的意思）
简介	题目	Learning language through pictures
	作者	Grzegorz Chrupala, Akos Kadar, Afra Alishahi,
	原文链接	arXiv:1506.03694
	关键词
	研究问题
	研究方法	提出了IMAGINET，一个从耦合的文本和视觉输入中学习基于视觉的语言表示的模型。该模型由两个具有共享词嵌入的门控循环单元网络组成，通过接收场景的文本描述并试图同时预测其视觉表征和句子中的下一个单词来使用多任务目标。
	研究结论	它从对视觉场景的描述中获得单个单词的意义表征。而且，它学会了在多词短语的语义解释中有效地使用序列结构。
	创新不足
	额外知识

55.文献阅读笔记（对注意力机制的理解）
简介	题目	Describing Multimedia Content using Attention-based Encoder-Decoder Networks
	作者	Kyunghyun Cho, Aaron Courville, Yoshua Bengio,
	原文链接	arXiv:1507.01053
	关键词
	研究问题	基于注意力的编码器-解码器模型，四个最新应用：机器翻译、图像标题生成、视频描述生成和语音识别
	研究方法
	研究结论
	创新不足	这意味着注意力机制的最终目标是帮助编码器-解码器模型进行多媒体内容描述。然而，这不应被视为注意力机制唯一可能的应用。注意力机制除了能带来卓越的性能外，还能用于提取两种完全不同的模式之间的底层映射，而无需对映射进行明确的监督。基于注意力的模型能够以一种无监督的方式推断出不同模态（多媒体及其文本描述）之间的对齐方式，在没有太多先验知识/领域知识的情况下，这种基于注意力的模型完全可以用来从一对模态中提取这些潜在的、往往是复杂的映射。
	额外知识

56.文献阅读笔记
简介	题目	Image Representations and New Domains in Neural Image Captioning
	作者	Jack Hessel, Nicolas Savva, Michael J. Wilber,
	原文链接	arXiv:1508.02091
	关键词
	研究问题	即使在图像表示质量很差的情况下，最先进的神经描述算法也能够产生高质量的描述。我们将这一结果复制到一个新的、细粒度的、迁移学习的字幕域中
	研究方法
	研究结论	展示了 CNN 分类准确性与最先进的神经字幕算法生成的字幕质量之间的关系。训练越来越精确的图像分类器在达到一定程度后并不会带来更好的字幕。字幕质量的这种早期饱和现象表明，神经字幕生成算法的性能很可能无法通过生成更精确的 CNN 而直接提高。此外，NIC 等模型输出的许多明显具有高度特异性的生成字幕很可能是由于语言模型捕获了粗粒度信息并生成了相应的可信自然语言序列。图像特征过度拟合的作用很难量化。一方面，图像表征中包含了额外的信息，而 NIC 等模型并没有利用这些信息，甚至通常会过度拟合图像表征。但是，目前还不清楚这些额外的、细粒度的信息是否值得考虑。基于离散图像表征生成语言的模型（例如（Young 等人，2014 年））所取得的成功表明，不考虑丰富的实值向量特征，算法也能达到最先进的性能。这些类型的模型很可能也不容易过度拟合。
	创新不足
	额外知识

57.文献阅读笔记（RCCA）（图像查询）
简介	题目	Learning Query and Image Similarities with Ranking Canonical Correlation Analysis
	作者	Ting Yao, Tao Mei, and Chong-Wah Ngo, ICCV, 2015
	原文链接
	关键词
	研究问题	图像搜索的基本问题之一是学习排名函数，即查询和图像之间的相似性。关于这一主题的研究已经发展出两种范式：基于特征的向量模型和图像排序器学习。前者依赖于图像周围的文本，而后者则根据人类标记的查询-图像对学习排序器。
	研究方法	向量模型对文本描述的质量很敏感，而学习范式则很难扩展，因为获得人工标注总是过于昂贵。我们在本文中证明，通过共同探索子空间学习和使用点击数据，可以很好地缓解上述两个局限性。具体来说，我们提出了一种用于学习查询和图像相似性的新颖的排序典型相关分析法（RCCA）。 RCCA 最初通过最大化查询和图像视图之间的相关性来找到它们之间的共同子空间，并进一步同时学习双线性查询图像相似性函数和调整子空间以保留点击数据中隐含的偏好关系。一旦子空间最终确定，查询-图像相似度就可以通过双线性相似度函数计算出它们在该子空间中的映射关系。
	研究结论
	创新不足
	额外知识

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/159009.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

如何使用无代码系统搭建软件平台？有哪些开源无代码开发平台？

如何使用无代码系统搭建软件平台？有哪些开源无代码开发平台？

无代码是什么无代码开发，也称为零代码（Zero Code）开发，是一种技术概念。无代码开发无需代码基础，适合业务人员、IT开发及其他各类人员使用。他们通过无代码开发平台快速构建应用，并适应各种需求变化&#…

阅读更多...

JDBC基本操作

JDBC基本操作

JDBC基本操作 create table user( id int primary key auto_increment, name varchar(50) ) ENGINE InnoDB DEFAULT CHARSET utf8; JDBC概念 JDBC是一个独立于特定数据库管理系统、通用的SQL数据库存取和操作的公共接口，定义了用来访问数据库的标准的Jav…

阅读更多...

深入理解Java虚拟机-GC

深入理解Java虚拟机-GC

深入理解Java虚拟机-GC 当需要排查各种内存溢出、内存泄漏时，当垃圾回收成为系统到达更高并发量的瓶颈时，我们必须对内存动态分配和内存回收技术这样的“自动化”技术采用必要的监控和调节。 Java堆和方法区：一个接口的多个实现类需要的内存…

阅读更多...

element表格头部加入图标

element表格头部加入图标

首先看看效果下面是代码 <el-table-column prop"integralBalance"><template slot"header" slot-scope"scope"><div style"display: flex;justify-content: center;align-items: center;">积分余额<i class&qu…

阅读更多...

android APP使用指定网络上网的原理

android APP使用指定网络上网的原理

【精选】Android app 指定网络发送数据包的实现与原理分析_bindprocesstonetwork-CSDN博客补充： frameworks/base/core/java/android/net/ConnectivityManager.java 函数： bindProcessToNetwork 调用到了 NetworkUtils.bindProcessToNetwork 但是N…

阅读更多...

Linux yum 使用时提示获取 GPG 密钥失败Couldn‘t open file RPM-GPG-KEY-EPEL-7

Linux yum 使用时提示获取 GPG 密钥失败Couldn‘t open file RPM-GPG-KEY-EPEL-7

获取 GPG 密钥失败：[Errno 14] curl#37 - “Couldn’t open file /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7” 这个就是安装的时候会检查key这个可以再repo文件中关闭即可 $ vim /etc/yum.repos.d/epel.repo 文件内容如下： [epel]nameExtra Packages for…

阅读更多...

苹果ios企业签名一个月多少钱？

苹果ios企业签名一个月多少钱？

苹果ios企业签名一个月的费用因签名类型、应用类型等因素而异。在某些情况下，苹果ios企业签名一个月的费用可能在2000～3000元之间。但也有特殊行业，例如金融行业，其企业签名费用可能会高于这个价格。同时，一些苹果io…

阅读更多...

【Android】Hilt比Android好在哪里

【Android】Hilt比Android好在哪里

Hilt框架的功能和设计理念，和Dagger基本是完全一致的，Hilt也是完全在Dagger基础上进行开发的但是Dagger的用法比较繁琐，Hilt主要是做了便用性上的改进，主要有以下点提供常用Component，不用再为每个InjectTarget都创…

阅读更多...

创建 Springboot 项目

创建 Springboot 项目

前言创建 Spring Boot 项目是很多Java开发人员入门的重要一步！ 欢迎来到本篇关于创建 Spring Boot 项目的博客！Spring Boot作为一个快速、便捷的开发框架，为我们提供了简化和加速应用程序开发的利器。在这个数字化时代，快速响…

阅读更多...

C语言从入门到实战——数组和指针的强化练习题

C语言从入门到实战——数组和指针的强化练习题

数组和指针的强化练习题前言1. sizeof和strlen的对比1.1 sizeof1.2 strlen1.3 sizeof和strlen的对⽐ 2. 数组和指针笔试题解析2.1 一维数组2.2 字符数组2.3 二维数组 3. 指针运算笔试题解析3.1 题目1：3.2 题目23.3 题目33.4 题目43.5 题目53.6 题目63.7 题目7 前言…

阅读更多...

rabbit MQ的延迟队列处理模型示例(基于SpringBoot死信模式)

rabbit MQ的延迟队列处理模型示例(基于SpringBoot死信模式)

说明： 生产者P 往交换机X（typedirect）会发送两种消息：一、routingKeyXA的消息（消息存活周期10s），被队列QA队列绑定入列；一、routingKeyXB的消息（消息存活周期40s&#xf…

阅读更多...

迪文科技工业串口屏(DMG10600C070-03WTC)更新程序烧录刷机

迪文科技工业串口屏(DMG10600C070-03WTC)更新程序烧录刷机

迪文科技工业串口屏(DMG10600C070-03WTC)更新程序烧录刷机问题使用SD卡上电烧录，SD卡文件路径如下： 烧录时，无法写入，成功烧录文件数为0 解决方法格式化读卡器格式化脚本 echo off %1 %2 ver|find "5.">…

阅读更多...

Android 13.0 无源码app修改它的icon图标

1.概述在13.0的系统产品rom定制化开发中，有些产品需要对Launcher3中桌面显示的app的icon做替换，如果没有源码的话更换会麻烦点，需要从pms解析app的时候，可以替换掉app的icon图标就可以了，接下来就来实现相关的功能 2.无源码app修改它的icon图标的相关核心类 framework…

阅读更多...

Debian 12 / Ubuntu 22.04 安装 Docker 以及 Docker Compose 教程

Debian 12 / Ubuntu 22.04 安装 Docker 以及 Docker Compose 教程

Debian 12 / Ubuntu 22.04 安装 Docker 以及 Docker Compose 教程本文将指导如何在 Debian 12 和 Ubuntu 22.04 下安装 Docker 以及 Docker Compose。 PS：本文同时适用于 Debian 11 以及 Ubuntu 20.04 什么是 Docker？ Docker 是一种容器化技术&#x…

阅读更多...

工厂模式之工厂方法模式（常用）

工厂模式之工厂方法模式（常用）

工厂方法模式简单工厂模式违背了开闭原则，而工厂方法模式则是简单工厂模式的进一步深化，其不像简单工厂模式通过一个工厂来完成所有对象的创建，而是通过不同的工厂来创建不同的对象，每个对象有对应的工厂创建。定义&#xff…

阅读更多...

git 把项目托管到码云

git 把项目托管到码云

码云： 把项目托管到码云 1.注册并微活码云账号(https://gitee.com/] 2.牛成井前博 SSH公钥 (运行 ssh -t gitgitee.com 构测 SSH 公明是否有开成功) 3.创建率户的码人伦;库 4.把本地项口上传到码云对应的空白仓库中第一：上传个新项目 cd existing_git_…

阅读更多...

【Redis篇】简述Redis | 详解Redis命令

【Redis篇】简述Redis | 详解Redis命令

文章目录 🎍什么是Redis🎍Redis特点🎍Redis应用场景🍔Windows安装Redis⭐启动Redis 🌺Redis数据类型🌺Redis常用命令⭐字符串string操作命令⭐哈希hash操作命令⭐列表list操作命令⭐集合set操作命令⭐有序集…

阅读更多...

C++实战学习笔记

C++实战学习笔记

文章目录 erase()uniquevector的insert()std::string::npos erase() （1）erase(pos,n); 删除从pos开始的n个字符，比如erase(0,1)就是删除第一个字符 （2）erase(position);删除position处的一个字符(position是个string类…

阅读更多...

linux下流媒体压力测试工具的使用

linux下流媒体压力测试工具的使用

前言因为领导要求做linux的推拉流时服务器压力测试，于是在网上找了找。一顿操作下来，发现很多软件盗用一款名为srs-bench的开源软件。该代码仓库有详细的使用说明，而且可以在issues中找到可能会遇到的问题的解决办法需要下载该仓库的源…

阅读更多...

RK3568开发板在工控工业物联网网关方面的应用

RK3568开发板在工控工业物联网网关方面的应用

在数字化转型的浪潮中，工控物联网关产品扮演着重要的角色。这些产品通过连接工业设备和网络，为数据传输和分析提供了便利。而迅为RK3568核心板作为一款高性能的芯片，为工控物联网关产品的性能提升和功能扩展提供了强大的支持。迅为RK3568核心…

阅读更多...

最新文章