【深度学习】:实验6布置,图像自然语言描述生成(让计算机“看图说话”)

清华大学驭风计划

因为篇幅原因实验答案分开上传,深度学习专栏持续更新中,期待的小伙伴敬请关注

实验答案链接http://t.csdnimg.cn/bA48U

有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~

案例 6 :图像自然语言描述生成(让计算机“看图说话”)
相关知识点: RNN Attention 机制、图像和文本数据的处理

1 任务和数据简介

本次案例将使用深度学习技术来完成图像自然语言描述生成任务,输入一张 图片,模型会给出关于图片内容的语言描述。本案例使用 coco2014 数据集 [1] ,包 含 82,783 张训练图片, 40,504 张验证图片, 40,775 张测试图片。案例使用 AndrejKarpathy[2] 提供的数据集划分方式和图片标注信息,案例已提供数据处理的脚本, 只需下载数据集和划分方式即可。 图像自然语言描述生成任务一般采用 Encoder-Decoder 的网络结构, Encoder 采用 CNN 结构,对输入图片进行编码, Decoder 采用 RNN 结构,利用 Encoder编码信息,逐个单词的解码文字描述输出。模型评估指标采用 BLEU 分数 [3] ,用来衡量预测和标签两句话的一致程度,具体计算方法可自行学习,案例已提供计算代码。

2 方法描述

模型输入

       图像统一到 256 × 256 大小,并且归一化到 [−1,1] 后还要对图像进行 RGB 三通道均值和标准差的标准化。语言描述标签信息既要作为目标标签,也要作为Decoder 的输入,以 <start> 开始, <end> 结束并且需要拓展到统一长度,例如 :
< 𝑠𝑡𝑎𝑟𝑡 > 𝑎 𝑡𝑎𝑏𝑙𝑒 𝑡𝑜𝑝𝑝𝑒𝑑 𝑤𝑖𝑡ℎ 𝑝𝑙𝑎𝑡𝑒𝑠 𝑜𝑓 𝑓𝑜𝑜𝑑 𝑎𝑛𝑑 𝑑𝑟𝑖𝑛𝑘𝑠 < 𝑒𝑛𝑑 > < 𝑝𝑎𝑑 > < 𝑝𝑎𝑑 >< 𝑝𝑎𝑑 > ⋯
        每个 token 按照词汇表转为相应的整数。同时还需要输入描述语言的长度, 具体为单词数加 2 (<start> <end>) ,目的是为了节省在 <pad> 上的计算时间。

Encoder

案例使用 ResNet101 网络作为编码器,去除最后 Pooling Fc 两层,并添加 了 AdaptiveAvgPool2d() 层来得到固定大小的编码结果。编码器已在 ImageNet 上预训练好,在本案例中可以选择对其进行微调以得到更好的结果。

Decoder

Decoder 是本案例中着重要求的内容。案例要求实现两种 Decoder 方式,分别对应这两篇文章[4][5] 。在此简要阐述两种 Decoder 方法,进一步学习可参考原文章。
       第一种 Decoder 是用 RNN 结构来进行解码,解码单元可选择 RNN LSTM,GRU 中的一种,初始的隐藏状态和单元状态可以由编码结果经过一层全连接层并做批归一化 (Batch Normalization) 后作为解码单元输入得到,后续的每个解码单元的输入为单词经过 word embedding 后的编码结果、上一层的隐藏状态和单元状态,解码输出经过全连接层和 Softmax 后得到一个在所有词汇上的概率分布,并由此得到下一个单词。Decoder 解码使用到了 teacher forcing 机制,每一时间步解码时的输入单词为标签单词,而非上一步解码出来的预测单词。训练时,经过与输入相同步长的解码之后,计算预测和标签之间的交叉熵损失,进行 BP反传更新参数即可。测试时由于不提供标签信息,解码单元每一时间步输入单词为上一步解码预测的单词,直到解码出<end> 信息。测试时可以采用 beam search 解码方法来得到更准确的语言描述,具体方法可自行学习。
       第二种 Decoder 是用 RNN 加上 Attention 机制来进行解码, Attention 机制做的是生成一组权重,对需要关注的部分给予较高的权重,对不需要关注的部分给予较低的权重。当生成某个特定的单词时,Attention 给出的权重较高的部分会在 图像中该单词对应的特定区域,即该单词主要是由这片区域对应的特征生成的。Attention 权重的计算方法为:
𝛼 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 (𝑓𝑐 (𝑟𝑒𝑙𝑢(𝑓𝑐(𝑒𝑛𝑐𝑜𝑑𝑒𝑟_𝑜𝑢𝑡𝑝𝑢𝑡) + 𝑓𝑐(ℎ))))
其中 softmax() 表示 Softmax 函数, fc() 表示全连接层, relu() 表示 ReLU 激活函数,encoder_output 是编码器的编码结果, h 是上一步的隐藏状态。初始的隐藏状态和单元状态由编码结果分别经过两个全连接层得到。每一时间步解码单元的输入除了上一步的隐藏状态和单元状态外,还有一个向量,该向量由单词经过word embedding 后的结果和编码器编码结果乘上注意力权重再经过一层全连接层后的结果拼接而成。解码器同样使用 teacher forcing 机制,训练和测试时的流程与第一种 Decoder 描述的一致。

样例输出

第一种 Decoder 得到的结果仅包含图像的文字描述,如下图:
第二种 Decoder 由于有 Attention 机制的存在,可以得到每个单词对应的图片区域,如下图:

3 参考程序及使用说明

本次案例提供了完整、可供运行的参考程序,各程序简介如下:
create_input_files.py : 下载好数据集和划分方式后需要运行该脚本文件,会生成案例需要的 json hdf5 文件,注意指定输入和输出数据存放的位置。
datasets.py : 定义符合 pytorch 标准的 Dataset 类,供数据按 Batch 读入。
models.py : 定义 Encoder Decoder 网络结构,其中 Encoder 已提前定义好,无需自己实现。两种 Decoder 方法需要自行实现,已提供部分代码,只需将 #ToDo 部分补充完全即可。
solver.py : 定义了训练和验证函数,供模型训练使用。
train.ipynb : 用于训练的 jupyter 文件,其中超参数需要自行调节,训练过程中可以看到模型准确率和损失的变化,并可以得到每个 epoch 后模型在验证集上的 BLEU 分数,保存最优的验证结果对应的模型用于测试。
test.ipynb : 用于测试的 jupyter 文件,加载指定的模型,解码时不使用 teacher forcing,并使用 beam search 的解码方法,最终会得到模型在测试集上的 BLEU分数。
caption.ipynb : 加载指定模型,对单张输入图片进行语言描述,第一种Decoder 方法只能得到用于描述的语句,第二种 Decoder 方法同时可以获取每个单词对应的注意力权重,最后对结果进行可视化。
utils.py : 定义一些可能需要用到的函数,如计算准确率、图像可视化等。
环境要求: python pytorch, torchvision, numpy, nltk, tqdm, h5py, json, PIL,
matplotlib, scikit-image, scipy=1.1.0 等。

4 要求与建议

完成 models.py 文件中的 #To Do 部分,可参考第 2 部分中的介绍或原论文;
调节超参数,运行 train.ipynb ,其中 attention 参数指示使用哪种 Decoder ,分别训练使用两种不同 Decoder 的模型,可以分两个 jupyter 文件保存最佳参数和训练记录,如 train1.ipynb, train2.ipynb
运行 test.ipynb 得到两个模型在测试集上的 BLEU 分数,分别保留结果;
选择一张图片,可以是测试集中的,也可以是自行挑选的,对图片进行语言描述自动生成,分别保留可视化结果;
在参考程序的基础上,综合使用深度学习各项技术,尝试提升该模型在图像自然语言描述生成任务上的效果,如使用更好的预训练模型作为 Encoder ,或者提出更好的 Decoder 结构,如 Adaptive Attention 等;
完成一个实验报告,内容包括基础两个模型的实现原理说明、两个模型的最佳参数和对应测试集 BLEU 分数、两个模型在单个图片上的表现效果、自己所做的改进、对比分析两个基础模型结果的不同优劣。
禁止任何形式的抄袭,借鉴开源程序务必加以说明。

5 参考资料

[1] MS-COCO 数据集 : https://cocodataset.org/
[2] 划分方式与 caption 信息:
http://cs.stanford.edu/people/karpathy/deepimagesent/caption_datasets.zip
[3] https://en.wikipedia.org/wiki/BLEU
[4] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption
generator[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015:
3156-3164.
[5] Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with
visual attention[C]//International conference on machine learning. 2015: 2048-2057.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/678126.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hadoop运行环境搭建

模板虚拟机环境准备 1&#xff09;准备一台模板虚拟机hadoop100&#xff0c;虚拟机配置要求如下&#xff1a; 模板虚拟机&#xff1a;内存4G&#xff0c;硬盘50G&#xff0c;安装必要环境&#xff0c;为安装hadoop做准备 [roothadoop100 ~]# yum install -y epel-release [r…

命令行随笔

1、xargs xargs命令是将 前一个命令的标准输出作为后一个命令的命令行参数&#xff0c;xargs的默认命令是echo&#xff0c;默认定界符是空格和回车。 而管道是将 前一个命令的标准输出作为后一个命令的标准输入 echo例子 # echo "apple banana orange" | xargs e…

MySQL篇----第十八篇

系列文章目录 文章目录 系列文章目录前言一、SQL 语言包括哪几部分?每部分都有哪些操作关键二、完整性约束包括哪些?三、什么是锁?四、什么叫视图?游标是什么?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,…

梯度提升树系列8——GBDT与其他集成学习方法的比较

目录 写在开头1. 主要集成学习算法对比1.1 GBDT1.2 随机森林1.3 AdaBoost1.4 整体对比2. 算法性能的比较分析2.1 准确率与性能2.2 训练时间和模型复杂度2.3 应用实例和案例研究3. 选择合适算法的标准3.1 数据集的特性3.1.1 数据规模与维度3.1.2 数据质量3.2 性能需求3.2.1 准确…

Unity报错Currently selected scripting backend (IL2CPP) is not installed

目录 什么是il2cpp il2cpp换mono Unity打包报错Currently selected scripting backend (IL2CPP) is not installed 什么是il2cpp Unity 编辑器模式下是采用.net 虚拟机解释执行.net 代码,发布的时候有两种模式,一种是mono虚拟机模式,一种是il2cpp模式。由于iOS AppStore…

pandas dataframe写入excel的多个sheet页面

pandas根据dataframe生成一个excel文件&#xff1a; Dataframe保存新文件 直接把dataframe格式的数据保存到多个sheet页程序如下&#xff1a; excel_file "导出excel文件.xlsx" if os.path.exists(excel_file):os.remove(excel_file)# 生成一个新文件 with pd.Ex…

怎么对接快团团团长?如何对接快团团团长?

1、首先来说&#xff0c;你要需要&#xff0c;树立良好的心态&#xff0c;拓展快团团大团长合作和开发传统渠道是一样的&#xff0c;能有10%的回复率就不错了&#xff0c;反复几次沟通也是非常有必要的。要有“大团长思维”&#xff0c;就是换位思考&#xff0c;他们是处于什么…

Unity类银河恶魔城学习记录3-6 Finalize BattleState源代码 P52

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释&#xff0c;可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili Enemy.cs using System.Collections; using System.Collections.Generic; …

【Opencv学习】04-图像加法

文章目录 前言一、图像加法混合1.1 代码1.2 运行结果 二、图像的按位运算-组合相加2.1 代码2.2 运行结果示例&#xff1a;PPT平滑切换运行结果 总结 前言 简单说就是介绍了两张图如何组合在一起。 1、混合&#xff0c;透明度和颜色会发生改变 2、组合&#xff0c;叠加起来。可…

【讨论】C语言提高之指针表达式

在理解指针表达式之前先有一个概念就是“左值”和“右值”&#xff0c;对于左值就是可以出现在赋值符号左边的东西&#xff0c;右值就是那些可以出现在赋值符号右边的东西。进一步抽象可以这样理解&#xff1a;左值应该可以作为一个地址空间用来存放一个值&#xff0c;而右值可…

Unity学习笔记(零基础到就业)|Chapter03:C#核心

Unity学习笔记(零基础到就业)|Chapter03:C#核心 前言一、面向对象编程二、面向对象编程三大特性(一)封装1.类和对象(1)什么是类(2)类的声明(3)什么是(类)对象(4)实例化(类)对象的语法(5)类和结构体的区别2.成员变量和访问修饰符(1)成员变量基本规则(2)实…

车载测试Vector工具——常见问题汇总

车载测试Vector工具——常见问题汇总 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何 消耗你的人和事,多看一眼都是你的…

Linux操作系统基础(九):Linux用户与权限

文章目录 Linux用户与权限 一、文件权限概述 二、终端命令&#xff1a;组管理 三、终端命令&#xff1a;用户管理 1、创建用户 、 设置密码 、删除用户 2、查看用户信息 3、su切换用户 4、sudo 4.1、给指定用户授予权限 4.2、使用 用户 zhangsan登录, 操作管理员命令…

Netty——基于Java NIO的网络通信框架

前言 大家好&#xff0c;我是chowley&#xff0c;我之前在项目中有接触过异步处理&#xff0c;当时的服务并发量较高&#xff0c;引入了Netty来搭建通信模块&#xff0c;今天我就来总结一下Netty的基础内容。 Netty 是一个基于 Java NIO&#xff08;New I/O&#xff09;的高性…

力扣-260. 只出现一次的数字 III

文章目录 力扣题目代码 力扣题目 给你一个整数数组 nums&#xff0c;其中恰好有两个元素只出现一次&#xff0c;其余所有元素均出现两次。 找出只出现一次的那两个元素。你可以按 任意顺序 返回答案。 你必须设计并实现线性时间复杂度的算法且仅使用常量额外空间来解决此问题…

【JAVA WEB】 开发环境配置

目录 Visual studio 安装 插件安装 第一个页面编写 前端开发工具有很多&#xff0c;例如sublime、idea、vscode&#xff08;企业开发前端的时候非常常用的一个开发工具&#xff09;。这里演示vscode的安装配置。 Visual studio 安装 官网下载VS code软件 链接:Visual Stu…

centos中docker操作+安装配置django并使用simpleui美化管理后台

一、安装docker 确保系统是CentOS 7并且内核版本高于3.10,可以通过uname -r命令查看内核版本。 更新系统软件包到最新版本,可以使用命令yum update -y。 安装必要的软件包,包括yum-utils、device-mapper-persistent-data和lvm2。使用命令yum install -y yum-utils devic…

多视图特征学习 Multi-view Feature Learning既可以被看作是一种学习框架,也可以被看作是一种具体的学习算法!

Multi-view Feature Learning 1.多视图特征学习Multi-view Feature Learning的基本介绍总结 1.多视图特征学习Multi-view Feature Learning的基本介绍 多视图特征学习是一种利用多视图数据集来进行联合学习的机器学习方法。多视图数据指的是对同一事物从多种不同的途径或角度进…

AutoSAR(基础入门篇)7.3-使用DEV配置SWCRTE

目录 一、实验概览 1、实验目的 2、实验内容 二、步骤一:配置SWC

如何为Kafka加上账号密码(二)

认证策略SASL/PLAIN 上篇文章中我们讲解了Kafka认证方式和基础概念&#xff0c;并比较了不同方式的使用场景。 我们在《2024年了&#xff0c;如何更好的搭建Kafka集群&#xff1f;》中集群统一使用PLAINTEXT通信。Kafka通常是在内网使用&#xff0c;但也有特殊的使用场景需要…