【深度学习】:实验6布置，图像自然语言描述生成（让计算机“看图说话”）

清华大学驭风计划

因为篇幅原因实验答案分开上传，深度学习专栏持续更新中，期待的小伙伴敬请关注

实验答案链接http://t.csdnimg.cn/bA48U

有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~

案例 6 ：图像自然语言描述生成（让计算机“看图说话”）

相关知识点： RNN 、 Attention 机制、图像和文本数据的处理

1 任务和数据简介

本次案例将使用深度学习技术来完成图像自然语言描述生成任务，输入一张图片，模型会给出关于图片内容的语言描述。本案例使用 coco2014 数据集 [1] ，包含 82,783 张训练图片， 40,504 张验证图片， 40,775 张测试图片。案例使用 AndrejKarpathy[2] 提供的数据集划分方式和图片标注信息，案例已提供数据处理的脚本，只需下载数据集和划分方式即可。图像自然语言描述生成任务一般采用 Encoder-Decoder 的网络结构， Encoder 采用 CNN 结构，对输入图片进行编码， Decoder 采用 RNN 结构，利用 Encoder编码信息，逐个单词的解码文字描述输出。模型评估指标采用 BLEU 分数 [3] ，用来衡量预测和标签两句话的一致程度，具体计算方法可自行学习，案例已提供计算代码。

2 方法描述

模型输入

图像统一到 256 × 256 大小，并且归一化到 [−1,1] 后还要对图像进行 RGB 三通道均值和标准差的标准化。语言描述标签信息既要作为目标标签，也要作为Decoder 的输入，以 <start> 开始， <end> 结束并且需要拓展到统一长度，例如 :

< 𝑠𝑡𝑎𝑟𝑡 > 𝑎 𝑡𝑎𝑏𝑙𝑒 𝑡𝑜𝑝𝑝𝑒𝑑 𝑤𝑖𝑡ℎ 𝑝𝑙𝑎𝑡𝑒𝑠 𝑜𝑓 𝑓𝑜𝑜𝑑 𝑎𝑛𝑑 𝑑𝑟𝑖𝑛𝑘𝑠 < 𝑒𝑛𝑑 > < 𝑝𝑎𝑑 > < 𝑝𝑎𝑑 >< 𝑝𝑎𝑑 > ⋯

每个 token 按照词汇表转为相应的整数。同时还需要输入描述语言的长度，具体为单词数加 2 (<start> ， <end>) ，目的是为了节省在 <pad> 上的计算时间。

Encoder

案例使用 ResNet101 网络作为编码器，去除最后 Pooling 和 Fc 两层，并添加了 AdaptiveAvgPool2d() 层来得到固定大小的编码结果。编码器已在 ImageNet 上预训练好，在本案例中可以选择对其进行微调以得到更好的结果。

Decoder

Decoder 是本案例中着重要求的内容。案例要求实现两种 Decoder 方式，分别对应这两篇文章[4][5] 。在此简要阐述两种 Decoder 方法，进一步学习可参考原文章。

第一种 Decoder 是用 RNN 结构来进行解码，解码单元可选择 RNN 、 LSTM，GRU 中的一种，初始的隐藏状态和单元状态可以由编码结果经过一层全连接层并做批归一化 (Batch Normalization) 后作为解码单元输入得到，后续的每个解码单元的输入为单词经过 word embedding 后的编码结果、上一层的隐藏状态和单元状态，解码输出经过全连接层和 Softmax 后得到一个在所有词汇上的概率分布，并由此得到下一个单词。Decoder 解码使用到了 teacher forcing 机制，每一时间步解码时的输入单词为标签单词，而非上一步解码出来的预测单词。训练时，经过与输入相同步长的解码之后，计算预测和标签之间的交叉熵损失，进行 BP反传更新参数即可。测试时由于不提供标签信息，解码单元每一时间步输入单词为上一步解码预测的单词，直到解码出<end> 信息。测试时可以采用 beam search 解码方法来得到更准确的语言描述，具体方法可自行学习。

第二种 Decoder 是用 RNN 加上 Attention 机制来进行解码， Attention 机制做的是生成一组权重，对需要关注的部分给予较高的权重，对不需要关注的部分给予较低的权重。当生成某个特定的单词时，Attention 给出的权重较高的部分会在图像中该单词对应的特定区域，即该单词主要是由这片区域对应的特征生成的。Attention 权重的计算方法为：

𝛼 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 (𝑓𝑐 (𝑟𝑒𝑙𝑢(𝑓𝑐(𝑒𝑛𝑐𝑜𝑑𝑒𝑟_𝑜𝑢𝑡𝑝𝑢𝑡) + 𝑓𝑐(ℎ))))

其中 softmax() 表示 Softmax 函数， fc() 表示全连接层， relu() 表示 ReLU 激活函数，encoder_output 是编码器的编码结果， h 是上一步的隐藏状态。初始的隐藏状态和单元状态由编码结果分别经过两个全连接层得到。每一时间步解码单元的输入除了上一步的隐藏状态和单元状态外，还有一个向量，该向量由单词经过word embedding 后的结果和编码器编码结果乘上注意力权重再经过一层全连接层后的结果拼接而成。解码器同样使用 teacher forcing 机制，训练和测试时的流程与第一种 Decoder 描述的一致。