SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

因为有些LR退化情况比较严重，所以超分之后的结果会出现语义的不一致的情况，所以本文训练了degradationaware prompt extractor来提取soft and hard semantic prompts辅助超分模型；
在inference的过程中LR也参与了；

分为两个阶段，第一个阶段训练DAPE来从LR中提取对应的语义特征，包含soft(feature和hard(tag两个级别，训练的目标是使HR和LR对应的输出尽可能相似；第二个阶段是使用得到的语义信息来进行超分任务；
对应HR-LR数据对 $x, y$ ，其中 $y$ 是对 $x$ 进行degradation得到的，之后分别输入到DAPE模型中得到 $f_x^{rep},f_x^{logits},f_y^{rep},f_y^{logits}$ ，DAPE模型是从tag预训练模型初始化而来，最后的损失是 $L_{DAPE}=L_r(f_y^{ref},f_x^{rep}) + \lambda L_l(f_y^{logits},f_x^{logits})$ ， $L_r$ 是MSE损失， $L_l$ 是cross entropy损失，两部分损失中logits部分损失受到模型thresh值设定的影响，所以使用representation部分进行补充；
超分网络在原始SD模型的基础上新增了representation和image作为条件，分别对应representation cross attention模块和controlnet模块，其中representation cross attention添加到text cross attn模块后面；
LR Embedding in Inference：推理的时候往常是随机初始化的噪声，但是本文是对LR添加噪声来进行噪声初始化；