Diffusers代码学习: T2I Adapter

T2I Adapter是一款轻量级适配器，用于控制文本到图像模型并为其提供更准确的结构指导。它通过学习文本到图像模型的内部知识与外部控制信号（如边缘检测或深度估计）之间的对齐来工作。

T2I Adapter的设计很简单，条件被传递到四个特征提取块和三个下采样块。这使得针对不同的条件快速而容易地训练不同的适配器，这些适配器可以插入到文本到图像模型中。T2I Adapter与ControlNet类似，只是它更小（约77M个参数），速度更快，因为它在扩散过程中只运行一次。缺点是性能可能比ControlNet稍差。

文本到图像模型依赖于提示来生成图像，但有时，仅凭文本可能不足以提供更准确的结构指导。T2I Adapter允许您提供额外的控制图像来指导生成过程。例如，您可以提供一个Canny的图像（黑色背景上图像的白色轮廓）来引导模型生成具有类似结构的图像。

# 以下代码为程序运行进行设置

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
mport cv2
import numpy as np

from PIL import Image

# 程序需要能够支持加载图片

from diffusers.utils import load_image

# 以下代码加载边缘检测图的原型图片

image = load_image("https://hf-mirror.com/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")

image = np.array(image)

low_threshold = 100
high_threshold = 200

# 以下代码生成边缘检测图

image = cv2.Canny(image, low_threshold, high_threshold)

image = Image.fromarray(image)

# 以下代码加载StableDiffusionAdapter自动管道，及T2I Adapter

import torch
from diffusers import StableDiffusionAdapterPipeline, T2IAdapteradapter = T2IAdapter.from_pretrained("TencentARC/t2iadapter_canny_sd15v2", torch_dtype=torch.float16)
pipeline = StableDiffusionAdapterPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",adapter=adapter,torch_dtype=torch.float16,
)
pipeline.to("cuda")

# 以下代码加载并处理提示词,基于边缘检测图生成图片

generator = torch.Generator("cuda").manual_seed(0)

image = pipeline(
prompt="cinematic photo of a plush and soft midcentury style rug on a wooden floor, 35mm photograph, film, professional, 4k, highly detailed",
image=image,
generator=generator,
).images[0]

image.show()

以下是边缘检测图的原型图片