T2I Adapter是一款轻量级适配器,用于控制文本到图像模型并为其提供更准确的结构指导。它通过学习文本到图像模型的内部知识与外部控制信号(如边缘检测或深度估计)之间的对齐来工作。
T2I Adapter的设计很简单,条件被传递到四个特征提取块和三个下采样块。这使得针对不同的条件快速而容易地训练不同的适配器,这些适配器可以插入到文本到图像模型中。T2I Adapter与ControlNet类似,只是它更小(约77M个参数),速度更快,因为它在扩散过程中只运行一次。缺点是性能可能比ControlNet稍差。
文本到图像模型依赖于提示来生成图像,但有时,仅凭文本可能不足以提供更准确的结构指导。T2I Adapter允许您提供额外的控制图像来指导生成过程。例如,您可以提供一个Canny的图像(黑色背景上图像的白色轮廓)来引导模型生成具有类似结构的图像。
# 以下代码为程序运行进行设置
import os os.environ["HF_ENDPOINT"] = "https://hf-mirror.com" mport cv2 import numpy as np
from PIL import Image
# 程序需要能够支持加载图片
from diffusers.utils import load_image
# 以下代码加载边缘检测图的原型图片
image = load_image("https://hf-mirror.com/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")
image = np.array(image)
low_threshold = 100
high_threshold = 200
# 以下代码生成边缘检测图
image = cv2.Canny(image, low_threshold, high_threshold)
image = Image.fromarray(image)
# 以下代码加载StableDiffusionAdapter自动管道,及T2I Adapter
import torch from diffusers import StableDiffusionAdapterPipeline, T2IAdapteradapter = T2IAdapter.from_pretrained("TencentARC/t2iadapter_canny_sd15v2", torch_dtype=torch.float16) pipeline = StableDiffusionAdapterPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",adapter=adapter,torch_dtype=torch.float16, ) pipeline.to("cuda")
# 以下代码加载并处理提示词,基于边缘检测图生成图片
generator = torch.Generator("cuda").manual_seed(0)
image = pipeline(
prompt="cinematic photo of a plush and soft midcentury style rug on a wooden floor, 35mm photograph, film, professional, 4k, highly detailed",
image=image,
generator=generator,
).images[0]
image.show()
以下是边缘检测图的原型图片
以下是边缘检测图的原型图片
以下是生成的图片