从0到1:使用HuggingFace的管线加载Diffusion模型生成第一张图像!

Hugging Face系列1:详细剖析Hugging Face网站资源

  • 前言
  • 本篇摘要
  • 1. Hugging Face Hub三大件
    • 1.1 模型
      • 1.1.1 模型简介
      • 1.1.2 制作模型卡片
      • 1.1.3 模型下载和上传
      • 1.1.4 模型应用
    • 1.2 数据集
      • 1.2.1 数据集简介
      • 1.2.2 调用代码
      • 1.2.3 AutoTrain在线微调
    • 1.3 Space应用
      • 1.3.1 内容简介
      • 1.3.2 **虚拟换装:IDM-VTON**
      • 1.3.3 灯光特效:IC-Light
      • 1.3.4 Artificial Analysis LLM Performance Leaderboard
      • 1.3.5 创建自己的Space应用
  • 2. Hugging Face其他资源介绍
    • 2.1 Hugging Face开源库
    • 2.2 Hugging Face Gradio工具
    • 2.3 Hugging Face学习资源
      • 2.3.1 NLP课程
      • 2.3.2 扩散模型课程
      • 2.3.3 深度强化学习课程
    • 2.4 Hugging Face各个资源网址
  • 3. 扩散模型原理

前言

本系列文章旨在全面系统的介绍Hugging Face,让小白也能熟练使用Hugging Face上的各种开源资源,并上手创建自己的第一个Space App,在本地加载Hugging Face管线训练自己的第一个模型,并使用模型生成采样数据,同时详细解决部署中出现的各种问题。后续文章会分别介绍采样器及其加速、显示分类器引导扩散模型、CLIP多模态图像引导生成、DDMI反转及控制类大模型ControlNet等,根据反馈情况可能再增加最底层的逻辑公式和从零开始训练LLM等,让您从原理到实践彻底搞懂扩散模型和大语言模型。欢迎点赞评论、收藏和关注,这些对本系列文章非常重要。

本系列文章如下:

  1. 《详细剖析Hugging Face网站资源》:全面系统的介绍Hugging Face资源;
  2. 《从0到1:使用Hugging Face管线加载Diffusion模型生成第一张图像》:在本地加载Hugging Face管线训练自己的第一个模型,并使用模型生成采样数据,同时详细解决部署中出现的各种问题。

本篇摘要

本篇主要介绍Hugging Face。Hugging Face是一个人工智能的开源社区,是相关从业者协作和交流的平台。它的核心产品是Hugging Face Hub,这是一个基于Git进行版本管理的存储库,截至2024年5月,已托管了65万个模型、14.5万个数据集以及超过17万个Space应用。另外,Hugging Face还开源了一系列的机器学习库如Transformers、Datasets和Diffusers等,以及界面演示工具Gradio。最后,Hugging Face设计开发了很多学习资源,比如与NLP(大语言模型)、扩散模型及深度强化学习等相关课程。为了吸引新手注意,广开方便之门,本篇介绍了大量有趣的Spaces应用,比如换装IDM-VTON、灯光特效IC-Light、LLM性能排行Artificial Analysis LLM Performance Leaderboard和自己部署的文生图模型stable-diffusion-xl-base-1.0、对图片精细化的stable-diffusion-xl-refiner-1.0等。只要读者认真按着文章操作,上述操作都可自己实现。下面对以上内容逐一介绍。

1. Hugging Face Hub三大件

1.1 模型

1.1.1 模型简介

Hugging Face收录了大量的文生文、文生图、文生音频、文生视频及图生视频等多模态模型。模型界面的内容大致包括以下几方面:标签、模型卡片、文件和版本、社区交流、训练/部署/应用、推理API和应用的Spaces等。以大名鼎鼎的文生图模型stabilityai/stable-diffusion-xl-base-1.0为例,各部分所在区域如下图所示:
在这里插入图片描述关于链接无法打开的说明:由于国内已禁止访问国外大部分AI资源,所以国内用户无法打开链接,这里可以使用HF的镜像网站:https://hf-mirror.com/,用它替换链接中的https://huggingface.co/即可。但下载授权资源仍需hf_token,这里可通过梯子申请,Hugging Face账户也可通过梯子注册。作者使用的梯子是仪表盘,便宜又好用,此外还有较贵的搬瓦工、西部世界等,适合企业级用户,笔者身体不太好,所以更新较慢,着急的读者可以自己点开链接先研究研究,具体操作见下篇的实战部分。
因为稳定问题,所以作者并不推荐免费梯子,对比过多款梯子后,仪表盘可以说是花小钱办大事,从此您就可以过上随意翻墙的快乐生活!

下面逐一介绍模型内容:

  1. 模型标签:相当于模型的关键字,包括使用的许可协议、安全协议、模型用途、引用的arXiv.org论文、开发库、支持语言、部署方法等。
  2. 模型卡片:包括模型介绍(模型名称、开发者、输入输出、模型结构、发布日期及状态等)、使用说明(应用代码或命令行、软硬件说明、支持库等)、训练数据及评判基准等。
  3. 文件和版本:存储模型版本对应的文件,不需要授权的文件可以直接下载。
  4. 社区交流:包括求助贴和问题讨论等。
  5. 推理API:这里输入prompt,模型会推理出结果,相当于一个简易的demo。但有的程序不支持推理API。
  6. Spaces应用:使用此模型部署的Space。Space相当于一个封装了该模型的App,并提供一个UI给用户使用。

1.1.2 制作模型卡片

模型卡片是对模型的重要说明,是了解模型的窗口。当把模型开源到Hugging Face时,就需要制作卡片对模型进行详细介绍,示例代码如下所示:

from huggingface_hub import ModelCard, ModelCardData, EvalResult# Using the Template,Including Evaluation Results(Optional)
card_data = ModelCardData(language='en',license='mit',library_name='timm',tags=['image-classification', 'resnet'],datasets=['beans'],metrics=['accuracy'],eval_results=[EvalResult(task_type='image-classification',dataset_type='beans',dataset_name='Beans',metric_type='accuracy',metric_value=0.9,),],model_name='my-cool-model',
)card = ModelCard.from_template(card_data,model_description='This model does x + y...'
)card.push_to_hub(hub_model_id)

对模型卡片的进一步学习可以参考官方文档Repository Cards。

1.1.3 模型下载和上传

用户可以在Hub下载或上传模型,比如下载BERT的基础模型的git命令及huggingface-cli命令如下:

git clone https://hf.co/bert-base-uncase # git命令,可在最后添加下载目录
huggingface-cli download --resume-download google-bert/bert-base-uncased --local-dir bert-base-uncased #huggingface-cli命令,--local-dir用于建立软链接

上传模型的代码如下(这里只做简单演示,代码讲解及应用参见后续):

from huggingface_hub import HfApi, create_repo
from huggingface_hub import get_full_repo_namemodel_name = "XXX"
hub_model_id = get_full_repo_name(model_name)    #获取完整路径create_repo(hub_model_id)    #创建存储库
api = HfApi()    #获取上传接口,并上传文件夹及文件
api.upload_folder(folder_path=f"{model_name}/scheduler", path_in_repo="", repo_id=hub_model_id)
api.upload_folder(folder_path=f"{model_name}/unet", path_in_repo="", repo_id=hub_model_id)
api.upload_file(path_or_fileobj=f"{model_name}/model_index.json", path_in_repo="model_index.json", repo_id=hub_model_id)

1.1.4 模型应用

单击训练/部署/应用区域的“Deploy->Inference API",出现如下不同语言的应用代码:
在这里插入图片描述
也可选择其它的应用方案,比如单击“Use in Diffusers”获取如下代码:

from diffusers import DiffusionPipelinepipeline = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0")

Q:你能看出上面两种应用方案的不同吗?

1.2 数据集

1.2.1 数据集简介

上文已提到,Hugging Face Hub开源和维护了大量的数据集,它还按照语言对数据集进行了拆分,并清理了文章中不必要的符号信息,以便开发者直接调用。以databricks公司收集的数据集databricks-dolly-15k为例,它是指令引导式的开源数据集,可用于任何商业和学术目的,这些记录符合InstructionGPT论文中概述的行为类别,包括封闭式QA、开放式QA、文本生成、信息提取、标签分类、头脑风暴和概括总结等。数据集界面如下图:
在这里插入图片描述其内容形式大致与模型界面类似,这里不再赘述。唯一需要关注的不同点是Viewer,这里可以概览数据集中的数据,对各类数据记录有个大概认识。

1.2.2 调用代码

对于经典数据集databricks/databricks-dolly-15k的调用代码如下,也可以点击“Use in Datasets library”查看这段代码:

from datasets import load_datasetdataset = load_dataset("databricks/databricks-dolly-15k", split="train")    
train_dataloader = torch.utils.data.DataLoader(dataset, batch_size=128, shuffle=True)

也可以通过命令huggingface-cli下载代码:

huggingface-cli download --repo-type dataset --resume-download databricks/databricks-dolly-15k --local-dir databricks-dolly-15k

1.2.3 AutoTrain在线微调

Hugging Face Hub还支持通过上传自己的数据集,直接在线微调模型。我们以cognitivecomputations/dolphin-2.9-llama3-8b为例,此时有两种方法创建
AutoTrain Project:第一种,在AutoTrain功能主页点击“Create new project”,如下图:
在这里插入图片描述

第二种,需在模型界面点击Train->Auto Train(部分模型不支持)->Create a new AutoTrain project,后续操作类似,点击后出现如下界面:
在这里插入图片描述此时自动创建Space,起名为AutoTrainLLM,协议选择other,Space SDK选择Docker,Docker template选择AutoTrain,其余保持默认,点击“Create Space”。

此时没登录会提示登录,登录后对新建AutoTrainLLM进行授权,授权后进入训练界面,如下图所示:
在这里插入图片描述为微调工程命名(名字中不能有特殊字符,否则回报不知名错误,如笔者图中去掉名字中点号后才运行成功),也可以选择已创建的工程。Task选择为LLM SFT,Base Model选择需要微调的模型,此处选为cognitivecomputations/dolphin-2.9-llama3-8b。

重点来了,Dataset训练数据集即对模型进行微调的数据集,如果有自己的数据集,选择Upload Dataset后上传自己的数据集。否则可以从Hugging Face Hub中挑选数据集,如我们选用1.2.2小节提到的数据集databricks/databricks-dolly-15k,根据数据集的训练提示,Train Split填为15000,然后根据实际需要调节右侧训练参数Training Parameters,最后点击“Start Training->Yes, I’m sure”,微调成功后会提示“Success! Monitor your job locally /in logs”。此时查看右上角的Logs,会有训练的日志输出,如下图:
在这里插入图片描述

1.3 Space应用

1.3.1 内容简介

此节我们介绍丰富多彩的Spaces应用,帮大家了解Spaces一二,方便大家可以自己探索这些令人眼花缭乱又惊喜不断的Apps。其首页如下图:
在这里插入图片描述使用Spaces可在几分钟内构建、托管和共享ML应用程序。使用Spaces部署应用程序具有如下优势:

  1. Get started quickly:提供了构建和托管大型人工智能应用程序和演示所需的所有工具,比如CLion,KDevelop等。
  2. Optimized for AI:运行在Hugging Face优化的ML基础硬件设施上,只需点击几下即可大规模部署您的应用程序。
  3. Zero GPU:通过一种新型的分布式GPU,可以在运行中自动扩展应用程序。
  4. Craft collaboratively(协同制作):通过开箱即用的基于git的版本控制工作流,个人和团队可以轻松协作构建人工智能应用程序。
  5. Build it your way:使用Streamlit、Gradio甚至Docker来构建、部署和托管人工智能应用程序。
  6. Various Hardware:从免费的CPU到TPU,您可以为您的应用程序获得合适的硬件。
  7. Build your portfolio:向社区展示您的工作,构建独特的应用程序,并与其他人工智能建设者建立新的联系。

Hugging Face为每个Space应用提供了免费的两核CPU+16GB内存的服务器资源,但免费服务器会在闲置一定时间后自动进入休眠状态,并在有用户访问时被再次唤醒。为了获得更稳定访问,可以付费升级、向社区申请赞助或向官方申请免费升级。

下面我们就来看一看具体的Spaces应用并亲手创建一个自己的Spaces应用程序。

1.3.2 虚拟换装:IDM-VTON

IDM-VTON是一个在线衣服试穿程序,通过上传人像和衣服照片,可以自动生成试穿效果,如下图所示:
在这里插入图片描述

操作步骤如下:

  1. 首先,上传人物照片和衣服照片,也可选择示例图。
  2. 然后,编写prompt(可留空)添加自己想要的效果,如beautiful woman, detailed face, sunset over sea, top light。
  3. 第三步,可勾选自动生成掩码图像和自动调整大小,避免图片被拉伸变形。
  4. 最后,还可通过Advances设置去噪步数和随机种子。增加去噪步数可以生成更精美图像,如果对本次生成结果不满,可设置不同的随机种子来生成不同效果的图像。

设置完毕后点击最下方的"try on",等待几十秒即可看到试穿效果。

1.3.3 灯光特效:IC-Light

通过IDM-VTON换装的图片还缺点大片特效,IC-Light正好可以添加不同风格的光影特效,让你的图片秒变大师手笔,效果如下图所示:
在这里插入图片描述操作步骤如下:

  1. 上传换装的照片;
  2. 选择灯光偏好、人物细节及灯光细节,选择后会在输入框中出现对应的prompt,当然也可以自己编写prompt;
  3. 选择生成图片张数、随机种子及分辨率,分辨率最大支持1024*1024;
  4. 点击Advanced options(高级可选),选择调整steps(迭代步数)、CFG Scale(代表图像与提示的匹配程度)、Lowres Denoise(低分辨率去噪)、Highres Denoise(高分辨率去噪)、Highres Scale(高分辨率缩放)、Prompt和Negative Prompt(负面提示),读者可根据自己需要尝试不同的组合,体验不同的生成效果。

设置完毕后点击"Relight",等待几十秒钟即可得到不同特效的照片,最后我们就可以把精美大片分享给自己的好友啦。

1.3.4 Artificial Analysis LLM Performance Leaderboard

Artificial Analysis LLM Performance Leaderboard(人工分析LLM性能排行榜)是通过LLM提供的API,独立进行性能基准&计价的榜单,表中罗列了各模型的API供应商、模型名称、上下文窗口、模型质量、计价(美元/百万tokens)、吞吐量、延迟和详细分析,如下图所示:

在这里插入图片描述其中上下文窗口、模型质量、计价、吞吐量和延迟可展开,以便查看更详细的性能指标。
点击详细分析中的Model/Providers,会跳转到artificialanalysis.ai,Model通过图表的形式提供了该模型更详细的性能分析,Providers则通过对比该厂商名下的各个不同版本的Moel,方便我们根据自己的需要选择,如下图所示:
在这里插入图片描述

1.3.5 创建自己的Space应用

通过Hugging Face提供的免费硬件,我们可以创建属于自己的Space应用,并且可以供它人访问、下载和互动。这里介绍两种创建方式:第一种,在Spaces主页点击“Create new space”,如下图:

在这里插入图片描述第二种,直接引用已有模型作为基础模型,创建自己的Space。为了让大家体验不同的模型,这里引用1.1.1节介绍的文生图模型stabilityai/stable-diffusion-xl-base-1.0的精细化版模型stabilityai/stable-diffusion-xl-refiner-1.0,也可以直接使用stable-diffusion-xl-base-1.0,作者在创建refiner版时,遇到不支持image-to-image类型pipline的错误,暂时未解决,所以建议先使用base版本的stable-diffusion。

在模型界面点击Deploy->Spaces,如下图:
在这里插入图片描述弹出如下窗口,点击“Create new Space”:
在这里插入图片描述跳到创建Space页面,如下图所示:
在这里插入图片描述操作步骤如下:

  1. 选择创建者和Space名称,然后选择License,License可从模型标签中查找。
  2. Space SDK选为Gradio,对应的Gradio template选为chatbot,如果是文生图模型选为text-to-image。
  3. Space hardware选择免费版即可,不过免费版在两天闲置后就会陷入休眠,如长期使用可升级为收费版硬件。
  4. Preset Files为预置文件,如果通过Spaces主页创建,则预置文件为空。权限选为Public。

操作完毕后,点击Create Space进入Building&Starting界面,等待1分左右,就会创建成功,如下图:

通过文生图模型生成图片后,再通过精细化模型对细节进行调整,最后呈现效果如下图所示:
在这里插入图片描述可以看到,熊猫和老虎的眼睛、嘴巴、爪子和瀑布、竹林、石头的细节都得到了强化。您也可以用它来对老照片进行美化处理。

2. Hugging Face其他资源介绍

2.1 Hugging Face开源库

2.2 Hugging Face Gradio工具

2.3 Hugging Face学习资源

2.3.1 NLP课程

2.3.2 扩散模型课程

2.3.3 深度强化学习课程

2.4 Hugging Face各个资源网址

3. 扩散模型原理

参考资料:
《扩散模型从原理到实战》----李忻玮,苏步升,徐浩然,余海铭。人民邮电出版社

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/13451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

理解 Python 中的 `super()` 与 `__init__()` 方法

在 Python 的面向对象编程中,super() 函数和 __init__() 方法是两个非常重要的概念。它们在类的继承和初始化过程中扮演着关键的角色。本文将深入探讨这两个概念的工作原理,并通过示例代码来展示它们的使用。 基本原理 __init__() 方法 __init__() 是…

Vue中的全局事件总线:EventBus与$bus的比较详解与实战应用

EventBus实例: var EventBus new Vue() 会创建一个名为EventBus的Vue实例,并将其存储在变量EventBus中。Vue.prototype.$bus new Vue() 则直接在Vue的原型上创建一个新的Vue实例,并将其赋值给$bus属性。 使用方式: var EventBus…

C# 结合 JavaScript 对 Web 控件进行数据输入验证

目录 关于数据验证 范例运行环境 验证设计 JavaScript 方法 设计 实现 调用示例 C# 方法 设计 实现 调用示例 小结 关于数据验证 在 Web 应用的录入界面,数据验证是一项重要的实现功能,数据验证是指确认 Web 控件输入或选择的数据&#xff…

类对象作为类成员

在C中,类对象可以作为另一个类的成员变量。这种设计方式可以用于创建复杂的对象结构,使得一个类的对象能够包含另一个类的对象。这种嵌套类的组合方式可以增强代码的可重用性和模块化。 类对象作为类成员的示例 让我们通过一个示例来解释这一概念。假设…

武汉信息系统建设和服务能力评估CS认证咨询

很多企业在咨询信息系统建设和服务能力评估的时候喜欢百度搜索,不管是本地咨询机构还是外地咨询机构只要价格便宜就找谁,这个在低等级的CS1是可以这么操作的,一旦上升到CS2级别及以上的,我们一般不推荐找外地咨询机构,…

【文末附gpt升级方案】字节跳动发布豆包大模型:AI领域的革新与引领

随着科技的飞速进步,人工智能(AI)已逐渐成为推动社会发展的重要力量。在这一背景下,字节跳动公司以其前瞻性的眼光和创新能力,于XXXX年XX月XX日正式发布了豆包大模型,这一举动无疑在AI领域掀起了新一轮的浪…

C语言.动态内存管理

动态内存管理 1.为什么要有动态内存分配2.malloc和free2.1malloc2.2free 3.calloc和realloc3.1calloc3.2realloc 4.常见的动态内存管理的错误4.1对NULL指针解引用操作4.2对动态开辟空间的越界访问4.3对非动态开辟内存使用free释放4.4使用free释放一块动态开辟内存的一部分4.5对…

军训中的美差

大学时候的军训是在二年级秋季开学前进行的,地点是在河北的某部队。 军训时候的分班是按照学号重新划分的,我的学号在大学宿舍八个人中排最后,恰好就和其他宿舍的人分在了一个班。训练正步走的时候,站在我左边的那个哥们&#xf…

Signal 即将成为JavaScript的一部分

什么是响应性? 在过去的几年中,响应性成为了所有现代前端框架以及React库的核心。 对于不熟悉前端开发的人来说,起初这可能是一个令人困惑的概念,因为它改变了常规的、自上而下的、从调用者到被调用者的顺序工作流。 在响应性范…

AR系列路由器配置VLAN间通信

AR路由器是华为公司推出的企业级路由器产品系列,具有高可靠性、高性能和易管理等特点。AR 系列路由器提供的功能包括路由转发、安全接入、语音、视频、无线等多种业务,支持各种接入方式和协议,并且可以方便地进行扩展和升级。 实验拓扑图&…

微信小程序介绍

一、微信小程序概述 微信小程序是一种不需要下载、安装即可使用的应用,用户只需扫一扫或搜一下即可打开。它实现了应用触手可及的梦想,降低了应用的使用门槛。微信小程序自2017年1月上线以来,已经吸引了大量开发者加入,构建了一个…

【全开源】云界旅游微信小程序(源码搭建/上线/运营/售后/维护更新)

开启您的云端旅行新体验 一、引言 在快节奏的现代生活中,旅行成为了人们放松身心、探索世界的重要方式。让您的旅行更加便捷、高效,打造了云界旅游小程序,带您领略云端旅行的无限魅力。 二、小程序功能概览 云界旅游小程序集成了丰富的旅游…

【代码随想录算法训练营第37期 第九天 | LeetCode28. 实现 strStr()、459.重复的子字符串】

代码随想录算法训练营第37期 第九天 | LeetCode28. 实现 strStr()、459.重复的子字符串 一、28. 实现 strStr() 解题代码C&#xff1a; class Solution { public:void getNext(int* next, const string& s) {int j 0;next[0] 0;for(int i 1; i < s.size(); i) {whi…

【Maven】Nexus私服简介_下载安装_登录

1、简介 1.1介绍 Nexus私服&#xff0c;也被称为Maven仓库管理器&#xff0c;是许多公司在自己的局域网内搭建的远程仓库服务器。提供了强大的仓库管理功能和构件搜索功能&#xff0c;使得开发人员能够更方便地管理和使用Maven项目中的依赖库。 1.2作用 内网访问&#xff1…

Python代码:七、小数化整数

1、题目 日常生活中我们会遇到很多小数&#xff0c;但是有的人不喜欢小数&#xff0c;因此会用四舍五入的方式将其去掉。在Python中我们更加简单&#xff0c;可以利用强制类型转换将小数转变成整数&#xff0c;请你试一试。 2、代码 import sysn float(input()) print(int(…

微服务(Spring Clould)--Nacos的安装、配置

简介&#xff1a;&#xff08;取自官网&#xff09; Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service的首字母简称&#xff0c;一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 Nacos 致力于帮助您发现、配置和管理微服务。Nacos 提供了…

<sa8650>QCX Usecase 使用详解—什么是可剪枝节点属性以及何时使用

<sa8650>QCX Usecase 使用详解—什么是可剪枝节点属性以及何时使用 用例剪枝可实现光流设计分段(节点和目标缓冲区),这些分段实现了共享的逻辑接口,而这些接口的实现可能会发生冲突,但不会重复流水线。例如,overridesettings.txt 中的 enableAutoNoIPE=FALSE。 在 /qc…

《表格革命:数据可视化的力量与创新》

在当今数字化的时代&#xff0c;表格已不再是简单的罗列工具&#xff0c;而是一场正在悄然兴起的革命&#xff01; 表格&#xff0c;这个看似平凡无奇的存在&#xff0c;却在各个领域发挥着至关重要的作用。无论是商业数据分析中精准呈现销售趋势和市场动态&#xff0c;还是学…

React 第三十七章 Scheduler 最小堆算法

在 Scheduler 中&#xff0c;使用最小堆的数据结构在对任务进行排序。 // 两个任务队列 var taskQueue: Array<Task> []; var timerQueue: Array<Task> [];push(timerQueue, newTask); // 像数组中推入一个任务 pop(timerQueue); // 从数组中弹出一个任务 time…

【深入理解MySQL的索引数据结构】

文章目录 &#x1f4d5;索引底层数据结构与算法&#x1f4d9;索引数据结构&#x1f4d8;二叉树&#x1f4d8;红黑树&#x1f4d8;Hash&#x1f4d8;B-Tree&#x1f4d8;BTree &#x1f4d9;表在不同存储引擎的存储结构&#x1f4d8;MyISAM存储引擎索引实现&#x1f4da;文件结构…