HunyuanVideo 文生视频模型实践

HunyuanVideo 文生视频模型实践

flyfish

运行 HunyuanVideo 模型使用文本生成视频的推荐配置(batch size = 1):

模型分辨率
(height/width/frame)
峰值显存
HunyuanVideo720px1280px129f60G
HunyuanVideo544px960px129f45G
  • 本项目适用于使用 NVIDIA GPU 和支持 CUDA 的设备
    • 模型在单张 80G GPU 上测试
    • 运行 720px1280px129f 的最小显存要求是 60GB,544px960px129f 的最小显存要求是 45GB。
  • 测试操作系统:Linux

HunyuanVideo: A Systematic Framework For Large Video Generation Model

HunyuanVideo/ckpts/文件夹下的模型

在这里插入图片描述

HunyuanVideo├──ckpts│  ├──README.md│  ├──hunyuan-video-t2v-720p│  │  ├──transformers│  │  │  ├──mp_rank_00_model_states.pt│  │  │  ├──mp_rank_00_model_states_fp8.pt│  │  │  ├──mp_rank_00_model_states_fp8_map.pt├  │  ├──vae│  ├──text_encoder│  ├──text_encoder_2├──...关键配置项:|        参数        |  默认值  |                描述                |
|:----------------------:|:---------:|:-----------------------------------------:|
|       `--prompt`       |   None    |   用于生成视频的 prompt    |
|     `--video-size`     | 720 1280  |      生成视频的高度和宽度      |
|    `--video-length`    |    129    |     生成视频的帧数     |
|    `--infer-steps`     |    50     |     生成时采样的步数      |
| `--embedded-cfg-scale` |    6.0    |    文本的控制强度       |
|     `--flow-shift`     |    7.0    | 推理时 timestep 的 shift 系数,值越大,高噪区域采样步数越多 |
|     `--flow-reverse`   |    False  | If reverse, learning/sampling from t=1 -> t=0 |
|     `--neg-prompt`     |   None    | 负向词  |
|        `--seed`        |     0     |   随机种子    |
|  `--use-cpu-offload`   |   False   |    启用 CPU offload,可以节省显存    |
|     `--save-path`      | ./results |     保存路径      |## 结果
```csharp
(HunyuanVideo) sss@sss-Super-Server:~/source/HunyuanVideo$ python3 sample_video.py \--video-size 544 960 \--video-length 129 \--infer-steps 50 \--prompt "A cat walks on the grass, realistic style." \--flow-reverse \--use-cpu-offload \--save-path ./results
Namespace(model='HYVideo-T/2-cfgdistill', latent_channels=16, precision='bf16', rope_theta=256, vae='884-16c-hy', vae_precision='fp16', vae_tiling=True, text_encoder='llm', text_encoder_precision='fp16', text_states_dim=4096, text_len=256, tokenizer='llm', prompt_template='dit-llm-encode', prompt_template_video='dit-llm-encode-video', hidden_state_skip_layer=2, apply_final_norm=False, text_encoder_2='clipL', text_encoder_precision_2='fp16', text_states_dim_2=768, tokenizer_2='clipL', text_len_2=77, denoise_type='flow', flow_shift=7.0, flow_reverse=True, flow_solver='euler', use_linear_quadratic_schedule=False, linear_schedule_end=25, model_base='ckpts', dit_weight='ckpts/hunyuan-video-t2v-720p/transformers/mp_rank_00_model_states.pt', model_resolution='540p', load_key='module', use_cpu_offload=True, batch_size=1, infer_steps=2, disable_autocast=False, save_path='./results', save_path_suffix='', name_suffix='', num_videos=1, video_size=[544, 960], video_length=129, prompt='A cat walks on the grass, realistic style.', seed_type='auto', seed=None, neg_prompt=None, cfg_scale=1.0, embedded_cfg_scale=6.0, use_fp8=False, reproduce=False, ulysses_degree=1, ring_degree=1)
2024-12-21 21:50:51.616 | INFO     | hyvideo.inference:from_pretrained:154 - Got text-to-video model root path: ckpts
2024-12-21 21:50:51.616 | INFO     | hyvideo.inference:from_pretrained:189 - Building model...
2024-12-21 21:50:52.098 | INFO     | hyvideo.inference:load_state_dict:340 - Loading torch model ckpts/hunyuan-video-t2v-720p/transformers/mp_rank_00_model_states.pt...
/home/sss/tool/HunyuanVideo/hyvideo/inference.py:341: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.state_dict = torch.load(model_path, map_location=lambda storage, loc: storage)
2024-12-21 21:51:05.739 | INFO     | hyvideo.vae:load_vae:29 - Loading 3D VAE model (884-16c-hy) from: ./ckpts/hunyuan-video-t2v-720p/vae
/home/sss/tool/HunyuanVideo/hyvideo/vae/__init__.py:39: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.ckpt = torch.load(vae_ckpt, map_location=vae.device)
2024-12-21 21:51:07.546 | INFO     | hyvideo.vae:load_vae:55 - VAE to dtype: torch.float16
2024-12-21 21:51:07.577 | INFO     | hyvideo.text_encoder:load_text_encoder:28 - Loading text encoder model (llm) from: ./ckpts/text_encoder
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  2.42it/s]
2024-12-21 21:51:10.888 | INFO     | hyvideo.text_encoder:load_text_encoder:50 - Text encoder to dtype: torch.float16
2024-12-21 21:51:10.890 | INFO     | hyvideo.text_encoder:load_tokenizer:64 - Loading tokenizer (llm) from: ./ckpts/text_encoder
2024-12-21 21:51:11.263 | INFO     | hyvideo.text_encoder:load_text_encoder:28 - Loading text encoder model (clipL) from: ./ckpts/text_encoder_2
2024-12-21 21:51:11.331 | INFO     | hyvideo.text_encoder:load_text_encoder:50 - Text encoder to dtype: torch.float16
2024-12-21 21:51:11.332 | INFO     | hyvideo.text_encoder:load_tokenizer:64 - Loading tokenizer (clipL) from: ./ckpts/text_encoder_2
2024-12-21 21:51:11.454 | INFO     | hyvideo.inference:predict:580 - Input (height, width, video_length) = (544, 960, 129)
2024-12-21 21:51:11.469 | DEBUG    | hyvideo.inference:predict:640 - height: 544width: 960video_length: 129prompt: ['A cat walks on the grass, realistic style.']neg_prompt: ['Aerial view, aerial view, overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion']seed: Noneinfer_steps: 50num_videos_per_prompt: 1guidance_scale: 1.0n_tokens: 67320flow_shift: 7.0embedded_guidance_scale: 6.0
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [01:25<00:00, 42.71s/it]
2024-12-21 21:54:32.410 | INFO     | hyvideo.inference:predict:669 - Success, time: 200.9416298866272
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
To disable this warning, you can either:- Avoid using `tokenizers` before the fork if possible- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
2024-12-21 21:54:34.807 | INFO     | __main__:main:55 - Sample save to: ./results/seed452372_A cat walks on the grass, realistic style.mp4

代码

import os
import time
from pathlib import Path
from loguru import logger
from datetime import datetimefrom hyvideo.utils.file_utils import save_videos_grid
from hyvideo.config import parse_args
from hyvideo.inference import HunyuanVideoSamplerdef main():# 解析命令行参数args = parse_args()# 打印解析得到的参数,方便调试和查看输入信息print(args)# 将模型的根路径转换为 Path 对象,方便后续路径操作models_root_path = Path(args.model_base)# 检查模型根路径是否存在,如果不存在则抛出异常if not models_root_path.exists():raise ValueError(f"`models_root` 不存在: {models_root_path}")# 创建保存样本的文件夹# 如果 save_path_suffix 为空,则使用 save_path 作为保存路径,否则将后缀添加到 save_path 后save_path = args.save_path if args.save_path_suffix == "" else f'{args.save_path}_{args.save_path_suffix}'# 若保存路径不存在,则创建该目录,exist_ok=True 表示如果目录已存在不会引发异常if not os.path.exists(args.save_path):os.makedirs(save_path, exist_ok=True)# 从预训练模型的路径加载 HunyuanVideoSampler 模型,并传入解析得到的命令行参数hunyuan_video_sampler = HunyuanVideoSampler.from_pretrained(models_root_path, args=args)# 获取更新后的参数,可能是因为加载模型时对参数进行了某些调整args = hunyuan_video_sampler.args# 开始采样# TODO: 批量推理检查,这里可能需要后续完善批量推理的检查逻辑outputs = hunyuan_video_sampler.predict(# 输入的提示信息,用于引导视频生成prompt=args.prompt, # 视频的高度height=args.video_size[0],# 视频的宽度width=args.video_size[1],# 视频的长度video_length=args.video_length,# 随机种子,用于保证结果的可重复性seed=args.seed,# 负向提示信息,可能用于引导模型避免生成某些内容negative_prompt=args.neg_prompt,# 推理的步数,可能影响生成视频的质量和细节infer_steps=args.infer_steps,# 引导规模,可能影响生成结果与提示的符合程度guidance_scale=args.cfg_scale,# 每个提示对应的视频数量num_videos_per_prompt=args.num_videos,# 可能与视频流的偏移有关的参数flow_shift=args.flow_shift,# 推理的批量大小batch_size=args.batch_size,# 可能是嵌入的引导规模参数embedded_guidance_scale=args.embedded_cfg_scale)# 从输出中获取采样得到的样本,可能是生成的视频数据samples = outputs['samples']# 保存样本# 检查是否处于分布式环境或当前进程是否是主进程,可能用于分布式训练时的保存操作if 'LOCAL_RANK' not in os.environ or int(os.environ['LOCAL_RANK']) == 0:for i, sample in enumerate(samples):# 为当前样本添加一个维度,可能是为了满足后续保存操作的格式要求sample = samples[i].unsqueeze(0)# 获取当前时间并格式化为字符串,作为时间戳time_flag = datetime.fromtimestamp(time.time()).strftime("%Y-%m-%d-%H:%M:%S")# 构建保存样本的路径,包含时间戳、种子信息和提示信息save_path = f"{save_path}/{time_flag}_seed{outputs['seeds'][i]}_{outputs['prompts'][i][:100].replace('/','')}.mp4"# 使用 save_videos_grid 函数保存视频,帧率为 24save_videos_grid(sample, save_path, fps=24)# 记录样本保存的路径信息,方便查看保存位置logger.info(f'样本保存到: {save_path}')if __name__ == "__main__":main()

VAE 理解

VAE即变分自编码器(Variational Autoencoder),是一种生成模型,以下是对其的详细介绍:

基本架构

• 编码器:将输入数据编码成潜在空间中的概率分布参数,通常是输出一个均值向量和一个方差向量,这两个向量共同描述了潜在变量的正态分布。

• 解码器:从潜在空间的概率分布中采样得到潜在变量,然后将其解码还原为与输入数据相似的输出。

工作原理

• 编码过程:输入数据通过编码器网络,编码器学习到输入数据的潜在特征,并将这些特征表示为潜在空间中的概率分布参数,即均值和方差。

• 重参数化技巧:由于概率分布无法直接进行梯度下降优化,VAE采用重参数化技巧,将潜在变量的采样过程转化为可微分的操作。具体来说,通过引入一个随机噪声变量,将其与均值和方差相结合,从而得到潜在变量的样本,这样就可以在反向传播过程中计算梯度并更新网络参数。

• 解码过程:采样得到的潜在变量输入到解码器网络,解码器根据这些潜在特征尝试重建原始输入数据。

• 损失函数:VAE的损失函数由两部分组成,一部分是重建误差,衡量重建数据与原始数据之间的差异,通常使用均方误差等指标;另一部分是KL散度,衡量编码器输出的概率分布与先验分布(一般为标准正态分布)之间的差异,通过最小化KL散度,使潜在空间的分布更加平滑和连续,有助于生成更高质量的新样本。

特点

• 生成能力:能够学习数据的潜在分布,从而生成与训练数据相似但又不完全相同的全新样本,可用于图像生成、文本生成等任务。

• 连续且有结构的隐空间:在潜在空间中学习到的表示是连续且有结构的,这使得样本插值和生成更加自然,也便于进行各种基于潜在空间的操作,如插值、算术运算等,以探索数据的不同特征和属性。

• 概率建模:通过最大化似然函数,能够有效地捕捉数据的复杂分布,为数据建模提供了一种概率视角,有助于更好地理解和解释数据的生成过程。

应用场景

• 图像生成:可以生成各种类型的图像,如手写数字、人脸图像、自然景观等,通过调整潜在变量的值,可以控制生成图像的不同特征,如人脸的表情、年龄、性别等。

• 数据增强:在训练数据有限的情况下,利用VAE生成与原始数据相似的新样本,扩充数据集,提高模型在分类、回归等任务上的性能和泛化能力。

• 异常检测:先学习正常数据的分布,然后对测试数据进行重建,如果重建误差较大,则认为该数据是异常数据,可用于工业设备故障检测、网络安全入侵检测等领域。

• 特征学习与降维:通过编码器将高维数据压缩成低维的潜在表示,这些潜在特征可以用于后续的机器学习任务,如分类、聚类等,同时也可以实现数据的可视化降维。

variational 理解

在变分自编码器(Variational Autoencoder,VAE)中,“variational”一词主要来源于其采用的变分推断(Variational Inference)方法,以下是对其具体理解:

“variational”体现了VAE在建模过程中对数据不确定性的一种变分处理方式,通过引入变分分布并利用变分推断方法来近似难以直接计算的真实后验分布,从而能够在潜在空间中学习到数据的概率分布,实现有效的数据生成和特征学习。这种变分的思想使得VAE在生成模型领域具有独特的优势,能够生成具有多样性且符合数据分布的新样本。
变分推断的引入背景

• 在传统的自编码器中,编码器将输入数据编码为一个确定性的低维表示,即一个固定向量。然而,这种表示方式无法捕捉数据的不确定性信息,也不利于生成新的样本。而VAE的目标是学习数据的概率分布,以便能够生成与训练数据相似的新样本,这就需要引入概率模型和推断方法来处理数据的不确定性,变分推断便应运而生。

变分推断的基本思想

• 概率图模型框架:VAE可以看作是一个概率图模型,其中输入数据x与潜在变量z之间存在某种概率关系。理想情况下,我们希望直接计算后验分布p(z|x),即给定输入数据x时潜在变量z的分布,从而了解数据的内在结构和不确定性。然而,这个后验分布往往难以直接计算,因为它涉及到复杂的积分运算。

• 变分分布的引入:变分推断通过引入一个变分分布q(z|x),来近似真实的后验分布p(z|x)。这个变分分布q(z|x)是参数化的,其参数可以通过优化过程来学习,使其尽可能地接近真实的后验分布。在VAE中,编码器的作用就是学习这个变分分布q(z|x)的参数,通常是输出潜在变量z的均值和方差,从而定义了一个以这些参数为特征的正态分布作为变分分布。

优化过程与KL散度

• 证据下界(ELBO):为了衡量变分分布q(z|x)与真实后验分布p(z|x)之间的相似程度,变分推断定义了一个证据下界(Evidence Lower BOund,ELBO),它是模型对数似然函数的一个下界。ELBO由两部分组成,一部分是重建误差,衡量解码器根据潜在变量z重建输入数据x的质量;另一部分是KL散度,衡量变分分布q(z|x)与先验分布p(z)之间的差异。

• 优化目标:VAE的训练目标就是最大化ELBO,这等价于最小化变分分布q(z|x)与真实后验分布p(z|x)之间的KL散度,同时最大化重建误差。通过这种方式,编码器学习到的变分分布能够更好地近似真实的后验分布,使得潜在变量z能够有效地捕捉输入数据x的不确定性信息,为生成新样本提供有力支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/66440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第6章 ThreadGroup详细讲解(Java高并发编程详解:多线程与系统设计)

1.ThreadGroup 与 Thread 在Java程序中&#xff0c; 默认情况下&#xff0c; 新的线程都会被加入到main线程所在的group中&#xff0c; main线程的group名字同线程名。如同线程存在父子关系一样&#xff0c; Thread Group同样也存在父子关系。图6-1就很好地说明了父子thread、父…

Python编程与在线医疗平台数据挖掘与数据应用交互性研究

一、引言 1.1 研究背景与意义 在互联网技术飞速发展的当下,在线医疗平台如雨后春笋般涌现,为人们的就医方式带来了重大变革。这些平台打破了传统医疗服务在时间和空间上的限制,使患者能够更加便捷地获取医疗资源。据相关报告显示,中国基于互联网的医疗保健行业已进入新的…

Linux网络_套接字_UDP网络_TCP网络

一.UDP网络 1.socket()创建套接字 #include<sys/socket.h> int socket(int domain, int type, int protocol);domain (地址族): AF_INET网络 AF_UNIX本地 AF_INET&#xff1a;IPv4 地址族&#xff0c;适用于 IPv4 协议。用于网络通信AF_INET6&#xff1a;IPv6 地址族&a…

1 行命令引发的 Go 应用崩溃

一、前言 不久前&#xff0c;阿里云 ARMS 团队、编译器团队、MSE 团队携手合作&#xff0c;共同发布并开源了 Go 语言的编译时自动插桩技术。该技术以其零侵入的特性&#xff0c;为 Go 应用提供了与 Java 监控能力相媲美的解决方案。开发者只需将 go build 替换为新编译命令 o…

Flink(十):DataStream API (七) 状态

1. 状态的定义 在 Apache Flink 中&#xff0c;状态&#xff08;State&#xff09; 是指在数据流处理过程中需要持久化和追踪的中间数据&#xff0c;它允许 Flink 在处理事件时保持上下文信息&#xff0c;从而支持复杂的流式计算任务&#xff0c;如聚合、窗口计算、联接等。状…

C#项目生成时提示缺少引用

问题描述 刚从git或svn拉取下来的C#项目&#xff0c;在VS生成时提示缺少引用 解决方案 1、从“管理NuGet程序包”中下载并安装缺少的引用&#xff0c;如果引用较多逐个下载安装会比较麻烦&#xff0c;建议采用下面第2种方案处理 2、通过命令对所有缺少引用进行安装 &#…

EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成

EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成 1所有的材料都可以在EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model网站上找到。 摘要 尽管音频驱动的对话人脸生成技术已取得显著进展&#xff0c;但现有方法要么忽…

BeanFactory 是什么?它与 ApplicationContext 有什么区别?

谈到Spring&#xff0c;那势必要讲讲容器 BeanFactory 和 ApplicationContext。 BeanFactory是什么&#xff1f; BeanFactory&#xff0c;其实就是 Spring 容器&#xff0c;用于管理和操作 Spring 容器中的 Bean。可能此时又有初学的小伙伴会问&#xff1a;Bean 是什么&#x…

python实现pdf转word和excel

一、引言   在办公中&#xff0c;我们经常遇收到pdf文件格式&#xff0c;因为pdf格式文件不易修改&#xff0c;当我们需要编辑这些pdf文件时&#xff0c;经常需要开通会员或收费功能才能使用编辑功能。今天&#xff0c;我要和大家分享的&#xff0c;是如何使用python编程实现…

Java锁 公平锁和非公平锁 ReentrantLock() 深入源码解析

卖票问题 我们现在有五个售票员 五个线程分别卖票 卖票 ReentrantLock(); 运行后全是 a 对象获取 非公平锁缺点之一 容易出现锁饥饿 默认是使用的非公平锁 也可以传入一个 true 参数 使其变成公平锁 生活中排队讲求先来后到 视为公平 程序中的公平性也是符合请求锁的绝对…

「刘一哥GIS」系列专栏《GRASS GIS零基础入门实验教程(配套案例数据)》专栏上线了

「刘一哥GIS」系列专栏《GRASS GIS零基础入门实验教程》全新上线了&#xff0c;欢迎广大GISer朋友关注&#xff0c;一起探索GIS奥秘&#xff0c;分享GIS价值&#xff01; 本专栏以实战案例的形式&#xff0c;深入浅出地介绍了GRASS GIS的基本使用方法&#xff0c;用一个个实例讲…

企业级NoSQL数据库Redis

1.浏览器缓存过期机制 1.1 最后修改时间 last-modified 浏览器缓存机制是优化网页加载速度和减少服务器负载的重要手段。以下是关于浏览器缓存过期机制、Last-Modified 和 ETag 的详细讲解&#xff1a; 一、Last-Modified 头部 定义&#xff1a;Last-Modified 表示服务器上资源…

使用Flask和Pydantic实现参数验证

使用Flask和Pydantic实现参数验证 1 简介 Pydantic是一个用于数据验证和解析的 Python 库&#xff0c;版本2的性能有较大提升&#xff0c;很多框架使用Pydantic做数据校验。 # 官方参考文档 https://docs.pydantic.dev/latest/# Github地址 https://github.com/pydantic/pyd…

ScratchLLMStepByStep:训练自己的Tokenizer

1. 引言 分词器是每个大语言模型必不可少的组件&#xff0c;但每个大语言模型的分词器几乎都不相同。如果要训练自己的分词器&#xff0c;可以使用huggingface的tokenizers框架&#xff0c;tokenizers包含以下主要组件&#xff1a; Tokenizer: 分词器的核心组件&#xff0c;定…

C# OpenCvSharp 部署3D人脸重建3DDFA-V3

目录 说明 效果 模型信息 landmark.onnx net_recon.onnx net_recon_mbnet.onnx retinaface_resnet50.onnx 项目 代码 下载 参考 C# OpenCvSharp 部署3D人脸重建3DDFA-V3 说明 地址&#xff1a;https://github.com/wang-zidu/3DDFA-V3 3DDFA_V3 uses the geometri…

从零开始学数据库 day2 DML

从零开始学数据库&#xff1a;DML操作详解 在今天的数字化时代&#xff0c;数据库的使用已经成为了各行各业的必备技能。无论你是想开发一个简单的应用&#xff0c;还是想要管理复杂的数据&#xff0c;掌握数据库的基本操作都是至关重要的。在这篇博客中&#xff0c;我们将专注…

运行fastGPT 第五步 配置FastGPT和上传知识库 打造AI客服

运行fastGPT 第五步 配置FastGPT和上传知识库 打造AI客服 根据上一步的步骤&#xff0c;已经调试了ONE API的接口&#xff0c;下面&#xff0c;我们就登陆fastGPT吧 http://xxx.xxx.xxx.xxx:3000/ 这个就是你的fastGPT后台地址&#xff0c;可以在configer文件中找到。 账号是…

第4章 Kafka核心API——Kafka客户端操作

Kafka客户端操作 一. 客户端操作1. AdminClient API 一. 客户端操作 1. AdminClient API

【王树森搜索引擎技术】相关性02:评价指标(AUC、正逆序比、DCG)

相关性的评价指标 Pointwise评价指标&#xff1a;Area Under the Curve&#xff08;AUC&#xff09;Pairwise评价指标&#xff1a;正逆序比&#xff08;Positive to Negative Ratio, PNR&#xff09;Listwise评价指标&#xff1a;Discounted Cumulative Gain(DCG)用AUC和PNR作…

人物一致性训练测评数据集

1.Pulid 训练:由1.5M张从互联网收集的高质量人类图像组成,图像标题由blip2自动生成。 测试:从互联网上收集了一个多样化的肖像测试集,该数据集涵盖了多种肤色、年龄和性别,共计120张图像,我们称之为DivID-120,作为补充资源,还使用了最近开源的测试集Unsplash-50,包含…