大模型学习笔记十一:视觉大模型

一、判别式模型和生成式模型

1)判别式模型Discriminative

①给某一个样本,判断属于某个类别的概率,擅长分类任务,计算量少。(学习策略函数Y =f(X)或者条件概率P(YIX))
②不能反映训练数据本身的特性
③学习成本低(需要的训练样本量少)
④无法转为生成式

2)生成式模型Generative

①学习联合概率密度分布概率P(X,Y,学习所有数据的分布
能够反映训练数据本身的特性,能掌握数据本身的边界信息
③学习成本高(需要的样本数更多)0
④一定条件下可以转换为判别式

  • 示意图
    在这里插入图片描述

二、生成式模型技术路径

2.1 AutoEncoder自编码器

  • 组成
    编码器和解码器(其实就是特征压缩和特征拟合)
  • 示意图
    在这里插入图片描述
  • 注意
    ①AE中的隐变量是不具有语义特性的
    在这里插入图片描述

2.2 VAE变分自编码器(解决生成特定内容图像的问题)

  • 原理
    每一个特征对应一个正态分布的区间,比如微笑、皮肤、性别、胡须、毛发颜色等采样取差值
    在这里插入图片描述
  • 使用
    那我们只需要修改某个特征分布就可以达到想要的效果
  • 缺陷
    联合高斯密度生成信息损失大,图片比较粗糙

2.3 Diffusion Model扩散模型

  • 需求
    保留更多图片信息
  • 包括两个过程
    ①正向扩散过程:向输入数据中逐渐加入噪声的过程
    ②反向去噪过程:通过去噪方式学习数据生成过程
  • 示意图
    在这里插入图片描述+ 预测的是什么?
    预测的是前一步正向扩散加的噪声
  • 步骤
    ①每一步迭代都是从数据集中取一个初始的图像样本作为Xo
    ②把Xo从0到1000之间采样一个时间步的Xt,就是步数,比如取500步,就是给图片加500步噪声
    ③训练利用X500得到X499这样一个去噪过程
  • 公式
    在这里插入图片描述
  • 使用模型案例
    DiT Block
    在这里插入图片描述

2.4 Stabel Diffusion 模型结构

  • 与DM的不同(引入条件信息:对象分类、文本、排版布局、图片参考)
    在这里插入图片描述

  • 特点
    ①引入VAE模型减少计算量(图像特征压缩到原始尺寸的1/4),推理的时间复杂度会降低很多
    ②通过统一方式注入条件类型到模型
    ③CLIP只支持英文

  • 版本更新迭代(以前用的CLIP,普遍有文本内容理解问题,容易生成图文不对齐的情况)
    在这里插入图片描述

  • 特制模型(C站扩展举例)

    1. Indigo Furry mix

模型地址:https://civitai.com/models/34469?modelVersionId=109229

发布者:indigowing(个人主页:https://civitai.com/user/indigowing/models)

介绍:这是一系列的模型,主要专注于雄性兽/龙人(还有非全年龄向内容)。其模型有偏混合向的,偏动漫向的,还有偏现实向的。所以可根据你想画什么风格画风的画,来选择对应表现较好的模型 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili
在这里插入图片描述
2. Crosskemono(furry_model&human_model)

模型地址:https://civitai.com/models/11888?modelVersionId=47368

注:此系列模型附带VAE,配合它来一起使用(VAE的作用可以理解为滤镜,在生成 AI 绘画时,会对输出的颜色和线条产生影响)

发布者:toynya(个人主页:https://civitai.com/user/toynya/models)

介绍:这个系列的模型主要是萌系日系那种风格的,可生成可爱的雄性或者雌性兽人,据演示图来看还可以生成兽娘(Furry程度表中的2级福瑞)。不过需要注意,这个模型也会生成非全年龄向的内容 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili

在这里插入图片描述

  • 定制路线
    ①阶段一:图文对其训练,得出基础模型
    ②阶段二:图文对其训练,得出社区微调模型
  • 使用
    在这里插入图片描述

2.5 级联式文声图模型

2.6 文生图模型

2.7 SD模型的加速方法

三、3D目标生成方法一览

3.1 基于Nerf的方法

3.2 基于扩散模型和的方法

四、视频生成方法一览

4.1 基于文成图预训练模型的方法

4.2 原生视频生成方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/47013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringMVC 控制层框架-上

一、SpringMVC简介 1. 介绍 Spring Web MVC 是基于Servlet API构建的原始Web框架,从一开始就包含在Spring Framework 中。在控制层框架经历Srust、WebWork、Strust2等诸多产品的历代更迭之后,目前业界普遍选择了SpringMVC 作为Java EE项目表述层开发的首…

解读|http和https的区别,谁更好用

在日常我们浏览网页时,有些网站会看到www前面是http,有些是https,这两种有什么区别呢?为什么单单多了“s”,会有人说这个网页会更安全些? HTTP(超文本传输协议)和HTTPS(…

[Labview] 表格单元格外边框 二维图片叠加绘图

最终效果如下所示 转行做Labview都没到三个月,主程居然让我做这么复杂的功能,真是看得起我/(ㄒoㄒ)/~~ 思路大致分为两步 1、确定每个框体的左上/右下单元格位置,转换为表格表格坐标并在二维图片上绘制生成; 2、为二维图片添加…

权威认可 | 海云安开发者安全助手系统通过信通院支撑产品功能认证并荣获信通院2024年数据安全体系建设优秀案例

近日,2024全球数字经济大会——数字安全生态建设专题论坛(以下简称“论坛”)在京成功举办。由全球数字经济大会组委会主办,中国信息通信研究院及公安部第三研究所共同承办,论坛邀请多位专家和企业共同参与。 会上颁发…

android预置apk

在framework开发中,有一些需求是需要预装应用的,有些是预置应用源码,有些是预置apk。今天我们就分享下怎样预置apk 一般系统有自定义的目录,比如我的项目中根目录下有一个文件夹vendor,这里没都是自定义的一些功能。预…

Unity动画系统(3)---融合树

6.1 动画系统基础2-6_哔哩哔哩_bilibili Animator类 using System.Collections; using System.Collections.Generic; using UnityEngine; public class EthanController : MonoBehaviour { private Animator ani; private void Awake() { ani GetComponen…

二百四十四、Hive——Hive中解析复杂JSON,既有对象还有数组,而且数组中包含数组

一、目的 由于协议修改,修改后的原始数据JSON更加复杂,导致Hive中解析的难度更大,搞了一天,还好同事发了篇知乎文章,终于得以解决,天哪,太不容易了 二、数据协议案例 { "deviceNo&qu…

使用 Python 爬虫实现自动获取天气信息并语音播报

简介 在本文中,我将介绍如何使用 Python 编写一个简单的爬虫程序,该程序可以自动获取某个城市的天气信息,并使用语音库将这些信息播报出来。我们将使用 pyttsx3 库进行语音播报,以及 requests 和 lxml 库来获取和解析网页数据。 …

在GPU上运行PyTorch

文章目录 1、查看GPU的CUDA版本2、下载CUDA版本3、安装cuDNN4、配置CUDA环境变量5、安装配置Anaconda6、使用Anaconda7、pycharm导入虚拟环境8、安装带GPU的PyTorch⭐9、总结 🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主&#x…

抖音seo短视频矩阵源码系统开发搭建----开源+二次开发

抖音seo短视频矩阵源码系统开发搭建 是一项技术密集型工作,需要对大数据处理、人工智能等领域有深入了解。该系统开发过程中需要用到多种编程语言,如Java、Python等。同时,需要使用一些框架和技术,如Hadoop、Spark、PyTorch等&am…

verilog刷题笔记

1、选择器实现方式 (1)case语句,注意default (2)if-else语言,注意else,有优先级 (3)三元运算符 ? : 2、阻塞赋值/非阻塞赋值都是过程性赋值&a…

1千多看图猜成语游戏ACCESS\EXCEL数据库

今天闲来无事想写个代码自己搞定,我不写代码已经很久了,主要是年纪不小了对新技术的学习比较吃力,兴趣也被生活打磨的体无完肤。今天又捡起VB(暴露了年纪)搞了一下。 当然,很多事情都是这样,自己…

Docker容器——初识Docker,安装以及了解操作命令

一、Docker是什么? 是一个开源的应用容器引擎,基于go语言开发并遵循了apache2.0协议开源,用来管理容器和镜像的工具是在Linux容器里驱动运行应用的开源工具是一种轻量级的“虚拟机” 基于linux内核运行Docker的容器技术可以在一台主机上轻松为任何应用…

【AI教程-吴恩达讲解Prompts】第1篇 - 课程简介

文章目录 简介Prompt学习相关资源 两类大模型原则与技巧 简介 欢迎来到面向开发者的提示工程部分,本部分内容基于吴恩达老师的《Prompt Engineering for Developer》课程进行编写。《Prompt Engineering for Developer》课程是由吴恩达老师与 OpenAI 技术团队成员 I…

CentOS 7 网络配置

如想了解请查看 虚拟机安装CentOS7 第一步:查看虚拟机网络编辑器、查看NAT设置 (子网ID,网关IP) 第二步:配置VMnet8 IP与DNS 注意事项:子网掩码与默认网关与 第一步 保持一致 第三步:网络配置…

用Pytorch实现线性回归(Linear Regression with Pytorch)

使用pytorch写神经网络的第一步就是需要准备好数据集,设计模型(用于计算y_hat(y的预测值)),构造损失函数和优化器(使用PyTorch API),写训练周期(前馈&#xf…

Centos7 rpm 安装 Mysql 8.0.28

Centos7 rpm 安装 Mysql 8.0.28 一、检查系统是否已经安装了Mysql 如果安装了则卸载 [rootiZbp1byzaznzn9jncxr010Z /]# rpm -qa | grep mysql[rootiZbp1byzaznzn9jncxr010Z /]# rpm -qa | grep mariadb mariadb-libs-5.5.68-1.el7.x86_64如果安装了 mysql ,maria…

2-36 基于matlab的流行学习算法程序

基于matlab的流行学习算法程序。通过GUI的形式将MDS、PCA、ISOMAP、LLE、Hessian LLE、Laplacian、Dissusion MAP、LTSA八种算法。程序以可视化界面进行展示,可直接调用进行分析。多种案例举例说明八种方法优劣,并且可设置自己数据进行分析。程序已调通&…

鸿蒙语言基础类库:【@system.brightness (屏幕亮度)】

屏幕亮度 说明: 从API Version 7 开始,该接口不再维护,推荐使用新接口[ohos.brightness]。本模块首批接口从API version 3开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import brightness from sy…

【算法】LRU缓存

难度:中等 题目: 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存int get(int key) 如果关键字 key 存在于缓存中,…