大模型学习笔记十一：视觉大模型

大模型学习笔记十一：视觉大模型

diannao/2025/7/8 17:07:52/文章来源:https://blog.csdn.net/weixin_43679037/article/details/140448386

一、判别式模型和生成式模型

1）判别式模型Discriminative

①给某一个样本，判断属于某个类别的概率，擅长分类任务，计算量少。（学习策略函数Y =f(X)或者条件概率P(YIX)）
②不能反映训练数据本身的特性
③学习成本低(需要的训练样本量少)
④无法转为生成式

2）生成式模型Generative

①学习联合概率密度分布概率P(X,Y，学习所有数据的分布
②能够反映训练数据本身的特性,能掌握数据本身的边界信息
③学习成本高(需要的样本数更多)0
④一定条件下可以转换为判别式

示意图

二、生成式模型技术路径

2.1 AutoEncoder自编码器

组成
编码器和解码器（其实就是特征压缩和特征拟合）
示意图
注意
①AE中的隐变量是不具有语义特性的

2.2 VAE变分自编码器（解决生成特定内容图像的问题）

原理
每一个特征对应一个正态分布的区间，比如微笑、皮肤、性别、胡须、毛发颜色等采样取差值
使用
那我们只需要修改某个特征分布就可以达到想要的效果
缺陷
联合高斯密度生成信息损失大，图片比较粗糙

2.3 Diffusion Model扩散模型

需求
保留更多图片信息
包括两个过程
①正向扩散过程：向输入数据中逐渐加入噪声的过程
②反向去噪过程：通过去噪方式学习数据生成过程
示意图
+ 预测的是什么？
预测的是前一步正向扩散加的噪声
步骤
①每一步迭代都是从数据集中取一个初始的图像样本作为Xo
②把Xo从0到1000之间采样一个时间步的Xt，就是步数，比如取500步，就是给图片加500步噪声
③训练利用X500得到X499这样一个去噪过程
公式
使用模型案例
DiT Block

2.4 Stabel Diffusion 模型结构

与DM的不同（引入条件信息：对象分类、文本、排版布局、图片参考）
特点
①引入VAE模型减少计算量(图像特征压缩到原始尺寸的1/4)，推理的时间复杂度会降低很多
②通过统一方式注入条件类型到模型
③CLIP只支持英文
版本更新迭代（以前用的CLIP，普遍有文本内容理解问题，容易生成图文不对齐的情况）
特制模型（C站扩展举例）
1. Indigo Furry mix

模型地址：https://civitai.com/models/34469?modelVersionId=109229

发布者：indigowing（个人主页：https://civitai.com/user/indigowing/models）

介绍：这是一系列的模型，主要专注于雄性兽/龙人（还有非全年龄向内容）。其模型有偏混合向的，偏动漫向的，还有偏现实向的。所以可根据你想画什么风格画风的画，来选择对应表现较好的模型作者：琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处：bilibili
在这里插入图片描述
2. Crosskemono(furry_model&human_model)

模型地址：https://civitai.com/models/11888?modelVersionId=47368

注：此系列模型附带VAE，配合它来一起使用（VAE的作用可以理解为滤镜，在生成 AI 绘画时，会对输出的颜色和线条产生影响）

发布者：toynya（个人主页：https://civitai.com/user/toynya/models）

介绍：这个系列的模型主要是萌系日系那种风格的，可生成可爱的雄性或者雌性兽人，据演示图来看还可以生成兽娘（Furry程度表中的2级福瑞）。不过需要注意，这个模型也会生成非全年龄向的内容作者：琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处：bilibili

在这里插入图片描述

定制路线
①阶段一：图文对其训练，得出基础模型
②阶段二：图文对其训练，得出社区微调模型
使用

2.5 级联式文声图模型

2.6 文生图模型

2.7 SD模型的加速方法

三、3D目标生成方法一览

3.1 基于Nerf的方法

3.2 基于扩散模型和的方法

四、视频生成方法一览

4.1 基于文成图预训练模型的方法

4.2 原生视频生成方法

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/47013.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

精准打击：Conda中conda remove命令的高效使用指南

精准打击：Conda中conda remove命令的高效使用指南

精准打击：Conda中conda remove命令的高效使用指南在Python项目开发中，Conda作为Anaconda发行版中的包管理器，不仅用于安装和管理包，还提供了强大的环境管理功能。随着项目的发展，有时需要从环境中移除不再需要的包。…

阅读更多...

SpringMVC 控制层框架-上

SpringMVC 控制层框架-上

一、SpringMVC简介 1. 介绍 Spring Web MVC 是基于Servlet API构建的原始Web框架，从一开始就包含在Spring Framework 中。在控制层框架经历Srust、WebWork、Strust2等诸多产品的历代更迭之后，目前业界普遍选择了SpringMVC 作为Java EE项目表述层开发的首…

阅读更多...

解读|http和https的区别，谁更好用

解读|http和https的区别，谁更好用

在日常我们浏览网页时，有些网站会看到www前面是http，有些是https，这两种有什么区别呢？为什么单单多了“s”，会有人说这个网页会更安全些？ HTTP（超文本传输协议）和HTTPS（…

阅读更多...

[Labview] 表格单元格外边框二维图片叠加绘图

[Labview] 表格单元格外边框二维图片叠加绘图

最终效果如下所示转行做Labview都没到三个月，主程居然让我做这么复杂的功能，真是看得起我/(ㄒoㄒ)/~~ 思路大致分为两步 1、确定每个框体的左上/右下单元格位置，转换为表格表格坐标并在二维图片上绘制生成； 2、为二维图片添加…

阅读更多...

权威认可 | 海云安开发者安全助手系统通过信通院支撑产品功能认证并荣获信通院2024年数据安全体系建设优秀案例

权威认可 | 海云安开发者安全助手系统通过信通院支撑产品功能认证并荣获信通院2024年数据安全体系建设优秀案例

近日，2024全球数字经济大会——数字安全生态建设专题论坛（以下简称“论坛”）在京成功举办。由全球数字经济大会组委会主办，中国信息通信研究院及公安部第三研究所共同承办，论坛邀请多位专家和企业共同参与。会上颁发…

阅读更多...

简谈设计模式之桥接模式

简谈设计模式之桥接模式

桥接模式是一种结构型设计模式, 它将抽象部分和它的实现部分分离, 使它们可以独立变化. 这意味着可以改变它的抽象和它的实现, 而不会相互影响桥接模式结构抽象 (Abstraction): 定义抽象类, 并包含一个对实现类对象的引用拓展抽象 (Refined Abstraction): 拓展抽象类, 通过…

阅读更多...

PHP开发工具：打造高效的编码体验

PHP开发工具：打造高效的编码体验

本文由 ChatMoney团队出品在PHP开发领域，选择正确的工具可以极大地提升开发效率和代码质量。集成开发环境(IDE) PHPStorm 是一个强大的IDE，专为PHP开发设计。它提供了丰富的功能，如智能代码补全、代码分析、实时错误预防、重构工具、数据…

阅读更多...

android预置apk

android预置apk

在framework开发中，有一些需求是需要预装应用的，有些是预置应用源码，有些是预置apk。今天我们就分享下怎样预置apk 一般系统有自定义的目录，比如我的项目中根目录下有一个文件夹vendor，这里没都是自定义的一些功能。预…

阅读更多...

Unity动画系统（3）---融合树

Unity动画系统（3）---融合树

6.1 动画系统基础2-6_哔哩哔哩_bilibili Animator类 using System.Collections; using System.Collections.Generic; using UnityEngine; public class EthanController : MonoBehaviour { private Animator ani; private void Awake() { ani GetComponen…

阅读更多...

二百四十四、Hive——Hive中解析复杂JSON，既有对象还有数组，而且数组中包含数组

二百四十四、Hive——Hive中解析复杂JSON，既有对象还有数组，而且数组中包含数组

一、目的由于协议修改，修改后的原始数据JSON更加复杂，导致Hive中解析的难度更大，搞了一天，还好同事发了篇知乎文章，终于得以解决，天哪，太不容易了二、数据协议案例 { "deviceNo&qu…

阅读更多...

IPython的文件魔术：%%file命令全攻略

IPython的文件魔术：%%file命令全攻略

IPython的文件魔术：%%file命令全攻略在数据分析和科学计算中，经常需要在IPython环境中加载外部文件，以便进行进一步的处理和分析。IPython提供的%%file魔术命令，允许用户创建新文件或编辑现有文件，并在IPython中执行…

阅读更多...

使用 Python 爬虫实现自动获取天气信息并语音播报

使用 Python 爬虫实现自动获取天气信息并语音播报

简介在本文中，我将介绍如何使用 Python 编写一个简单的爬虫程序，该程序可以自动获取某个城市的天气信息，并使用语音库将这些信息播报出来。我们将使用 pyttsx3 库进行语音播报，以及 requests 和 lxml 库来获取和解析网页数据。 …

阅读更多...

在GPU上运行PyTorch

在GPU上运行PyTorch

文章目录 1、查看GPU的CUDA版本2、下载CUDA版本3、安装cuDNN4、配置CUDA环境变量5、安装配置Anaconda6、使用Anaconda7、pycharm导入虚拟环境8、安装带GPU的PyTorch⭐9、总结 🍃作者介绍：双非本科大三网络工程专业在读，阿里云专家博主&#x…

阅读更多...

抖音seo短视频矩阵源码系统开发搭建----开源+二次开发

抖音seo短视频矩阵源码系统开发搭建----开源+二次开发

抖音seo短视频矩阵源码系统开发搭建是一项技术密集型工作，需要对大数据处理、人工智能等领域有深入了解。该系统开发过程中需要用到多种编程语言，如Java、Python等。同时，需要使用一些框架和技术，如Hadoop、Spark、PyTorch等&am…

阅读更多...

构建基于Spring Security的安全认证与授权系统

构建基于Spring Security的安全认证与授权系统

构建基于Spring Security的安全认证与授权系统大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在现代Web应用开发中，安全性是至关重要的一环。Spring Security作为Spring框架的安全标准&a…

阅读更多...

Laravel Blade组件：构建动态视图的神兵利器

Laravel Blade组件：构建动态视图的神兵利器

Laravel Blade组件：构建动态视图的神兵利器在Laravel框架中，Blade是其内置的模板引擎，为开发者提供了一种简洁、强大的方法来构建动态视图。Blade组件则是Blade模板中的一个核心特性，允许开发者封装HTML、CSS和JavaScript片段&a…

阅读更多...

LeetCode 算法：组合总和 c++

LeetCode 算法：组合总和 c++

原题链接🔗：组合总和难度：中等⭐️⭐️ 题目给你一个无重复元素的整数数组 candidates 和一个目标整数 target ，找出 candidates 中可以使数字和为目标数 target 的所有不同组合 ，并以列表形式返回。你可以按 …

阅读更多...

LlaMa 2

LlaMa 2

目录 LlaMa 2 介绍： Llama 的诞生： Llama 2 的训练数据集是如何构建和选择的？ Llama 2 在自然语言处理（NLP）任务中的具体应用案例有哪些？ Llama 2 模型在商业应用中的表现如何，有哪些成功案…

阅读更多...

认识sm1,sm2,sm3,sm4以及如何在Node.js实现

认识sm1,sm2,sm3,sm4以及如何在Node.js实现

概述国密即国家密码局认定的国产密码算法。主要有SM1，SM2，SM3，SM4。密钥长度和分组长度均为128位。国密算法是指国家密码管理局认定的一系列国产密码算法，包括SM1-SM9以及ZUC等。其中 SM1、SM4、SM5、SM6、SM7、SM8、ZUC等属于…

阅读更多...

verilog刷题笔记

verilog刷题笔记

1、选择器实现方式 （1）case语句，注意default （2）if-else语言，注意else，有优先级 （3）三元运算符 ？ ： 2、阻塞赋值/非阻塞赋值都是过程性赋值&a…

阅读更多...

最新文章