培训需要解决的问题
通过本次培训,拓展对多模态AI应用领域的视野,帮助团队聚焦AI赋能创新突破,提升对AI服务的技术认知与理解,更好地助力业务智能化业务建设。
培训时长
1天
培训老师介绍
叶梓,工学博士,高级工程师。某大型上市企业资深技术专家。2005年上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入软件行业从事信息化技术相关工作;负责或参与了多项国家级、省市级人工智能及大数据项目的建设工作。在人工智能和大数据应用等方面都有着丰富的经验。
上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、人工智能等方面都有着丰富的经验。
多模态大模型原理与实践提纲
第1部分:多模态学习概述
多模态学习的定义
多模态学习的意义
多模态数据类型:文本、图像、视频、音频等
多模态学习的应用领域(自然语言处理、计算机视觉、推荐系统等)
第2部分:ViT、Beit与CLIP/BLIP
ViT模型架构概述
Patch Embedding与Positional Encoding
Beit与ViT的比较
Beit在自监督学习中的应用
Beit在多模态任务中的优势
实践演示:利用ViT和Beit进行图文转化的效果
CLIP模型介绍:从图像到文本的跨模态嵌入
BLIP模型架构:结合CLIP的多模态模型
CLIP/BLIP在多模态任务中的应用:图像-文本匹配、图像标注等
实践演示:使用CLIP进行图像-文本匹配任务
第3部分:Stable Diffusion及SD XL
Stable Diffusion模型概述:生成模型在图像生成中的应用
SD的原理推导
SD模型的架构
Stable Diffusion XL:扩展的Stable Diffusion模型
微调扩散模型:DreamBooth
微调扩散模型:Textual-Inversion
微调扩散模型:LoRA
微调扩散模型:Hypernetworks
Stable Diffusion在艺术创作和设计中的应用
实践演示:使用Stable Diffusion生成图像
第4部分:微调与RLHF方法
微调的基本概念
SFT:监督微调方法
PEFT的概念
P-tuning v2 / LoRA / Freeze等
微调方法在多模态学习中的应用
实践演示:对多模态大模型进行微调
第5部分:与人类偏好对齐
强化学习基础概述
DPO:直接偏好优化
PPO:近端策略优化
llama-factory简介
实践演示:利用llama-factory对大模型进行RLHF
第6部分:多模态大模型
qwen_vl_chat
Yi_vl_chat
LLaVa
open-sora
chatTTS
实践演示:使用qwen_vl和Yi_vl_chat进行视觉问答任务
第7部分:结合中移业务的开放讨论
用户资产管理所需的多模式模型
各种AI技术在用户资产管理中的应用