Sora学习笔记

Sora - 探索AI视频模型的无限可能

随着人工智能技术的飞速发展，AI视频模型已成为科技领域的新热点。而在这个浪潮中，OpenAI推出的首个AI视频模型Sora，以其卓越的性能和前瞻性的技术，引领着AI视频领域的创新发展。让我们将一起探讨Sora的技术特点、应用场景以及对未来创作方式的深远影响。

Sora是text-to-video模型
方向一：技术解析

参考1

使用统一的patches格式对训练数据进行标准化处理，将图像分割成小块（patches），然后像语言模型（LLM）中的tokens一样输入到Transformer模型中。
可能是几帧十几帧对应一段文本描述，大力出奇迹？
可以扩展到2D和3D,cv大一统？

参考2
Embedding层的作用是将某种格式的输入数据，转变为模型可以处理的向量表示，来描述原始数据所包含的信息。
本来想实现一下这个将图像划分为patches，貌似成功了~

import einops
import matplotlib.pyplot as plt
from einops import rearrange
import numpy as np
import pandas as pd
import os
from torchvision import transforms
from PIL import Image
import torchimage_path = 'D:/meeee/344.png' 
preprocess = transforms.Compose([transforms.Resize((224,224)),transforms.ToTensor()])image = Image.open(image_path).convert("RGB")
tensor_image = preprocess(image)display(tensor_image)patches = rearrange(tensor_image,'c (h p1) (w p2) -> (h w) c p1 p2',p1=16,p2=16)
patches.shapefigure = plt.figure(figsize=(5,5))
for i in range(patches.size(0)):img = patches[i].permute(1,2,0)figure.add_subplot(14,14,i+1)plt.axis('off')plt.imshow(img)
plt.show

在这里插入图片描述

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/4a76115986a04c44a93378176bf224be.png然后看了看杨老师的讲解，感觉视频好多，没有时间，有点看不完
CLIP模型，图生文，输入一张图输出对这张图的描述，属于多模态，文本-图片
比较认同一位老师说的不要拿错的东西去为人服务（无人驾驶？）是火上浇油，Sora是仿真是概率模型~