Sora - 探索AI视频模型的无限可能
随着人工智能技术的飞速发展,AI视频模型已成为科技领域的新热点。而在这个浪潮中,OpenAI推出的首个AI视频模型Sora,以其卓越的性能和前瞻性的技术,引领着AI视频领域的创新发展。让我们将一起探讨Sora的技术特点、应用场景以及对未来创作方式的深远影响。
Sora是text-to-video模型
方向一:技术解析
参考1
- 使用统一的patches格式对训练数据进行标准化处理,将图像分割成小块(patches),然后像语言模型(LLM)中的tokens一样输入到Transformer模型中。
- 可能是几帧十几帧对应一段文本描述,大力出奇迹?
- 可以扩展到2D和3D,cv大一统?
参考2
Embedding层的作用是将某种格式的输入数据,转变为模型可以处理的向量表示,来描述原始数据所包含的信息。
本来想实现一下这个将图像划分为patches,貌似成功了~
import einops
import matplotlib.pyplot as plt
from einops import rearrange
import numpy as np
import pandas as pd
import os
from torchvision import transforms
from PIL import Image
import torchimage_path = 'D:/meeee/344.png'
preprocess = transforms.Compose([transforms.Resize((224,224)),transforms.ToTensor()])image = Image.open(image_path).convert("RGB")
tensor_image = preprocess(image)display(tensor_image)patches = rearrange(tensor_image,'c (h p1) (w p2) -> (h w) c p1 p2',p1=16,p2=16)
patches.shapefigure = plt.figure(figsize=(5,5))
for i in range(patches.size(0)):img = patches[i].permute(1,2,0)figure.add_subplot(14,14,i+1)plt.axis('off')plt.imshow(img)
plt.show
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/4a76115986a04c44a93378176bf224be.png然后看了看杨老师的讲解,感觉视频好多,没有时间,有点看不完
CLIP模型,图生文,输入一张图输出对这张图的描述,属于多模态,文本-图片
比较认同一位老师说的不要拿错的东西去为人服务(无人驾驶?)是火上浇油,Sora是仿真是概率模型~
方向三:未来展望
感觉可能影响创作流程,工作流会很大改变?
- 降低技术门槛:
AI视频模型可以自动处理视频编辑中的复杂任务,如特效(时间成本,技术含量,金钱成本)、剪辑、调色、音频处理等,从而降低了专业知识的需求。创作者可以更容易地将想法变为现实,不再受限于技术技能。我觉得对于小说家或者写剧本的创作者来说,可能是一个福音~
方向五:用户体验与互动
期待OpenAI早日能开放sora,非常想体验体验~~