Sora学习笔记

Sora - 探索AI视频模型的无限可能

随着人工智能技术的飞速发展,AI视频模型已成为科技领域的新热点。而在这个浪潮中,OpenAI推出的首个AI视频模型Sora,以其卓越的性能和前瞻性的技术,引领着AI视频领域的创新发展。让我们将一起探讨Sora的技术特点、应用场景以及对未来创作方式的深远影响。

Sora是text-to-video模型
方向一:技术解析

参考1

  • 使用统一的patches格式对训练数据进行标准化处理,将图像分割成小块(patches),然后像语言模型(LLM)中的tokens一样输入到Transformer模型中。
  • 可能是几帧十几帧对应一段文本描述,大力出奇迹?
  • 可以扩展到2D和3D,cv大一统?

参考2
Embedding层的作用是将某种格式的输入数据,转变为模型可以处理的向量表示,来描述原始数据所包含的信息。
本来想实现一下这个将图像划分为patches,貌似成功了~这个

import einops
import matplotlib.pyplot as plt
from einops import rearrange
import numpy as np
import pandas as pd
import os
from torchvision import transforms
from PIL import Image
import torchimage_path = 'D:/meeee/344.png' 
preprocess = transforms.Compose([transforms.Resize((224,224)),transforms.ToTensor()])image = Image.open(image_path).convert("RGB")
tensor_image = preprocess(image)display(tensor_image)patches = rearrange(tensor_image,'c (h p1) (w p2) -> (h w) c p1 p2',p1=16,p2=16)
patches.shapefigure = plt.figure(figsize=(5,5))
for i in range(patches.size(0)):img = patches[i].permute(1,2,0)figure.add_subplot(14,14,i+1)plt.axis('off')plt.imshow(img)
plt.show

在这里插入图片描述

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/4a76115986a04c44a93378176bf224be.png然后看了看杨老师的讲解,感觉视频好多,没有时间,有点看不完
在这里插入图片描述CLIP模型,图生文,输入一张图输出对这张图的描述,属于多模态,文本-图片在这里插入图片描述
比较认同一位老师说的不要拿错的东西去为人服务(无人驾驶?)是火上浇油,Sora是仿真是概率模型~

方向三:未来展望

感觉可能影响创作流程,工作流会很大改变?

  • 降低技术门槛:
    AI视频模型可以自动处理视频编辑中的复杂任务,如特效(时间成本,技术含量,金钱成本)、剪辑、调色、音频处理等,从而降低了专业知识的需求。创作者可以更容易地将想法变为现实,不再受限于技术技能。我觉得对于小说家或者写剧本的创作者来说,可能是一个福音~

方向五:用户体验与互动

期待OpenAI早日能开放sora,非常想体验体验~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/711005.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ios 使用window.location.href 不能跳转微信短链处理过程以及解决方法

需求背景: 由h5提供页面,通过后台请求微信api生成对应的schemal短链,该h5页面嵌入到原生的ios以及安卓app上,当用户点击后通过短连接跳转到其他小程序中 以下为生成微信scheme代码示例,生成后短链为:weixi…

linux常见signal信号总结

文章目录 SIGSEGVSIGALRMSIGINTSIGCHLD SIGSEGV 在POSIX兼容的平台上,SIGSEGV是当一个进程执行了一个无效的内存引用,或发生段错误时发送给它的信号 SIGALRM 已到通过调用alarm函数注册的时间 SIGINT 输入cltrlc SIGCHLD 子进程终止

【分享】在 Python 编程中提高效率的技巧

在 Python 编程中,有许多技巧可以帮助提高效率,从代码优化到工作流程改进。 以下是一些可以分享的技巧: 1、使用列表推导式和生成器表达式:列表推导式和生成器表达式是 Python 中的一种简洁而高效的方法,用于快速创建…

Azure[Sky] Dynamic Skybox

Azure[Sky] Dynamic Skybox是一个完整而稳健的天空系统,它可将你的项目提升大到其他层次。 Azure[Sky] 不仅适合使用现实图片的项目,事实上,该系统用在风格化图片的项目也很不粗,甚至效果更好。使用 Azure,每种风格都能实现最佳效果。 性能: 在开发此资源的过程中,性能是…

【Android】属性动画

在属性动画出现之前,Android 系统提供的动画只有帧动画和 View 动画。View 动画我们都了解,它提供了 AlphaAnimation、RotateAnimation、TranslateAnimation、ScaleAnimation 这4种动画方式,并提供了 AnimationSet 动画集合来混合使用多种动画…

35. 【Linux教程】Linux 修改用户组

前面小节介绍了如何添加用户组,本小节介绍如何给已经添加的新用户组修改信息,从 /etc/group 文件信息可以看到,用户组的信息比用户信息项少,和 usermod 命令类似,用户组的信息可以使用 groupmod 命令修改。 1. groupmo…

为了董宇辉,老婆跟我打起来了!写下一份深刻检讨

两个月前,因为讨论董宇辉小作文事件,跟老婆吵起来了。起因就为了两句话,写了这份检讨!给大家分享一下。 老婆在网上刷了两晚关于董宇辉小作文的视频,一直为董宇辉喊冤、打抱不平。起初,我跟老婆的想法&…

类型字段定义影响WebApi传值及SqlSugar调用Select创建新对象

ASP.NET Core编写的WebApi,由于输入参数较多,专门定义了输入参数类并设置[FromBody]方式传值,但测试时始终无法通过postman将输入参数值传递给WebApi,condition对象的所有属性值一直都为空。同时在WebApi内部调用SqlSugar查询数据…

怎样消除视频上的字幕和文字?3个方法值得推荐

怎样消除视频上的字幕和文字?消除视频上的字幕和文字不仅是一个常见的需求,更是一个对视频内容质量提升的关键步骤。特别是在处理从网络下载的带有水印或标识的视频时,这些额外的文字和信息往往会干扰观众的观看体验,甚至可能影响…

three.js环境及使用教程

开发环境 npm i three0.156.1 npm i types/three0.156.0入门代码 index.html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta http-equiv"X-UA-Compatible" content"IEedge" />…

Pytorch 复习总结 5

Pytorch 复习总结&#xff0c;仅供笔者使用&#xff0c;参考教材&#xff1a; 《动手学深度学习》Stanford University: Practical Machine Learning 本文主要内容为&#xff1a;Pytorch 卷积神经网络。 本文先介绍了 Pytorch 语法汇总&#xff1a; Pytorch 张量的常见运算、…

【数据结构】顺序表和链表的对比,在各种情况下如何选择

顺序表详细内容&#xff1a; 【数据结构】线性表 顺序表&#xff08;动态、静态分配&#xff0c;插入删除查找基本操作&#xff09;解析完整代码 单链表详细内容&#xff1a; 【数据结构】单链表解析完整代码&#xff08;插入、删除、尾插法、头插法、按值和按位查找、前插和后…

IDEA开发环境的安装与编写第一个程序

1.下载 IDEA&#xff08;全称IntelliJ IDEA&#xff09;是用于Java程序开发的集成环境&#xff08;也可用于其他语言&#xff09;&#xff0c;它在业界被公认是最好的Java开发工具之一&#xff0c;尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代…

【Java万花筒】医学图像处理的“探索”:探索更多可能性和应用场景

使用 Java 库打造医学图像处理的“神器” 前言 随着医学图像在医疗保健领域中的不断发展&#xff0c;医学图像处理也成为了一项非常重要的研究领域。在此背景下&#xff0c;本文将介绍三个常用的 Java 医学图像处理库&#xff1a;ImageJ、MIPAV 和 ITK。这些库提供了丰富的图…

代码随想录算法训练营day46| 139. 单词拆分、背包问题总结

139、单词拆分&#xff1a; class Solution(object):def wordBreak(self, s, wordDict):""":type s: str:type wordDict: List[str]:rtype: bool"""n len(s)dp [False] * (n 1)dp[0] Truemap_word set(wordDict)for j in range(1, n 1):f…

3月1日.开始记录

今天事项安排 打算今天开始&#xff0c;每天工作日记录&#x1f4dd;一下当天大致的事项。 有说法是每天开始工作前记录下自己的清单&#xff0c;可以让当天做事太过发散。这对于我这种喜欢发散的人是个有用的技巧&#xff08;笑 上午 把昨天的日报交了 30 min 把今天的工作放…

算法日记——前缀和、差分

文章目录 洛谷 B3612 求区间和洛谷 P1387 最大正方形洛谷 P3397 地毯 洛谷 B3612 求区间和 题目链接&#xff1a;洛谷 B3612 求区间和 思路&#xff1a; 一维前缀和的模板题。所谓前缀和&#xff0c;就是对原数组前i个元素求和&#xff0c;这个值作为新元素放在下标i的位置。 …

C++智能指针_C++回顾

发展历史 C98中产生了第一个智能指针auto_ptr&#xff1b; Cboost给出了更实用的scoped_ptr和shared_ptr和weak_ptr&#xff1b; CTR1&#xff0c;引入了shared_ptr等&#xff0c;不过TR1并不是标准版&#xff1b; C11引入了unique_ptr和shared_ptr和weak_ptr。需要注意的是…

Mamba与MoE架构强强联合,Mamba-MoE高效提升LLM计算效率和可扩展性

论文题目&#xff1a; MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts 论文链接&#xff1a; https://arxiv.org/abs/2401.04081 代码仓库&#xff1a; GitHub - llm-random/llm-random 作为大型语言模型&#xff08;LLM&#xff09;基础架构的后…

新一代科学计算与系统建模仿真平台MWORKS 2024a震撼发布:产品强势进化,更新亮点速览!

2月25日&#xff0c;同元软控成功举办MWORKS 2024产品发布会&#xff0c;会上公布了新版MWORKS的设计理念、关键技术、版本亮点、产品特性以及重大改进。当前&#xff0c;科学计算与系统建模仿真平台MWORKS 2024a已正式上线&#xff0c;开放下载。 MWORKS已成为全球第4个完整的…