人工智能技术应用笔记(一):SORA已来,AI将开启新纪元

目录

01. OpenAI王炸级产品视频生成模型Sora发布    

02. Sora发布的潜在影响    

▎C端 / 对于普通人  

▎B端 / 对于商业公司  

03. 该如何看待Sora?

1.拥抱变化,让自己成为身边最懂AI的人

2.想象自己是一家一人公司的创始人

3.保持好奇心,放大兴趣

最后


01. OpenAI王炸级产品视频生成模型Sora发布    

人工智能(AI)行业又迎来了疯狂、震撼的一夜。

北京时间2月16日凌晨2点左右,美国OpenAI公司正式发布其首个文本-视频生成模型Sora。

据悉,通过简短或详细的提示词描述,或一张静态图片,Sora就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频。

这是继Runway、Pika、谷歌和Meta之后,OpenAI正式加入到这场AI视频生成领域“战争”当中,同时也是GPT、DALL·E之后,2024年 OpenAI发布的旗下最新、最重要的AI产品系列。

OpenAI强调,“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”

更早之前,昨夜23点,谷歌突然升级Gemini系列模型,并发布用于早期测试的Gemini 1.5第一个版本——Gemini 1.5 Pro,采用稀疏MOE架构,性能和长文本技术都超过了GPT-4 Turbo。

从Sora到Gemini,所有人都在感叹:行业真的变天了,AI快要把人类KO了;好莱坞的时代真的要结束了?

OpenAI今晨公布的首个视频生成模型Sora,采用一种名为扩散模型的技术(diffusion probabilistic models)。而且,与GPT模型类似,Sora也使用了Transformer 架构,并完美继承DALL·E 3的画质和遵循指令能力,生成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。

对于初学者来说,Sora可以生成各种风格的视频(例如,真实感、动画、黑白),最长可达一分钟 —— 比大多数文本-视频模型要长得多。

这些视频保持了合理的连贯性。相比其他AI视频模型,Sora视频生成质量好多了,更让人“舒服”——没有出现“人工智能怪异”类场景。

比如,AI想象中的“龙年春节”,Sora能形成紧跟舞龙队伍抬头好奇的儿童,也能生成海量人物角色各种行为。

图片

输入 prompt(提示词):一位24岁女性眨眼的极端特写,在魔法时刻站在马拉喀什,70毫米拍摄的电影,景深,鲜艳的色彩,电影效果。

图片

输入 prompt(提示词):一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。

图片

输入 prompt(提示词):几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深效果。

图片

通过这些动图来看,Sora不仅可以在单个视频中创建多个镜头,而且还可以依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

当然,Sora也存在一些弱点,OpenAI表示,它可能难以准确模拟复杂场景的物理原理;可能无法理解因果关系;还可能混淆提示的空间细节;可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹等。

但瑕不掩瑜,Sora不仅能模拟真实世界,而且包括学习了摄影师和导演的表达手法,将AI视频惟妙惟肖地展现出来。

因此,Sora已经成为了目前最强的AI视频生成类模型。

02. Sora发布的潜在影响    

C端 / 对于普通人  

•这或许是独立创作者最好的年代,Sora发布之后,文案、音效、视频AI生成的可用工具都已齐备,一个人可以无痛carry一个短片,好故事将价值千金,有才华的人更难被埋没。但是从另一个角度将,创作门槛降低之后故事的竞争将异常激烈。

•以vision pro为代表的XR产业将再次获得助力——内容匮乏将不再是问题。    

•目前当红的短视频推荐的形态可能会发生改变——从系统根据用户喜好推荐短视频,变成针对性生成短视频?或者说,同一个短视频在不同的用户对可以有不同的(实时)微调版本?

B端 / 对于商业公司  

•所有做AI视频生成的公司将面临第一波危机,但是危中有机。因为OpenAI证明了用大模型的思路做视频是可行的,那么他们需要做的只是证明我也可以用大模型做视频。参考chatGPT火了之后做大语言模型的公司反而更多了而不是更少。

•AI三维生成的公司将面临第二波冲击,由于多目重建技术的存在,视频生成和3D生成的界限是模糊的。所以3D生成可能要重新考虑当前技术路线的合理性和商业叙事逻辑。

•虽然OpenAI没有明说,但是Sora需要的算力不会小,所以显卡公司会迎来新的一波利好,但是不一定利好英伟达。因为现在算力越来越呈现基础设施的特征,而基础设施是各个国家的命脉,即便不考虑禁运,我国不会是唯一一个要求算力自主可控的国家,甚至每个大厂都开始想自己搞显卡或者AI专用算力卡(参考google、特斯拉、openAI、阿里),所以算力领域的竞争者会越来越多。

03. 该如何看待Sora?

1.拥抱变化,让自己成为身边最懂AI的人

拥抱变化,在我看来,这不是一句鸡汤,而是面对变革浪潮来临时的态度。我经常举纽约灯夫的例子,就是恐慌的灯夫永远也无法阻挡电的普及。所以第一批的灯夫,其实都果断的转行,有的去卖灯具,有的去做变电站,有的去做各种电器,后来才有了微波炉、洗衣机、电视机。从电的出现到纽约市最后两个灯夫下岗,中间持续了差不多30年。
作为个体,我们去寻找AI里的机会,别盯着现在AI的不足去吐槽。比如,你挑出现在AI视频里再多的风险、再多的毛病,都不如你试着借助AI用你家宠物的照片生成一个短视频。哪怕漏洞百出,你也能在不停地改变指令的过程中,变成一个能用好AI的人。
我给大家建议一个小的填空题,就是树立个小目标,句式是这样的:“我要努力成为公司里或者班上或者家里或者朋友圈里最会用AI做什么的人”。比如,我们可以这么说:“我要努力成为朋友圈里最会用AI做旅游游记视频的人”。也许等你做到第20个旅游视频的时候,你就成为AI时代的旅游视频博主了。    

2.想象自己是一家一人公司的创始人

一人公司,顾名思义,就是一个人。你不一定自己真创业,但是你可以想象自己注册了一家公司,这公司只有你一个人。那么你的这个公司可以从事什么领域的业务,就是你要去研究的方向。
别把这个想象得太难或者太高大上,你只要观察自己的工作和生活中,有哪些地方存在痛点或者是自己擅长的,那么就肯定存在机会。如果你工作中经常要用PPT做报告,那么你就可以设想自己注册了一家PPT制作公司,只不过从文案到策划到PPT设计只有你一个人而已。当你把自己做一个PPT的流程按照公司的逻辑拆开之后,你就知道该如何使用AI了。比如让ChatGPT或者文心一言写大纲,让Midjourney画背景图,让PowerPoint直接从大纲生成幻灯片。当你成为身边最会做PPT的人,这个标签就能给你带来收益。

3.保持好奇心,放大兴趣

AI普及之后,它并不能帮你提升已经达到80分的能力,但是它可以帮你做那些你并不擅长的事情。例如我有画面感和想象力,却毫无画画的能力,我就可以在AI的帮助下一起创作出很好看的画面。
一样的AI工具,你会发现不同人使用出来的威力是截然不同的,这比拼的是人和AI结合的能力。我们往后推演,按照 Sora这种发展,也许今年就可以实现一个功能,就是用指令直接复现电影里的经典镜头。
比如,我就可以写一句“用黑客帝国的子弹时间风格,让罗胖像里面的尼奥一样下腰躲过子弹”。这里面考验的是什么?是要看过黑客帝国这部电影。
印度有位著名导演叫塔西姆·辛,作品非常有创意,拍广告开价也很高。有一回,客户吐槽他说,你就拍一个30秒的广告,要收好几百万美元,说得过去吗?
塔西姆·辛是怎么回答的?他说,你花钱买到的不只是我做导演的这段时间,还有我喝过的每一口酒,品过的每一杯咖啡,吃过的每一餐美食,读过的每一本书,坐过的每一把椅子,谈过的每一次恋爱,去过的每一个地方。你买的是我全部生命的精华转化成的30秒,怎么会不贵?
所以,无论你刷过几百部电影,还是刷过几百部动画剧集,放在以前就是不务正业,放在现在就可能成为你的爆发点,兴趣是最好的学习驱动力。

最后

今天就这些,不过在最后还是要补一句,Sora虽然很厉害,但整个人工智能对更多行业的改造还在非常初级的阶段,焦虑的情绪毫无用处,我们一起把AI用起来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/688754.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

抓包分析 TCP 协议

TCP 协议是在传输层中,一种面向连接的、可靠的、基于字节流的传输层通信协议。 环境准备 对接口测试工具进行分类,可以如下几类: 网络嗅探工具:tcpdump,wireshark 代理工具:fiddler,charles&…

面试:正确率能很好的评估分类算法吗

正确率(accuracy) 正确率是我们最常见的评价指标,accuracy (TPTN)/(PN),正确率是被分对的样本数在所有样本数中的占比,通常来说,正确率越高,分类器越好。 不同算法有不同特点,在不同…

springboot745简历系统

springboot745简历系统 获取源码——》公主号:计算机专业毕设大全

【JavaEE】_HTTP响应

目录 1. 首行 2. 报头header 3.空行 4. 正文body 1. 首行 响应首行:版本号状态码状态码描述; HTTP状态码描述了这次响应的结果(比如成功、失败,以及失败原因等); 1. HTTP状态码有: &#…

软件测试知识总结

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号:互联网杂货铺,回复1 ,免费获取软件测试全套资料,资料在手,涨薪更快 1、黑盒测试、白盒测试、灰盒测试 1.1 黑盒测试 黑盒测…

【c++ debug】记一次protobuf结构相关的coredump问题

文章目录 1. 问题现象2. 问题描述3. 问题分析4. 问题根因5. 问题修复6. 补充:类成员变量定义为引用类型 1. 问题现象 其中curr_lanes是一个目标上一帧的当前车道current_lanes_curr_lane是lane_id对应的LaneInfo信息现象:在lane_info->lane().success…

Stackoverflow(1)-根据RequestBody的内容来区分使用哪个资源

如果使用Spring,可以通过RequestBody将请求体的json转换为Java对象,但如果URI相同,而请求体的内容不同,应该怎么办?问题来源(stackoverflow):Spring RequestBody without using a pojo?稍微研究了一下&…

浅析Linux设备驱动:IO端口和IO内存

文章目录 概述IO端口和IO内存的区别 IO资源管理IO资源类型IO端口资源IO内存资源 IO资源分配 IO端口访问IO端口操作函数 IO内存访问IO内存操作函数 相关参考 概述 在计算机系统中,外部设备通常会提供一组寄存器或内存用于处理器配置和访问设备功能。这些寄存器或内存…

由斐波那契数列探究递推与递归

斐波那契数列定义: 斐波那契数列大家都非常熟悉。它的定义是: 对于给定的整数 x ,我们希望求出: f ( 1 ) f ( 2 ) … f ( x ) f(1)f(2)…f(x) f(1)f(2)…f(x) 的值。 有两种方法,分别是递推(迭代)与递归 具体解释如下图 备注…

JDBC核心技术

第1章 JDBC概述 第2章 获取数据库连接 第3章 使用PreparedStatement实现CRUD操作 第4章 操作BLOB类型字段 第5章 批量插入 第6章 数据库事务 第7章 DAO及相关实现类 第8章 数据库连接池 第9章 Apache-DBUtils实现CRUD操作图像 小部件

蜂蜜器实验-驱动代码测试

一. 简介 上一篇文章实现了蜂鸣器驱动代码,实现关闭蜂鸣器与打开功能。文章地址如下: 蜂鸣器驱动代码完善-CSDN博客 本文对所实现的蜂鸣器驱动代码进行测试。 二. 蜂鸣器驱动代码测试 1. 准备应用程序 这里应用程序还使用 前面实现所使用的Led应用…

秒级到毫秒级的跨越—一次慢SQL优化历险

一次慢 SQL 优化过程 一、背景 对于公司内部的一个发票管理系统,财务人员经常需要对发票的开票交易进行查询,这里涉及到两张表:发票订单表和发票信息表,我们需要查询订单 ID、开票 APP、开票主体、订单类型、支付渠道、支付总额…

洛夫克拉夫特“克苏鲁神话”艺术风格探索(二)

三、多元的叙事风格 洛夫克拉夫特的克苏鲁神话作为当时独特的文学创造,有独特的叙事特征[8]。 一是侦探小说不稳定的叙事。最有名气的早期侦探小说是爱伦坡的《莫格街凶杀案》,并产生了“疑案”的经典设定,两次世界大战期间的侦探小说批评认…

《UE5_C++多人TPS完整教程》学习笔记18 ——《P19(实现子系统函数)创建会话(Create Session)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P19 (使用子系统函数)创建会话(Create Session)》 的学习笔记,该系列教学视频为 Udemy 课程 《Unreal Engine 5 C Multiplayer Shooter》 的中文字幕翻译版&am…

基于Java SSM框架实现疫情防控系统项目【项目源码】

基于java的SSM框架实现疫情防控系统演示 Java技术 Java技术它是一个容易让人学会和使用的一门服务器语言。它在编程的过程当中只需要很少的知识就能建立起一个真正的交互站点。对于这个教程来说它并不需要你完全去了解这种语言,只要能快速融入web站点就可以&#x…

Spring 事务原理总结六

不知不觉,关于Spring事务的文章已经写了五篇了。老实讲我自己不断质疑过自己:现在写这些文章还有意义吗?当前的市场已经成什么样了,为什么还要固守这落后的技术?但是贝索斯一次接受访谈的回答,让我写下去的…

ESP32-Cam学习(1)——拍摄第一张照片

1.开发板介绍 使用的ESP32-Cam实物图为: 在某宝可以轻易买到。它分为主板,和底板。底板的主要功能是供电、程序下载等等。主板才是ESP32芯片的核心。 2.固件烧录 使用摄像头之前,需要给ESP32刷入支持摄像头的固件库,其下载地址为…

数据库-----范式判断

目录 (1)求最小函数依赖集 (2)求候选码 (3)求R最高属于哪级范式 总结: 以一道例题来看: 3.已知关系模式R<ABCDEG> F{BC-->E&#xff0c;DC-->B,D-->A,B-->G,D-->E,E-->G,B-->C} 求: ①F的最小函数依赖集 ②R的候选码 ③R最高属于…

美国中性原子量子公司QuEra宣布将在英国建造量子测试平台

编辑丨慕一 编译/排版丨沛贤 深度好文&#xff1a;1250字丨7分钟阅读 中性原子量子公司QuEra Computing宣布&#xff0c;英国国家量子计算中心&#xff08;NQCC&#xff09;将成为一个量子计算测试平台的所在地。 通过NQCC的资助&#xff0c;并在小型企业研究计划&#xff…

【Kubernetes in Action笔记】1.快速开始

在Kubernetes上运行一个程序 基础运行环境 当前的运行环境为使用虚拟机构建的单master集群。 [rootk8s-master ~]# kubectl get nodes NAME STATUS ROLES AGE VERSION k8s-master Ready control-plane 109d v1.27.1 k8s-node1 Ready …