AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略

AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略

导读:Sora 是OpenAI研发的一个可以根据文字描述生成视频的AI模型。它的主要特性、功能以及OpenAI在安全和应用方面的策略的核心要点如下所示:

核心功能

>> Sora可以根据文字描述直接生成视频,这种能力可以帮助人们用文字来传达想法和创造内容。能够根据用户提供的详细文字描述生成符合描述要求的视频。

>> Sora可以生成长达一分钟的视频,保证视频质量和符合用户描述。它还可以扩展已有视频为更长时间。

>> Sora不仅可以生成单个视频,还能够将已有视频或图片进行延续和补全, 确保目标即使暂时消失在视线之外也保持不变。

>> Sora可以生成包含多个场景和角色的复杂视频,角色表达会贯穿始终。它也可以基于图片生成视频。

核心技术

>> Sora采用类似GPT的Transformer网络结构,它可以处理不同时长、分辨率和格式的视觉数据,可以很好地体现出深度学习模型在视觉领域的应用前景。

>> Sora采用DALL-E 3的重新描述技术,能够更好地根据用户文字描述中的细节生成视频内容。

>> OpenAI将进一步开展安全测试,同时构建检测模型识别生成视频的真实性。在产品化前将采取一系列措施防止滥用。

未来与影响

>> OpenAI正在与相关机构合作,通过对抗测试来提升Sora识别误导内容和存在偏差的能力,以确保安全应用。OpenAI将与政府、教育机构等合作,研究如何将该技术应用于更多积极场景,同时防止滥用。

>> Sora可视为实现通用人工智能的一个里程碑,它可以更好地理解和模拟现实世界。将来Sora可能会用于开发更高水平的AI,例如通用人工智能。这需要不断完善技术并学习用户实际应用情况。

总体来说,Sora代表了视觉语言模型在视频生成领域的重要进步。它同时也将会面临一些技术挑战,例如复杂场景中的物理模拟效果需要进一步改进。OpenAI将持续跟进Sora的安全性研究工作。

目录

相关文章

AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略

VGM之Sora:OpenAI重磅发布一款“炸天”的视频生成模型—《Video generation models as world simulators视频生成模型作为世界模拟器》翻译与解读

Sora的简介

Capabilities功能

Sora可以生成长达一分钟的视频

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.一个时尚的女人走在东京的街道上,到处都是温暖发光的霓虹灯和动态的城市标识。她穿着一件黑色皮夹克,一条长长的红色连衣裙,黑色靴子,背着一个黑色手提包。她戴着墨镜,涂着红色口红。她走起路来自信而随意。街道是潮湿和反光的,产生了五彩灯光的镜像效果。许多行人在街上走来走去。

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.几只巨大的长毛猛犸象穿过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处是被雪覆盖的树木和雪山,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低角度的摄像机视角令人惊叹地捕捉到了这只大型毛茸茸的哺乳动物,配以美丽的摄影,景深效果。

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.这是一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影式风格,用35mm胶片拍摄,色彩鲜艳。

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.无人机拍摄的海浪冲击着Big Sur的Garay Point海滩上崎岖的悬崖。蓝色的海水拍打着白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边上长满了绿色的灌木丛。从公路到海滩的陡峭落差是一个壮观的壮举,悬崖的边缘突出在海面上。这是一幅捕捉到海岸原始美景和太平洋海岸公路崎岖的风景。

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.动画场景展示了一个矮矮的毛绒怪物跪在一个融化的红色蜡烛旁边的特写镜头。艺术风格是3D和逼真的,重点放在光线和质感上。这幅画的气氛是一种惊奇和好奇,怪物用着大眼睛和张开的嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉,好像它是第一次探索周围的世界。温暖色调和戏剧性的光线进一步增强了图像的舒适氛围。

创意

Prompt: Historical footage of California during the gold rush.淘金热时期加州的历史镜头。

Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand.一个玻璃球的近景,里面有一个禅宗花园。球体中有一个小矮人正在耙禅宗花园,并在沙子上创造图案。

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic一个24岁的女人眨着眼睛的极端特写,站在马拉喀什的神奇时刻,电影胶片拍摄在70mm,景深,生动的色彩,电影

Prompt: A cartoon kangaroo disco dances.一只卡通袋鼠跳迪斯科。

Prompt: A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.一个美丽的自制视频,展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄的。

Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around.一个培养皿,里面生长着竹林,小熊猫在里面跑来跑去。

Prompt: The camera rotates around a large stack of vintage televisions all showing different programs — 1950s sci-fi movies, horror movies, news, static, a 1970s sitcom, etc, set inside a large New York museum gallery.镜头围绕着一大堆老式电视旋转,这些电视都在播放不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、70年代的情景喜剧等,背景设在纽约一家大型博物馆的画廊里。

Prompt: 3D animation of a small, round, fluffy creature with big, expressive eyes explores a vibrant, enchanted forest. The creature, a whimsical blend of a rabbit and a squirrel, has soft blue fur and a bushy, striped tail. It hops along a sparkling stream, its eyes wide with wonder. The forest is alive with magical elements: flowers that glow and change colors, trees with leaves in shades of purple and silver, and small floating lights that resemble fireflies. The creature stops to interact playfully with a group of tiny, fairy-like beings dancing around a mushroom ring. The creature looks up in awe at a large, glowing tree that seems to be the heart of the forest.3D动画,一个小的,圆的,毛茸茸的生物,有一双大而富有表现力的眼睛,探索充满活力的魔法森林。这种动物是兔子和松鼠的异想天开的混合体,有着柔软的蓝色皮毛和浓密的条纹尾巴。它沿着波光粼粼的小溪跳跃,惊奇地睁大了眼睛。森林里充满了神奇的元素:发光和变色的花朵,紫色和银色叶子的树木,以及像萤火虫一样的小浮动灯。这只生物停下来和一群在蘑菇圈周围跳舞的小仙女嬉戏。这只生物敬畏地仰望着一棵巨大的、发光的树,这棵树似乎是森林的中心。

复杂场景

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.镜头跟在一辆车顶有着黑色车顶架的白色复古SUV后面,它在陡峭的山坡上沿着松树环绕的陡峭土路加速行驶,灰尘从轮胎上扬起,阳光照在越野车上,在土路上加速行驶,给场景投下了温暖的光芒。这条土路弯弯曲曲地延伸到远处,看不到其他的车辆。道路两旁的树木都是红杉,点缀着一片片绿色植物。。车辆从后方看去,顺利地跟随着弯曲的道路,使它看起来好像是在崎岖不平的地形上行驶。土路本身被陡峭的丘陵和山脉包围,上面是清澈的蓝天和缕缕的云。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.一列火车在东京郊区行驶时,车窗上的倒影。

Prompt: A drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios, waves are seen crashing against the rocks below as the view overlooks the horizon of the coastal waters and hilly landscapes of the Amalfi Coast Italy, several distant people are seen walking and enjoying vistas on patios of the dramatic ocean views, the warm glow of the afternoon sun creates a magical and romantic feeling to the scene, the view is stunning captured with beautiful photography.一架无人机摄像机环绕着一座美丽的历史悠久的教堂,这座教堂建在阿马尔菲海岸的岩石上,这张照片展示了历史和宏伟的建筑细节,以及分层的通道和露台,海浪撞击着下面的岩石,俯瞰着意大利阿马尔菲海岸的海岸水域和丘陵景观,远处的几个人在露台上散步,欣赏着壮丽的海景。午后阳光的温暖光辉为现场创造了一种神奇而浪漫的感觉,这个景象被美丽的摄影所捕捉。

创建多个镜头

Prompt: Tour of an art gallery with many beautiful works of art in different styles.参观一个艺术画廊,那里有许多不同风格的美丽艺术品。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过繁华的城市街道,跟随几个人享受美丽的雪天气候,并在附近的摊位上购物。绚丽的樱花花瓣随着雪花在风中飞舞。

Prompt: A stop motion animation of a flower growing out of the windowsill of a suburban house.一个定格动画,一朵花从郊区房子的窗台上长出来。

存在劣势:复杂物理、因果关系

弱点:Sora有时会创建不符合物理规律的动作

Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.一个人跑步的步印场景,35mm胶片拍摄

弱点:在包含许多实体的场景中,动物或人物可能会突然出现

Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.五只小灰狼在一条偏僻的砾石路上嬉戏追逐,周围长满了草。幼崽们又跑又跳,互相追逐,互相咬咬,玩耍。

弱点:不准确的物理建模和不自然的物体“变形”。

Prompt: Basketball through hoop then explodes.篮球穿过篮筐然后爆炸。

弱点:在这个例子中,Sora未能将椅子建模为刚体物体,导致不准确的物理交互。

Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并掸去了上面的灰尘。

弱点:模拟对象和多个角色之间的复杂互动对模型来说通常是具有挑战性的,有时会导致幽默的产生。

Prompt: A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle puff, the cake has pink frosting and sprinkles and the candles cease to flicker, the grandmother wears a light blue blouse adorned with floral patterns, several happy friends and family sitting at the table can be seen celebrating, out of focus. The scene is beautifully captured, cinematic, showing a 3/4 view of the grandmother and the dining room. Warm color tones and soft lighting enhance the mood..木餐桌前,一位头发花白、梳得整整齐齐的老奶奶站在五彩缤纷的生日蛋糕后面,蜡烛点着,脸上流露出喜悦和幸福的神情,眼里闪着幸福的光芒。她身体前倾,轻轻地吹灭了蜡烛,蛋糕上有粉红色的糖霜和糖屑,蜡烛也不再闪烁,祖母穿着一件浅蓝色的衬衫,上面装饰着花卉图案,可以看到几个快乐的朋友和家人坐在桌子旁庆祝,模糊了焦点。这个场景拍得很漂亮,像电影一样,展示了祖母和餐厅的3/4视图。温暖的色调和柔和的灯光增强了情绪。

Safety安全性

Prompt: The camera directly faces colorful buildings in Burano Italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

Prompt: An adorable happy otter confidently stands on a surfboard wearing a yellow lifejacket, riding along turquoise tropical waters near lush tropical islands, 3D digital render art style.

Prompt: This close-up shot of a chameleon showcases its striking color changing capabilities. The background is blurred, drawing attention to the animal’s striking appearance.

Research techniques研究技术

本质:一种扩散模型

基于transformer 架构、统一数据表示(基于patch的小数据集合)

基于DALL·E和GPT模型

文本指令生成视频、静止图像中生成视频、视频延长或填充

Sora的使用方法

Sora的案例应用

1、文本生成视频

2、视频拓展

3、图片动画化


相关文章

AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略

https://yunyaniu.blog.csdn.net/article/details/136133491

VGM之Sora:OpenAI重磅发布一款“炸天”的视频生成模型—《Video generation models as world simulators视频生成模型作为世界模拟器》翻译与解读

https://yunyaniu.blog.csdn.net/article/details/136133843

Sora的简介

2024年2月16日,OpenAI重磅发布一款“炸天”的视频生成模型—Sora。Sora是一种人工智能模型,从文本创建视频,可以根据文本指令创建逼真和富有想象力的场景。本页所有视频均由Sora直接生成,未经修改。

Capabilities功能

我们正在教人工智能理解模拟运动中物理世界,目标是训练模型,帮助人们解决需要与现实世界互动的问题。

Sora可以生成长达一分钟的视频

介绍Sora,我们的文本转视频模型。Sora可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.一个时尚的女人走在东京的街道上,到处都是温暖发光的霓虹灯和动态城市标识。她穿着一件黑色皮夹克,一条长长的红色连衣裙,黑色靴子,背着一个黑色手提包。她戴着墨镜,涂着红色口红。她走起路来自信而随意。街道是潮湿和反光的,产生了五彩灯光的镜像效果。许多行人在街上走来走去。

原视频地址:https://cdn.openai.com/sora/videos/tokyo-walk.mp4

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.几只巨大的长毛猛犸象穿过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处是被雪覆盖的树木和雪山,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低角度的摄像机视角令人惊叹地捕捉到了这只大型毛茸茸的哺乳动物,配以美丽的摄影,景深效果。

原视频地址:https://cdn.openai.com/sora/videos/wooly-mammoth.mp4

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.这是一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影式风格,用35mm胶片拍摄,色彩鲜艳。

原视频地址:https://cdn.openai.com/sora/videos/mitten-astronaut.mp4

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.无人机拍摄的海浪冲击着Big Sur的Garay Point海滩上崎岖的悬崖。蓝色的海水拍打着白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边上长满了绿色的灌木丛。从公路到海滩的陡峭落差是一个壮观的壮举,悬崖的边缘突出在海面上。这是一幅捕捉到海岸原始美景和太平洋海岸公路崎岖的风景。

原视频地址:https://cdn.openai.com/sora/videos/big-sur.mp4

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.动画场景展示了一个矮矮的毛绒怪物跪在一个融化的红色蜡烛旁边的特写镜头。艺术风格是3D和逼真的,重点放在光线和质感上。这幅画的气氛是一种惊奇和好奇,怪物用着大眼睛和张开的嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉,好像它是第一次探索周围的世界。温暖色调和戏剧性的光线进一步增强了图像的舒适氛围。

原视频地址:https://cdn.openai.com/sora/videos/monster-with-melting-candle.mp4

创意

今天,Sora已经开始向红队成员提供服务,以评估危害或风险的关键领域。我们还向许多视觉艺术家、设计师和电影制作人提供了访问权限,以获取如何推进模型对创意专业人士最有帮助的反馈。

我们正在尽早分享我们的研究进展,以便开始与OpenAI之外的人合作,并从他们那里获得反馈,让公众了解即将出现的AI功能。

Prompt: Historical footage of California during the gold rush.淘金热时期加州的历史镜头。

原视频地址:https://cdn.openai.com/sora/videos/gold-rush.mp4

Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand.一个玻璃球的近景,里面有一个禅宗花园。球体中有一个小矮人正在耙禅宗花园,并在沙子上创造图案。

原视频地址:https://cdn.openai.com/sora/videos/zen-garden-gnome.mp4

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic一个24岁的女人眨着眼睛的极端特写,站在马拉喀什的神奇时刻,电影胶片拍摄在70mm,景深,生动的色彩,电影

原视频地址:https://cdn.openai.com/sora/videos/closeup-of-womans-eye.mp4

Prompt: A cartoon kangaroo disco dances.一只卡通袋鼠跳迪斯科。

原视频地址:https://cdn.openai.com/sora/videos/dancing-kangaroo.mp4

Prompt: A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.一个美丽的自制视频,展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄的。

原视频地址:https://cdn.openai.com/sora/videos/lagos.mp4

Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around.一个培养皿,里面生长着竹林,小熊猫在里面跑来跑去。

原视频地址:https://cdn.openai.com/sora/videos/petri-dish-pandas.mp4

Prompt: The camera rotates around a large stack of vintage televisions all showing different programs — 1950s sci-fi movies, horror movies, news, static, a 1970s sitcom, etc, set inside a large New York museum gallery.镜头围绕着一大堆老式电视旋转,这些电视都在播放不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、70年代的情景喜剧等,背景设在纽约一家大型博物馆的画廊里。

原视频地址:https://cdn.openai.com/sora/videos/stack-of-tvs.mp4

Prompt: 3D animation of a small, round, fluffy creature with big, expressive eyes explores a vibrant, enchanted forest. The creature, a whimsical blend of a rabbit and a squirrel, has soft blue fur and a bushy, striped tail. It hops along a sparkling stream, its eyes wide with wonder. The forest is alive with magical elements: flowers that glow and change colors, trees with leaves in shades of purple and silver, and small floating lights that resemble fireflies. The creature stops to interact playfully with a group of tiny, fairy-like beings dancing around a mushroom ring. The creature looks up in awe at a large, glowing tree that seems to be the heart of the forest.3D动画,一个小的,圆的,毛茸茸的生物,有一双大而富有表现力的眼睛,探索充满活力的魔法森林。这种动物是兔子和松鼠的异想天开的混合体,有着柔软的蓝色皮毛和浓密的条纹尾巴。它沿着波光粼粼的小溪跳跃,惊奇地睁大了眼睛。森林里充满了神奇的元素:发光和变色的花朵,紫色和银色叶子的树木,以及像萤火虫一样的小浮动灯。这只生物停下来和一群在蘑菇圈周围跳舞的小仙女嬉戏。这只生物敬畏地仰望着一棵巨大的、发光的树,这棵树似乎是森林的中心。

原视频地址:https://cdn.openai.com/sora/videos/big-eyed-fluff-ball.mp4

复杂场景

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

Sora能够生成具有多个角色特定类型动作精确主题和背景细节的复杂场景。该模型不仅了解用户在提示中所要求的内容,还理解这些东西在物理世界中的存在方式

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.镜头跟在一辆车顶有黑色车顶架的白色复古SUV后面,它在陡峭的山坡上沿着松树环绕的陡峭土路加速行驶,灰尘从轮胎上扬起,阳光照在越野车上,在土路上加速行驶,给场景投下了温暖的光芒。这条土路弯弯曲曲地延伸到远处,看不到其他的车辆。道路两旁的树木都是红杉,点缀着一片片绿色植物。。车辆从后方看去,顺利地跟随着弯曲的道路,使它看起来好像是在崎岖不平的地形上行驶。土路本身被陡峭的丘陵和山脉包围,上面是清澈的蓝天和缕缕的云。

原视频地址:https://cdn.openai.com/sora/videos/suv-in-the-dust.mp4

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.一列火车在东京郊区行驶时,车窗上的倒影。

原视频地址:https://cdn.openai.com/sora/videos/train-window.mp4

Prompt: A drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios, waves are seen crashing against the rocks below as the view overlooks the horizon of the coastal waters and hilly landscapes of the Amalfi Coast Italy, several distant people are seen walking and enjoying vistas on patios of the dramatic ocean views, the warm glow of the afternoon sun creates a magical and romantic feeling to the scene, the view is stunning captured with beautiful photography.一架无人机摄像机环绕着一座美丽的历史悠久的教堂,这座教堂建在阿马尔菲海岸的岩石上,这张照片展示了历史和宏伟的建筑细节,以及分层的通道和露台,海浪撞击着下面的岩石,俯瞰着意大利阿马尔菲海岸的海岸水域和丘陵景观,远处的几个人在露台上散步,欣赏着壮丽的海景。午后阳光的温暖光辉为现场创造了一种神奇而浪漫的感觉,这个景象被美丽的摄影所捕捉。

原视频地址:https://cdn.openai.com/sora/videos/amalfi-coast.mp4

创建多个镜头

该模型对语言有深刻的理解,使其能够准确地解释提示,并生成表达充满活力的情感的引人注目的角色。Sora还可以在单个生成的视频中创建多个镜头,这些镜头准确地延续了角色和视觉风格。

Prompt: Tour of an art gallery with many beautiful works of art in different styles.参观一个艺术画廊,那里有许多不同风格的美丽艺术品。

原视频地址:https://cdn.openai.com/sora/videos/art-museum.mp4

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过繁华的城市街道,跟随几个人享受美丽的雪天气候,并在附近的摊位上购物。绚丽的樱花花瓣随着雪花在风中飞舞。

原视频地址:https://cdn.openai.com/sora/videos/tokyo-in-the-snow.mp4

Prompt: A stop motion animation of a flower growing out of the windowsill of a suburban house.一个定格动画,一朵花从郊区房子的窗台上长出来。

原视频地址:https://cdn.openai.com/sora/videos/flower-blooming.mp4

存在劣势:复杂物理、因果关系

弱点:Sora有时会创建不符合物理规律的动作
Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.一个人跑步的步印场景,35mm胶片拍摄

Weakness: Sora sometimes creates physically implausible motion.

原视频地址:https://cdn.openai.com/sora/videos/backward-jogger.mp4

弱点:在包含许多实体的场景中,动物或人物可能会突然出现
Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.五只小灰狼在一条偏僻的砾石路上嬉戏追逐,周围长满了草。幼崽们又跑又跳,互相追逐,互相咬咬,玩耍。

Weakness: Animals or people can spontaneously appear, especially in scenes containing many entities.

原视频地址:https://cdn.openai.com/sora/videos/puppy-cloning.mp4

弱点:不准确的物理建模和不自然的物体“变形”。
Prompt: Basketball through hoop then explodes.篮球穿过篮筐然后爆炸。

Weakness: An example of inaccurate physical modeling and unnatural object “morphing.”

原视频地址:https://cdn.openai.com/sora/videos/basketball-explosion.mp4

弱点:在这个例子中,Sora未能将椅子建模为刚体物体,导致不准确的物理交互
Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并掸去了上面的灰尘。

Weakness: In this example, Sora fails to model the chair as a rigid object, leading to inaccurate physical interactions.

原视频地址:https://cdn.openai.com/sora/videos/chair-archaeology.mp4

弱点:模拟对象和多个角色之间的复杂互动对模型来说通常是具有挑战性的,有时会导致幽默的产生。
Prompt: A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle puff, the cake has pink frosting and sprinkles and the candles cease to flicker, the grandmother wears a light blue blouse adorned with floral patterns, several happy friends and family sitting at the table can be seen celebrating, out of focus. The scene is beautifully captured, cinematic, showing a 3/4 view of the grandmother and the dining room. Warm color tones and soft lighting enhance the mood..木餐桌前,一位头发花白、梳得整整齐齐的老奶奶站在五彩缤纷的生日蛋糕后面,蜡烛点着,脸上流露出喜悦和幸福的神情,眼里闪着幸福的光芒。她身体前倾,轻轻地吹灭了蜡烛,蛋糕上有粉红色的糖霜和糖屑,蜡烛也不再闪烁,祖母穿着一件浅蓝色的衬衫,上面装饰着花卉图案,可以看到几个快乐的朋友和家人坐在桌子旁庆祝,模糊了焦点。这个场景拍得很漂亮,像电影一样,展示了祖母和餐厅的3/4视图。温暖的色调和柔和的灯光增强了情绪。

Weakness: Simulating complex interactions between objects and multiple characters is often challenging for the model, sometimes resulting in humorous generations.

原视频地址:https://cdn.openai.com/sora/videos/grandma-birthday.mp4

Safety安全性

在将Sora应用于OpenAI的产品之前,我们将采取一些重要的安全措施。我们正在与红队合作,这些红队成员是针对误导信息、仇恨内容和偏见等领域的专家,他们将对模型进行对抗性测试

我们还在构建工具来帮助检测误导性内容,比如检测分类器,它可以判断视频是是否由Sora生成的。如果我们在OpenAI产品中部署该模型,我们计划在将来包含C2PA元数据。

除了开发新技术为部署做准备外,我们还利用了我们为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于Sora。

例如,一旦投入OpenAI产品中,我们的文本分类器将检查并拒绝违反我们使用政策的文本输入提示,例如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人IP知识产权的提示。我们还开发了强大的图像分类器,用于审查生成的每个视频帧,以确保其符合我们的使用政策,然后再向用户显示。

我们将与全球的政策制定者、教育工作者和艺术家进行交流,了解他们的担忧,并确定这项新技术的积极应用案例。尽管进行了广泛的研究和测试,但我们无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用它的所有方式。这就是为什么我们相信,随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。

Prompt: The camera directly faces colorful buildings in Burano Italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

提示:镜头正对着意大利布拉诺五颜六色的建筑。一只可爱的dalation从一楼的窗户往外看。许多人沿着建筑物前的运河街道散步或骑自行车。

原视频地址:https://cdn.openai.com/sora/videos/italian-pup.mp4

Prompt: An adorable happy otter confidently stands on a surfboard wearing a yellow lifejacket, riding along turquoise tropical waters near lush tropical islands, 3D digital render art style.

提示:一只可爱的快乐水獭自信地站在冲浪板上,穿着黄色救生衣,沿着绿松石般的热带水域骑行,附近是郁郁葱葱的热带岛屿,3D数字渲染艺术风格。

原视频地址:https://cdn.openai.com/sora/videos/otter-on-surfboard.mp4

Prompt: This close-up shot of a chameleon showcases its striking color changing capabilities. The background is blurred, drawing attention to the animal’s striking appearance.

提示:这张变色龙的特写照片展示了它惊人的变色能力。背景是模糊的,吸引人们注意到动物引人注目的外表。

原视频地址:https://cdn.openai.com/sora/videos/chameleon.mp4

Research techniques研究技术

本质:一种扩散模型

Sora是一个扩散模型,它从一个看起来像静态噪声的视频开始,然后通过许多步骤去除噪声来逐渐改变它。

Sora能够一次生成整个视频,或者延长生成的视频使其更长。通过赋予模型一次许多帧的预见能力,我们解决了一个具有挑战性的问题,即确保一个主题即使暂时消失在视野之外也保持不变。

基于transformer 架构、统一数据表示(基于patch的小数据集合)

与GPT模型类似,Sora使用transformer 架构,具有出色的扩展性能。

我们将视频和图像表示为称为patch的较小数据单元的集合,每个patch都类似于GPT中的令牌。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散转换器,跨越不同的持续时间、分辨率和长宽比。

基于DALL·E和GPT模型

Sora建立在过去对DALL·E和GPT模型的研究基础上。它使用来自DALL·E 3的重捕获技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循用户在生成的视频中的文字指令。

文本指令生成视频、静止图像中生成视频、视频延长或填充

除了能够仅从文本指令生成视频外,该模型还能够接受现有的静止图像并从中生成视频,并精确地将图像内容动画化,并关注小细节。该模型还可以接受现有的视频并对其进行扩展或填充缺失的帧。在我们的技术报道中了解更多信息。

Sora是能够理解和模拟现实世界的模型的基础,我们相信这一能力将是实现AGI的重要里程碑

Sora的使用方法

更新中……

Sora的案例应用

1、文本生成视频

更新中……

2、视频拓展

更新中……

3、图片动画化

更新中……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/691168.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式锁的应用场景及实现

文章目录 分布式锁的应用场景及实现1. 应用场景2. 分布式锁原理3. 分布式锁的实现3.1 基于数据库 分布式锁的应用场景及实现 1. 应用场景 电商网站在进行秒杀、特价等大促活动时,面临访问量激增和高并发的挑战。由于活动商品通常是有限库存的,为了避免…

MySQL 基础知识(十)之 MySQL 架构

目录 1 MySQL 架构说明 2 连接层 3 核心业务层 3.1 查询缓存 3.2 解析器 3.3 优化器 3.4 执行器 4 存储引擎层 5 参考文档 1 MySQL 架构说明 下图是 MySQL 5.7 及其之前版本的逻辑架构示意图 MySQL 架构大致可分为以下三层: 连接层:负责跟客户…

[oeasy]python0007_ print函数_字符串_display_电传打字机_程序员的浪漫

你好世界 🥊 回忆上次内容 上次 想输出 Hello world!据说是程序猿的浪漫 键盘按键作用↑上一条指令↓下一条指令←光标 向左移动 一格→光标 向右移动 一格ctrl a光标 移动到开头ctrl e光标 移动到结尾 了解到 字符串 就是 给一串字符 两边加引号…

19. 【Linux教程】nano 编辑器

前面小节介绍了如何使用 vim 编辑器,相比于 vim 编辑器,nano 编辑器就比较简单了。nano 是 UNIX 系统中的一个文本编辑器,大部分 Linux 发行版本默认都安装了 nano 文本编辑器。 和 vim 编辑器相比,nano 编辑器就没有那么强大&am…

2024.2.19 阿里云Flink

一 、Flink基本介绍 Spark底层是微批处理 , Flink底层则是实时流计算 流式计算特点: 数据是源源不断产生,两大问题,乱序和延迟 Stateful:有状态 Flink的三个部分 Source:Transactions , logs ,iot ,clicks Transformation: 事件驱动 , ETL , 批处理 Sink : 输出 HDFS ,Kaf…

Keil软件生成bin文件

首先需要在keil的魔法棒里将运行脚本加上 加上脚本后,还需要将编译后的文件存放于什么位置 C:\Keil_v5\ARM\ARMCC\bin\fromelf.exe --bin -o "$LL.bin" "#L" 到这里就可以了

工业智能:基于LSTM的电解槽出铝量预测与可视化系统设计与实现

工业智能:基于LSTM的电解槽出铝量预测与可视化系统设计与实现 工业智能:基于LSTM的电解槽出铝量预测与可视化系统设计与实现项目背景与意义技术与功能介绍系统设计与实现结语 工业智能:基于LSTM的电解槽出铝量预测与可视化系统设计与实现 在…

Mac清理系统垃圾软件CleanMyMac X2025免费版本下载

嘿,Mac用户们,你是否经常感觉你的Mac就像是在背着一个沉重的包袱在跑步?是的,我在说那些堆积如山的系统垃圾。清理这些垃圾不仅可以让你的Mac跑得更快,还能让它“呼吸”更畅快。今天,让我们一起来探索如何M…

一加手机怎么录屏?这个方法请你收好!

“我最近刚换了一加手机,本以为录屏功能会像之前用的手机一样方便找到,但翻遍了设置菜单也没找到。我知道一加手机是支持录屏功能的,所以想请教一下,一加手机的录屏功能在哪里,应该怎么使用?” 随着智能手…

Uniapp-开发小程序

文章目录 前言一、npm run xxx —— cross-env: Permission denied解决方法(亲测有效)其他解决方法: 二、macOS 微信开发者工具选择uniapp 用 vscode 开发 总结 前言 macOS下 uniapp 开发小程序。 一、npm run xxx —— cross-env: Permissi…

神经网络——循环神经网络(RNN)

神经网络——循环神经网络(RNN) 文章目录 神经网络——循环神经网络(RNN)一、循环神经网络(RNN)二、循环神经网络结构1、一对一(One to One)2、一对多(One to Many&#…

爬虫学习笔记-scrapy爬取电影天堂(双层网址嵌套)

1.终端运行scrapy startproject movie,创建项目 2.接口查找 3.终端cd到spiders,cd scrapy_carhome/scrapy_movie/spiders,运行 scrapy genspider mv https://dy2018.com/ 4.打开mv,编写代码,爬取电影名和网址 5.用爬取的网址请求,使用meta属性传递name ,callback调用自定义的…

C#快速配置NLog日志使用

首先我们需要在Nuget中安装Nlog和Nlog-Schema。 添加配置文件&#xff1a;NLog.config <?xml version"1.0" encoding"utf-8" ?> <nlog xmlns"http://www.nlog-project.org/schemas/NLog.xsd"xmlns:xsi"http://www.w3.org/2001…

整车 EOL下线 测试系统介绍

EOL测试系统背景 随着国家对环保事业的愈加重视&#xff0c;电动汽车以其绿色清洁的驱动方式&#xff0c;逐渐成为政策扶持 的重点对象。一方面&#xff0c;国家对电动汽车越来越重视&#xff0c;在另外一个方面&#xff0c;人们也越来越乐于绿色 出行&#xff0c;增大了电动汽…

NestJS入门1:创建项目

1.初始化 管理员权限运行CMD进入某个文件夹&#xff0c;输入命令&#xff0c;进行初始化&#xff0c;该命令不在文件夹下产生文件 npm i -g nestjs/cli 2. 创建项目 不需要手工创建文件夹&#xff0c;在原路径下执行以下命令&#xff08;其中nest-start为项目名&#xff0c…

前端新手Vue3+Vite+Ts+Pinia+Sass项目指北系列文章 —— 第十二章 常用工具函数 (Utils配置)

前言 在项目开发中&#xff0c;我们经常会使用一些工具函数&#xff0c;也经常会用到例如loadsh等工具库&#xff0c;但是这些工具库的体积往往比较大&#xff0c;如果项目本身已经引入了这些工具库&#xff0c;那么我们就没有必要再引入一次&#xff0c;所以我们需要自己封装…

Spring Boot 笔记 023 注册页面

1.1 request.js请求工具 //定制请求的实例//导入axios npm install axios import axios from axios; //定义一个变量,记录公共的前缀 , baseURL const baseURL /api; const instance axios.create({baseURL})//添加响应拦截器 instance.interceptors.response.use(result…

【VSCode编写JavaScript】

VSCode编写JavaScript ■ 下载安装VSCode■ VSCode统一配置■ 格式化工具■ Tab size &#xff08;代码缩进 2个字符&#xff09;![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/7b79c59636f147c8b08a0fff37886e0a.png) ■ VSCode安装JS插件■ VSCode新建JS工程代码…

政安晨:【完全零基础】认知人工智能(五)【超级简单】的【机器学习神经网络】 —— 数据训练

回顾 作为这个系列文章的最后一篇&#xff0c;咱们先回顾一下建立神经网络的整体步骤&#xff0c;以实现对机器学习神经网络的整体认知&#xff1a; 在人工智能领域中&#xff0c;机器学习神经网络的数据训练部分是指通过将大量的输入数据输入到神经网络中&#xff0c;利用反…

OpenAI文生视频物理世界模型——Sora降世,AI视频领域降维打击令五大行业一夜变天!

年初六&#xff0c;OpenAI发布了“文生视频”的工具&#xff0c;Sora。AI技术变革又一次震撼了整个世界。或许你又开始担心&#xff0c;AI发展那么快&#xff0c;将会取代自己。但请记住&#xff0c;危机时代也是变革时代&#xff0c;变革就是机会。开工第一天&#xff0c;相信…