国产Sora诞生!清华团队发布Vidu大模型,可直接生成16秒视频

大模型之争已从单模态转向多模态。

4月27日,在2024中关村论坛年会未来人工智能先锋论坛上,清华大学联合北京生数科技有限公司正式发布了文生视频大模型——Vidu。

在会议上,清华大学人工智能研究院副院长、生数科技首席科学家朱军对外展示了多段由Vidu生成的视频,单段视频最长可达16秒,并且在整个视频呈现上,Vidu已经不输Sora。

年初,OpenAI发布的Sora惊艳了世界,也让外界对大模型的关注焦点从单模态转向多模态。而Vidu的发布,则是国内首个具备“长时长、高一致性、高动态性”等特点的视频大模型。

国产Sora

据朱军介绍,目前国内已有视频大模型的生成视频大多在4秒左右,而Vidu可以一次性生成16秒的视频。除了在时长上的突破以外,Vidu在视频效果方面也得到显著提升。

比如Vidu能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够在一段画面里实现远景、近景、中景、特写等不同镜头的切换,包括直接生成长镜头、追焦、转场等效果。

另外,Vidu既能够模拟真实物理世界,也能够生成真实世界不存在的虚构画面。其中对于真实世界,Vidu能生成细节复杂且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。

同时,作为国产大模型,Vidu更理解中国元素,能够生成熊猫、龙等特有的中国元素。

朱军表示,Vidu与Sora一样,采用的都是“一步到位”的生成方式,即视频片段从头到尾是连续生成的,在底层算法上则是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

早于DiT架构提出U-ViT

据朱军介绍,Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。

需要指出的是,外界熟悉的Sora、Stable Diffusion 3等模型,采用的都是Diffusion Transformer架构DiT。而所谓Diffusion Transformer是在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合。

DiT架构由伯克利团队于2022年12月发表。而生数科技在其之前提出的基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。

2023年3月,Vidu团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,并率先完成了U-ViT架构的大规模可扩展性验证。

正是有了这些长期的技术积累,Vidu团队才能够在Sora发布仅两个月后,就快速推出了自研视频大模型。

朱军表示,从图文任务的统一到融合视频能力,作为通用视觉模型,Vidu能够支持生成更加多样化、更长时长的视频内容,同时面向未来,灵活架构也将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。

生数科技是谁?

作为Vidu的研发方之一,外界对于生数科技可能相对陌生。

生数科技成立于2023年3月,核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

去年,生数科技完成多笔融资,投资方包括蚂蚁集团、锦秋基金等。今年3月,生数科技完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。

目前,生数科技团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇。在扩散模型方面,该团队的成果已涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

另外虽然成立时间不长,但生数科技已经开始推进大模型的商业化落地。一方面是以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。

截至目前,生数科技已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,同时,生数科技也于去年上线两款工具产品,分别是视觉创意设计平台PixWeaver金额3D资产创建工具VoxCraft。

大模型岗位需求

大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

-END-


👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/4821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

stack,queue的模拟实现以及优先级队列

这篇博客用来记录stack&#xff0c;queue的学习。 stack的模拟实现 stack的模拟实现比较简单&#xff0c;先上代码 #pragma once #include<vector> #include<list> #include<deque> #include<iostream> using std::deque; using namespace std;name…

PyTorch中Torch.arange()函数详解

函数原型 arange(start0, end, step1, *, outNone, dtypeNone, layouttorch.strided, deviceNone, requires_gradFalse) -> Tensor 用法 返回大小为的一维张量&#xff0c;其值介于区间 为步长等间隔取值 参数说明 参数类型说明startNumber起始值&#xff0c;默认值&…

【Python的魅力】:利用Pygame实现游戏坦克大战——含完整源码

文章目录 一、游戏运行效果二、代码实现2.1 项目搭建2.2 加载我方坦克2.3 加载敌方坦克2.4 添加爆炸效果2.5 坦克大战之音效处理 三、完整代码 一、游戏运行效果 二、代码实现 坦克大战游戏 2.1 项目搭建 本游戏主要分为两个对象&#xff0c;分别是我方坦克和敌方坦克。用户可…

C++ 中的隐式类型转换

基本数据类型的转换(不是重点) int i 42; double d i; // int 自动转换为 double 类类型转换: 如果一个类定义了接受单一参数的构造函数&#xff08;且该构造函数未被声明为 explicit&#xff09;&#xff0c;那么该构造函数可以被用来进行隐式转换,可以理解为int被隐式转…

告别盲目投放,Xinstall让App广告效果一目了然

在移动互联网时代&#xff0c;App广告的投放已经成为企业营销的重要手段。然而&#xff0c;广告主在投放广告后&#xff0c;如何有效追踪广告效果、衡量广告ROI&#xff0c;一直是困扰他们的难题。今天&#xff0c;我们就来聊聊Xinstall这家国内专业的App全渠道统计服务商&…

计算一个结构的平方

在行列可自由变换的平面上计算3a1*3a1 得到的结构应该有9个点&#xff0c;并且点的分布有3a1的特征 这个9点结构可以化简成 1 1 1 1 1 1 1 1 1 显然这个结构可以再次平方&#xff0c;得到 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 …

python:reportlab 生成pdf:基本用法。

1.首先&#xff0c;打开cmd&#xff0c;安装reportlab pip install -i https://pypi.tuna.tsinghua.edu.cn/simple reportlab #从清华镜像安装更快 然后就可以使用其基本用法。 from reportlab.lib.pagesizes import letter from reportlab.pdfgen import canvasdef genera…

Day43 JDK1.8新特性 下 接口的类优先原则和接口冲突,日期时间组件,重复注解

Day43 JDK1.8新特性 1.接口的默认方法与静态方法 从JDK1.8开始&#xff0c;接口中可以有默认方法&#xff0c;既default修饰的方法&#xff0c;此方法可以让接口的实现类所调用&#xff0c;而接 口中的静态方法直接用接口名调用即可 public class Test1 {Testpublic void test…

小程序评分/关键词/UV优化助力小程序登顶

随着小程序市场的日益繁荣&#xff0c;小程序搜索排名优化成为了众多开发者关注的焦点。小程序搜索排名被很多因素影响着&#xff0c;关键词、评分还有uv&#xff08;授权&#xff09;等。在本文小柚和各位老板分享如何有效优化小程序搜索排名的经验。 一、关键词策略 关键词是…

Python | Leetcode Python题解之第55题跳跃游戏

题目&#xff1a; 题解&#xff1a; class Solution:def canJump(self, nums: List[int]) -> bool:n, rightmost len(nums), 0for i in range(n):if i < rightmost:rightmost max(rightmost, i nums[i])if rightmost > n - 1:return Truereturn False

【c++】cpp运算符重载

目录 &#xff08;1&#xff09;什么是运算符重载 &#xff08;2&#xff09;运算符重载的本质是函数调用 &#xff08;3&#xff09;可以与不可以重载的运算符 &#xff08;4&#xff09;单目运算符与双目符重载区别 &#xff08;5&#xff09;双目运算符重载举例 重载操…

Web3的可持续性:构建环境友好的去中心化系统

引言 随着全球对可持续发展和环境问题的日益关注&#xff0c;Web3技术作为一种新型的互联网模式&#xff0c;也开始受到社区和开发者的关注。但很少有人关注到Web3对环境可持续性的潜在影响。本文将探讨Web3如何构建一个环境友好的去中心化系统&#xff0c;以及这如何促进一个…

偏微分方程算法之五点菱形差分法

目录 一、研究目标 二、理论推导 三、算例实现 四、结论 一、研究目标 上个专栏我们介绍了双曲型偏微分方程的主要算法及实现。从今天开始&#xff0c;我们在新的专栏介绍另一种形式偏微分方程-椭圆型的解法。 研究目标选取经典的二维椭圆型方程&#xff08;也称泊松Poisso…

马斯克突击访华;谷歌 Python 基础团队全数被裁;丨 RTE 开发者日报 Vol.195

开发者朋友们大家好&#xff1a; 这里是 「RTE 开发者日报」 &#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE&#xff08;Real Time Engagement&#xff09; 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

python基础学习之写入csv文件

前言 在Python编程中&#xff0c;经常会遇到要将数据存到csv文件中&#xff0c;今天来详细讲一下。 一.功能目的 将以下数据存到csv文件中。 data [ {name: Alice, age: 25, city: New York}, {name: Bob, age: 30, city: Los Angeles}, {name: Charlie, age: 35, city:…

共享模型之无锁——Unsafe

文章目录 概述Unsafe CAS 操作 名字虽然叫Unsafe,但并不是线程不安全&#xff0c;而是因为他会操作内存&#xff0c;操作线程&#xff0c;不建议开发人员使用。 概述 Unsafe 对象提供了非常底层的&#xff0c;操作内存、线程的方法&#xff0c;Unsafe 对象不能直接调用&#x…

群狼调研(长沙商业咨询)广告效果测评的关键指标

广告效果测评涉及多个关键指标&#xff0c;以下是其中一些常见的指标&#xff1a; 1.广告到达&#xff08;Ad Reach&#xff09;&#xff1a;衡量广告在目标受众中的覆盖范围和到达程度。它可以包括广告曝光的人数、频次、覆盖率等方面的评估。 2.广告认知&#xff08;Ad Aware…

基于Python和Selenium的BOSS直聘Python岗位数据分析系统的设计与实现

基于Python和Selenium的BOSS直聘Python岗位数据分析系统的设计与实现 Design and Implementation of Python-based Selenium-powered BOSS Direct Recruitment Python Job Data Analysis System 完整下载链接:基于Python和Selenium的BOSS直聘Python岗位数据分析系统的设计与实…

H5 录音功能

Recorder: html5 js 录音 mp3 wav ogg webm amr g711a g711u 格式&#xff0c;支持pc和Android、iOS部分浏览器、Hybrid App&#xff08;提供Android iOS App源码&#xff09;、微信&#xff0c;提供ASR语音识别转文字 H5版语音通话聊天示例 DTMF编码解码 git 地址&#xff1a…

DS:单链表的实现

欢迎各位来到 Harper.Lee 的编程学习小世界&#xff01; 博主主页传送门&#xff1a;Harper.Lee的博客 我将在这里分享我的学习过程等心得 创作不易&#xff0c;码字不易&#xff0c;兄弟们养成先赞后看的好习惯哦&#xff01; 想一同进步的uu&#xff0c;可以来后来找我哦&…