AI研报:从Sora看多模态大模型发展

《从Sora看多模态大模型发展》的研报来自浙商证券,写于2024年2月。

这篇报告主要探讨了多模态大模型的发展趋势,特别是OpenAI发布的视频生成模型Sora,以及其对行业发展的影响。以下是报告的核心内容概述:

  1. Sora模型的发布:
    - OpenAI于2024年2月16日发布了视频生成模型Sora,该模型能够生成长达1分钟、不同宽高比和分辨率的视频和图片。
    - Sora基于Diffusion Transformer技术,结合了视频压缩网络、潜空间patch、直接在原始大小训练和重新标注技术,能够处理图像和视频输入,实现多种视频生成和编辑功能。


视频压缩网络(Video compression network):减少视觉数据维度。输入原始视频,输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。(同时训练了一个解码器将生成的潜在表征转回原像素空间)
潜空间patch(Spacetime latent patches ):类比Transformer tokens,推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。
直接在原始图片的大小上训练:过去往往将视频或者图片压缩到固定大小(比如4秒钟、分辨率256*256),Sora直接在原始素材规格上训练。
为视频训练素材生成详细字幕和标注:Re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型,然后用它为训练集中的视频生成文本说明。DALL E3中已经使用过,使用GPT将简短prompt转化为详细说明,这些说明会被输入到视频模型中。这可以增强文本理解能力,可以提高文本的保真度和视频的整体质量,使得Sora能够生产准确遵循用户提升的高质量视频。
Sora核心能力:3D一致性、物体持久性、世界交互、模拟数字世界
Sora模型的局限性:虽然能模拟一些基础物理互动,比如玻璃的碎裂,但还不够精确;
其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化;
长视频中存在逻辑不连贯,或者物体会无缘无故出现的现象。

  1. 多模态大模型的商业化前景:
    - 国内外厂商如谷歌、字节跳动等也在布局多模态大模型领域,预计2024年文生视频将进入商业化探索阶段。
    - 高质量数据和底层通用大模型是文生视频能力的关键因素,随着技术的进步,文生视频在时间长度、画面清晰度和内容逼真程度等方面有望实现显著提升。
  2. 全球视频内容市场的潜力:
    - 据数据显示,2025年全球数字视频内容市场规模有望达到3271.9亿美元,2021-2025年复合年增长率约为13.7%。
    - 海外已有Synthesia、Runway等厂商在文生视频领域形成成熟商业方案,应用于企业产品介绍、操作指南、客户服务等场景。
  3. 建议关注的标的公司:
    - 大模型厂商:科大讯飞、云从科技、微软、谷歌。
    - 多模态应用厂商:万兴科技、虹软科技、焦点科技、Adobe。
公司名称代码AI+视频相关业务/产品
科大讯飞002230.SZ国产大模型龙头,多模态领域技术积累深厚
海康威视002415.SZ研发视觉多模态大模型
大华股份002236.SZ自研大华星汉大模型
云从科技-UW688327.SH国内CV领域龙头厂商之一
焦点科技002315.SZAI外贸虚拟人视频助手
虹软科技688088.SH视觉AI开放平台
万兴科技300624.SZAI视频领域龙头,“天幕”大模型
国投智能300188.SZAI视频图像鉴真工作站
当虹科技688039.SHAI智能视频解决方案
网达软件603189.SH积极推动“大视频+AI"在垂直领域的布局
丝路视觉300556.SZ子公司是视频染技术龙头
商汤-Whttp://0020.HK“日日新SenseNova"大模型
拓尔思300229.SZ并面向媒体、金融、政务领域、拓天大模型
汉王科技002362.SZ笔智能交互、NLP技术、大数据处理、智能人机交互、垂直领域大模型
  1. 风险提示:

- AI技术迭代不及预期的风险。

- AI商业化产品发布不及预期的风险。

- 政策不确定性带来的风险。

- 下游市场不确定性带来的风险。

报告还详细分析了多模态AI的核心技术环节、Sora模型的技术路线和应用案例,以及国内外其他厂商的AI视频生成算法及工具。此外,报告对AIGC在视频领域的商业化现状与展望进行了探讨,并预测了千亿级数字视频生成市场的未来潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/771657.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试算法-103-对链表进行插入排序

题目 给定单个链表的头 head ,使用 插入排序 对链表进行排序,并返回 排序后链表的头 。 插入排序 算法的步骤: 插入排序是迭代的,每次只移动一个元素,直到所有元素可以形成一个有序的输出列表。 每次迭代中,插入排序…

基于单片机的太阳能充电系统设计

摘要:本文所设计的太阳能充电系统主要由以下几个模块组成:STC89C52 主控模块、TP4056 充电电路、电压AD 采集模块、LCD1602 液晶显示模块和太阳能充电电池等组成。此太阳能充电器制作简单,性价比高,性能稳定。 关键词:LCD1602;太阳能充电系统;ADC0832 太阳能充电系统的充…

MySQL WHERE 条件查询

我们通常要求在执行 SELECT 查询时,都要带上查询条件。那这一节,我们就来学习一些简单的 WHERE 条件查询。 我们仍然以技术派文章表 article 为例,比如说我们要查找标题为“聊聊分库分表”的文章,可以这么写: SELECT *…

echarts做水滴图;解决[echarts] unknown series liquidfill 水球加载问题

一份echarts示例代码,包含水滴图 直接在echarts里使用水滴图liquidfill会报错[echarts] unknown series liquidfill 解决方案:需要下载echarts-liquidfill依赖 echarts-liquidfill2兼容echarts4; echarts-liquidfill3兼容echarts5; 例如:我的…

IDEA使用手册

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

【vue3(七)】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、ref二、TS接口泛型规范1.创建ts文件,定义接口2.引入规范 三、props的使用四、生命周期(生命周期函数,生命周期钩子&…

rust中字符串String常用方法和注意事项

Rust 中通常说的字符串指的是&#xff1a;String 和 &str(字符串字面值、或者叫字符串切片)这两种类型。str是rust中基础字符串类型&#xff0c;String是标准库里面的类型。Rust 中的字符串本质上是&#xff1a;Byte的集合&#xff08;Vec<u8>&#xff09; 基础类型…

【第三方登录】Google邮箱

登录谷歌邮箱开发者 https://console.developers.google.com/ 先创建项目 我们用的web应用 设置回调 核心主要&#xff1a; 1.创建应用 2.创建客户端ID 3.设置域名和重定向URL 4.对外公开&#xff0c;这样所有的gmail邮箱 都能参与测试PHP代码实现 引入第三方包 h…

Spring实例化Bean的三种方式

参考资料&#xff1a; Core Technologies 核心技术 spring实例化bean的三种方式 构造器来实例化bean 静态工厂方法实例化bean 非静态工厂方法实例化bean_spring中有参构造器实例化-CSDN博客 1. 构造函数 1.1. 空参构造函数 下面这样表示调用空参构造函数&#xff0c;使用p…

linux查看usb是3.0还是2.0

1 作为device cat /sys/devices/platform/10320000.usb30drd/10320000.dwc3/udc/10320000.dwc3/current_speed 或 /sys/class/udc/10320000.dwc3/current_speed 如下 high-speed usb2.0 super-speed usb3.0 2 作为host linux下使用以下命令查看 &#xff0c;如果显示 速率为…

python关于字符串基础学习

字符串 python字符串是不可改变的 Python不支持单字符类型&#xff0c;单字符也是作为一个字符串使用的。 字符串编码 python3直接支持Unicode,可以表示世界上任何书面语言的字符 python3的字符默认就是16位Unicode编码&#xff0c;ASCII是Unicode的子集 使用内置函数 ord()…

c++初步

作业&#xff1a; 定义自己的命名空间&#xff0c;其中有string类型的变量&#xff0c;再定义两个函数&#xff0c;一个函数完成字符串的输入&#xff0c;一个函数完成求字符串长度&#xff0c;再定义一个全局函数完成对该字符串的反转 #include <iostream> #include &…

辽渤湾海现已加入2024第七届燕窝天然滋补品博览会

参展企业介绍 大连辽渤湾海产品有限公司&#xff0c;是一家主营海参、鲍鱼、海胆等大连海产品的加工和销售的综合型水产企业&#xff0c;拥有国内精良的整条加工流水线&#xff0c;拥有上千平米的现代化加工办公场地的现代化企业。现已发展成为大连海参产品的主导型深加工基地。…

SpringBoot 三种拦截http请求方式Filter,Interceptor和AOP

1 Filter Filter常被叫做过滤器&#xff0c;filter的调用周期大致如下 也就是说filter在servlet之前&#xff0c;没有办法在filter中获取springboot中的java bean对象。 Filter生命周期方法 init:在服务器启动后&#xff0c;会创建Filter对象&#xff0c;然后调用init方法。…

无货源违规又现,现在还能做抖音小店吗?无货源商家该怎么调整?

大家好&#xff0c;我是电商花花。 最近好像又有很多人的店铺被查无货源违规&#xff0c;店铺还被扣12分&#xff0c;也申诉不了。 如果想要长期的做下去&#xff0c;就不要秀那些花里胡哨的操作&#xff0c;也不要为了短暂的自然流量而进行违规操作&#xff0c;为什么你的店…

【网络爬虫】(1) 网络请求,urllib库介绍

各位同学好&#xff0c;今天开始和各位分享一下python网络爬虫技巧&#xff0c;从基本的函数开始&#xff0c;到项目实战。那我们开始吧。 1. 基本概念 这里简单介绍一下后续学习中需要掌握的概念。 &#xff08;1&#xff09;http 和 https 协议。http是超文本传输&#xf…

leetcode mt simple

Leetcode-MT-Simple 文章实际写于2021年&#xff0c;那个炎热的夏天。 Leet Code 美团题库简单类总结&#xff0c;题目按照解法可大致分为数学法、计数法、位运算、双指针法、字符串、哈希表、栈、递归/迭代、排序法、匹配法、记忆化法、二分法、分治法、摩尔投票法、前缀和、…

基于nodejs+vue家装一体化平台python-flask-django-php

提高现下家装一体化平台的准确度&#xff0c;同时降低经济波动带来的不良影响&#xff0c;希望本文能对广大学者的研究提供参考。 前端技术&#xff1a;nodejsvueelementui, Express 框架于Node运行环境的Web框架, 语言 node.js 框架&#xff1a;Express 前端:Vue.js 数据库&am…

喜获千万元价值补贴,探索 AI 领域新应用:Zilliz 全力支持 AI 初创企业

价值 1000 万元的大额补贴&#xff01;得到领先全行业的向量数据库团队支持&#xff01;尽享独家生态资源&#xff01;「Zilliz AI 初创计划」正式开启&#xff01; 「Zilliz AI 初创计划」是 Zilliz 面向 AI 初创企业推出的一项扶持计划&#xff0c;预计提供总计 1000 万元的 …

书生·浦语大模型实战营——两周带你玩转微调部署评测全链路

引言 人工智能技术的发展日新月异&#xff0c;其中大模型的发展尤其迅速&#xff0c;已然是 AI 时代最炙手可热的当红炸子鸡。 然而&#xff0c;大模型赛道对于小白开发者来说还是有不小的门槛。面对内容质量参差不齐的课程和实际操作中遇到的问题&#xff0c;许多开发者往往…