【AIGC半月报】AIGC大模型启元:2024.06(下)

AIGC大模型启元:2024.06(下)

    • (1) Gen-3
    • (2) Open-Sora(Open-Sora再升级)
    • (3) Claude 3.5 Sonnet(Claude升级)
    • (4) ChatTTS v3(ChatTTS升级)
    • (5) 盘古大模型5.0

(1) Gen-3

2024.06.18 自从OpenAI公布了Sora,视频生成领域正式按下了行业加速键,许多国内外企业纷纷发力,不仅研究发布专门用于视频生成的垂直大模型,还将手里的技术封装成一个个人人能用的AIGC产品。
  随着新玩家数量的剧增,这场视频生成领域的战争愈演愈烈,其中受到冲击最大的自然是老牌同类竞品模型,比如Pika、SDV、谷歌、Meta,还有刚发布第三代视频生成模型Gen-3 Alpha的Runway。
  Runway深夜发布的各种演示视频展示出了电影级的画面细节,直接震惊了全体网友。Gen-3与之前的旗舰视频模型Gen-2相比,在模型生产速度和保真度方面有了重大提升,同时对生成视频的结构、风格和运动提供了细粒度的控制。
  Runway表示,Gen-3 Alpha具有高保真视频、精细动作控制、逼真人物生成、多模态输入、专业创作工具、增强安全、高质量训练等特点。在这次模型的训练过程中,汇集了研究者、工程师和艺术家的集体智慧和努力。正是这种跨学科的协作精神,使得Gen-3 Alpha模型能够理解和表达多种风格和电影概念。
  官方展示视频时长为10秒,人物生成中的人物面部细节和情感营造方面比较细腻,场景、风景生成中的元素、光影没有太大的违和感。友情提示,以下展示内容因为要转换为GIF,所以画质均有不同程度压缩,想看原视频的朋友可以去Runway官网复习下。

推荐文章: 视频大模型画饼哪家强?Gen-3演示效果绝杀Sora
体验地址: https://runwayml.com/blog/introducing-gen-3-alpha/

(2) Open-Sora(Open-Sora再升级)

2024.06.18 潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,令人惊喜的是,他们选择再给开源社区带来亿点点震撼,继续全部开源。
  通过他们的模型权重,能够生成各种酷炫的短片,比如海浪和海螺的亲密接触,还有那些深不可测的森林秘境。
  在潞晨 Open-Sora 团队发布的这份技术报告中,他们深度剖析了本次模型训练的核心和关键。在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了 1.1B 的扩散生成模型。
  在这个"算力为王"的时代,我们深知视频模型训练的两大痛点:计算资源的巨大消耗与模型输出质量的高标准。潞晨 Open-Sora 团队以一种极简而有效的方案,成功地在成本和质量之间找到了平衡点。
  Open-Sora 团队提出了一个创新的视频压缩网络(VAE),该网络在空间和时间两个维度上分别进行压缩。具体来说,他们首先在空间维度上进行了 8x8 倍的压缩,接着在时间维度上进一步压缩了 4 倍。通过这种创新的压缩策略,既避免了因抽帧而牺牲视频流畅度的弊端,又大幅降低了训练成本,实现了成本与质量的双重优化。

推荐文章: 开源模型潞晨 Open-Sora 大突破!
开源地址: https://github.com/hpcaitech/Open-Sora

(3) Claude 3.5 Sonnet(Claude升级)

2024.06.20 刚刚,被称为“OpenAI 最强竞对”的大模型公司 Anthropic 发布了 Claude 3.5 系列模型中的第一个版本——Claude 3.5 Sonnet。
  Anthropic 在官方博客中表示,Claude 3.5 Sonnet 提高了智能化的行业标准,在各种评估中均优于 GPT-4o、Gemini 1.5 和 Llama-400b 等竞争对手模型和其上一代最智能的模型 Claude 3 Opus,速度和成本也与上一代中等模型 Claude 3 Sonnet 相当。
  据介绍,Claude 3.5 Sonnet 的成本为 3 美元/百万输入 token,15 美元/百万输出 token,上下文窗口为 20 万 token。
  现在,Claude 3.5 Sonnet 可在 Claude 网页版和 Claude iOS 应用程序上免费使用,而 Claude Pro 和 Team 计划的用户则可以更高的速率限制访问它,还可通过 Anthropic API、Amazon Bedrock 和 Vertex AI 使用。
  Anthropic 表示,尽管 Claude 3.5 Sonnet 在智能方面有了飞跃,但红队评估认为,Claude 3.5 Sonnet 仍处于 ASL-2 级。

推荐文章: 刚刚,OpenAI最强竞对发布Claude 3.5 Sonnet,全面超越GPT-4o,重新定义交互方式
参考地址: https://www.anthropic.com/news/claude-3-5-sonnet

(4) ChatTTS v3(ChatTTS升级)

2024.06.22 ChatTTS增强版V3来啦!本次更新增加支持导入SRT、导入音色等功能。结合上次大家反馈的问题,修复了长文本、中英混读等问题。

推荐文章: ChatTTS增强版V3,长文本修复,中英混读,导入音色,批量SRT、TXT,代码开源
开源地址: https://github.com/CCmahua/ChatTTS-Enhanced

(5) 盘古大模型5.0

2024.06.22 华为开发者大会2024(HDC 2024)上,华为常务董事、华为云CEO张平安正式发布盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级;张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践,持续深入行业解难题。
  此外,华为诺亚方舟实验室主任姚骏、华为云CTO张宇昕分别就盘古大模型5.0技术解密和华为云全栈系统性创新发表主题演讲,详细解读华为云在AI领域的全栈创新优势。
  全系列:盘古大模型5.0包含不同参数规格的模型,以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列,适用于低时延、高效率的推理场景;千亿级参数的Pangu U系列适用于处理复杂任务;万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。
  多模态:盘古大模型5.0能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面,可支持10K超高分辨率;在内容生成方面,采用业界首创的STCG(Spatio Temporal Controllable Generation,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容。

推荐文章: 【重磅】华为云盘古大模型5.0,正式发布!
开源地址: /

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/858017.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

012_redhat安装activemq

activemq安装步骤 1.官网下载安装包2.上传并解压ActiveMQ安装包: 将下载的ActiveMQ安装包上传到你的Linux服务器上3.启动ActiveMQ服务: 进入解压后的ActiveMQ目录下的bin󠁪子目录,然后运行以下命令来启动ActiveMQ服务:4.设置开机自启 1.官网下…

代码随想录算法跟练 | Day8 | 字符串 Part01

个人博客主页:http://myblog.nxx.nx.cn 代码GitHub地址:https://github.com/nx-xn2002/Data_Structure.git Day8 344. 反转字符串 题目链接: https://leetcode.cn/problems/reverse-string/ 题目描述: 编写一个函数&#xff0…

c库函数:strrchr使用demo案例

1. strrchr库函数说明 头文件 <string.h> 函数形式 char *strrchr( const char *str, int ch ); 功能 在str所指向的空终止字节串中寻找字符ch的最后出现。 参数 str - 指向要分析的空终止字节字符串的指针 ch - 要搜索的字符 返回值 指向 str 中找到的字符的…

Emacs之实现目录替换(一百四十三)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

vue 中监听生命周期事件

vue 中监听生命周期事件 常见的添加自定义事件的写法希望在子组件挂载时通知父组件在模板上监听组件生命周期vue3 有类似的写法吗&#xff1f;jsx 中如何监听 vue3 组件的生命周期事件呢&#xff1f; vue3 父组件组件的生命周期的执行顺序是什么&#xff1f;小结 vue2 提供了一…

边缘计算和云计算的区别

边缘计算和云计算是两种不同的计算范式&#xff0c;它们在数据处理、响应时间、网络带宽、安全性等方面有着显著的区别。下面分别介绍这两种计算方式的特点&#xff1a; ### 云计算&#xff08;Cloud Computing&#xff09; 云计算是一种通过互联网提供计算资源&#xff08;如服…

00 - React 基础

1. React 基础 JSX JSX 是一种 JavaScript 的语法扩展&#xff0c;类似于 XML 或 HTML&#xff0c;允许我们在 JavaScript 代码中编写 HTML。 const element <h1>Hello, world!</h1>;组件 组件是 React 应用的核心&#xff0c;可以是函数组件或类组件。 函数…

DataBase 的一些规范 ?

1命名规范 1.1表名要有业务意义 1.2避免使用关键字 mysql关键字 1.3库、表、字段全部采用小写 1.4命名&#xff08;包括表名、列名&#xff09;禁止超过 30 个字符 1.5临时库、表名必须以 tmp 为前缀&#xff0c;并以日期为后缀&#xff1b;如&#xff1a;tmp_shop_info_2…

如何在Java中进行单元测试:JUnit 5的使用指南

如何在Java中进行单元测试&#xff1a;JUnit 5的使用指南 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 单元测试是软件开发中的一个关键环节&#xff0c;它…

贪心算法练习题(2024/6/18)

什么是贪心 贪心的本质是选择每一阶段的局部最优&#xff0c;从而达到全局最优。 贪心算法一般分为如下四步&#xff1a; 将问题分解为若干个子问题找出适合的贪心策略求解每一个子问题的最优解将局部最优解堆叠成全局最优解 1分发饼干 假设你是一位很棒的家长&#xff0c…

pytest测试框架pytest-rerunfailures插件重试失败用例

Pytest提供了丰富的插件来扩展其功能&#xff0c;介绍下插件pytest-rerunfailures &#xff0c;用于在测试用例失败时自动重新运行这些测试用例。 pytest-rerunfailures官方显示的python和pytest版本限制&#xff1a; Python 3.8pytest 7.2 或更新版本 此插件可以通过以下可…

Scala运算符及流程控制

Scala运算符及流程控制 文章目录 Scala运算符及流程控制写在前面运算符算数运算符关系运算符赋值运算符逻辑运算符位运算符运算符本质 流程控制分支控制单分支双分支多分支 循环控制for循环while循环循环中断嵌套循环 写在前面 操作系统&#xff1a;Windows10JDK版本&#xff…

1027. 方格取数

Powered by:NEFU AB-IN Link 文章目录 1027. 方格取数题意思路代码 1027. 方格取数 题意 某人从图中的左上角 A 出发&#xff0c;可以向下行走&#xff0c;也可以向右行走&#xff0c;直到到达右下角的 B 点。 在走过的路上&#xff0c;他可以取走方格中的数&#xff08;取…

ESP32-C3模组上跑通NVS(7)

接前一篇文章:ESP32-C3模组上跑通NVS(6) 上一回讲到乐鑫技术支持发来了操作自定义NVS分区的代码。本回就对于代码进行详细解析,并通过此过程看一下具体应如何进行正确的操作。下边就开始代码分析: 主函数 主函数即app_main()代码如下: void app_main(void) {esp_err_t…

FOC方案大合集!

获取链接&#xff01;&#xff01;&#xff01; 本次小编给大家带来了一份FOC的方案大合集。此套方案是基于峰岹科技FU68系列MCU的系列方案&#xff0c;包含常用的无感&#xff0c;有感无刷电机的应用&#xff0c;每份方案都包含了原理图&#xff0c;PCB&#xff0c;代码文件&…

【TOOL】ceres学习笔记(一) —— 教程练习

文章目录 一、Ceres Solver 介绍二、Ceres 使用基本步骤1. 构建最小二乘问题2. 求解最小二乘问题 三、使用案例1. Ceres Helloworld2. Powell’s Function3. Curve Fitting4. Robust Curve Fitting 一、Ceres Solver 介绍 Ceres-solver 是由Google开发的开源C库&#xff0c;用…

2024年P气瓶充装证模拟考试题库及P气瓶充装理论考试试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年P气瓶充装证模拟考试题库及P气瓶充装理论考试试题是由安全生产模拟考试一点通提供&#xff0c;P气瓶充装证模拟考试题库是根据P气瓶充装最新版教材&#xff0c;P气瓶充装大纲整理而成&#xff08;含2024年P气瓶…

[Open-source tool]Uptime-kuma的簡介和安裝於Ubuntu 22.04系統

[Uptime Kuma]How to Monitor Mqtt Broker and Send Status to Line Notify Uptime-kuma 是一個基於Node.js的開軟軟體&#xff0c;同時也是一套應用於網路監控的開源軟體&#xff0c;其利用瀏覽器呈現直觀的使用者介面&#xff0c;如圖一所示&#xff0c;其讓使用者可監控各種…

vue3父组件获取子组件的实例对象

一&#xff0c;ref 在父组件的模板里&#xff0c;对子组件的标签定义ref属性&#xff0c;并且设置属性值&#xff0c;在方法里获取ref()获取实例对象。 父组件&#xff1a; <template><div ><div>我是父组件</div><<SonCom ref"sonComRe…

Oracle中生僻汉字的解决办法

在Oracle数据库中处理生僻汉字时&#xff0c;主要面临的问题是某些字符集可能无法完全支持所有的汉字&#xff0c;特别是生僻字。以下是一些解决Oracle中生僻汉字问题的办法&#xff1a; 检查当前字符集&#xff1a; 使用SELECT USERENV(language) FROM dual;命令来查看当前数…