音视频技术开发周刊 | 316

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

9abc6b7d6017e667863c9ba7d8d00964.png

日程揭晓!速览深圳站大会专题议程详解

LiveVideoStackCon 2023 音视频技术大会深圳站,保持着往届强大的讲师阵容以及高水准的演讲质量。两天的参会时间,您可以快速了解音视频大咖前瞻的思想、把握音视频技术发展的最新动向、深入学习技术内容和工程化方面的一手实践。现在,深圳站大会日程正式揭晓,一起来看看您所关注的演讲都出现在哪些时段吧!

●时间:2023年11月24日-25日
●地点:深圳圣淘沙酒店(翡翠店)
●咨询:13520771810(微信同号)了解详情。
●官方链接:https://sz2023.livevideostack.com/topics

e93181b9a2d83367c4d136c53dec9cc9.jpeg

LiveVideoStack多媒体技术调研定量收集倒计时两

在过去两个月中,我们致力于收集和分析定量数据与定性数据,以深入了解音视频行业的最新动态和反馈。通过音视频技术人员的支持,得以在音视频市场中捕获独特且具有深度的洞察。
扫描下方图片二维码,参与其中,抽奖深圳大会门票!期待与您共同探索和创造音视频行业的更多可能性!

3a2c2e6f5df6e5f33c325aadf72de46e.png

5deb5c793f5fac899b0ea73b6aecc1f3.png

PyTorch大更新,编译代码速度暴增35倍!视觉模型一键部署,头显Quest 3可用

最近,在Pytorch发布会上,发布移动端Pytorch解决方案ExecuTorch,实现在移动端设备上大范围地部署AI工具,并推出最新版本Pytorch2.1,推理速度大幅提升。

AI Agent,启动!复旦NLP团队发86页长文综述,智能体社会近在眼前

近日,一篇探讨基于LLM的Agent综述论文在X上火了!仔细一看,论文署名中甚至一度还有米哈游。

自动驾驶数据不用愁!港中文等发布MagicDrive:日夜、雨晴、多视角全覆盖,人、物位置随意变更

MagicDrive可以细粒度生成高保真、多相机街景,可以随意变换天气、光照条件以及人物位置,海量自动驾驶数据触手可及!

麦肯锡发布生成式AI报告,预测2030可达人类水平

麦肯锡AI报告发布,生成式AI进步飞快,经济效益巨大,未来不可小觑。

56361d706a8d38234fdb528860e44cd3.png

碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星

AI智能体热度,只增不减。发布仅2周,微软、PSU和华盛顿大学等团队开发的智能体AutoGen瞬间登顶GitHub热榜,狂揽10k星。

打造ChatGPT平替,成本暴降95%!OpenAI硬核更新下月发布,视觉API要来

为了吸引更多开发者,OpenAI正在计划一波重大更新,并且让构建ChatGPT应用的成本降低多达20倍!

超低训练成本文生图模型PixArt来了,效果媲美MJ,只需SD 10%训练时间

当前,最先进的文本到图像(T2I)模型需要大量的训练成本(例如,数百万个 GPU 小时),这严重阻碍了 AIGC 社区的基础创新,同时增加了二氧化碳排放。

d048ae140624c94350e2c8148f10ada1.png

CMU等发布最简单的行走机器人:具有一个驱动器和两个刚体的双足机器人

卡内基和伊利诺伊大学香槟分校联合发布最简单的行走机器人:具有一个驱动器和两个刚体的双足机器人。

TRO 2023|iSimLoc:利用虚拟图像对未看到的环境进行视觉全局定位

相机由于体积小、重量轻、功耗低且成本低,是无人机超视距操作的一种有吸引力的设备。但是,目前最先进的视觉定位算法在匹配视觉数据方面存在困难,尤其是在照明或视角产生显著变化时。本文提出了iSimLoc,这是一种基于学习的全局重定位方法,对外观和视角的变化具有鲁棒性。iSimLoc的场景识别网络学习到的特征可以用来匹配查询图像和不同视觉风格域和视角的参考图像。此外,我们的分层全局重定位模块以粗细粒度的方式进行搜索,使iSimLoc可以进行快速精确的姿态估计。

ICRA 2023| 基于点平面图的高效视觉惯性导航

在许多应用中,如微型飞行器物流、增强现实等,相对于全局先验地图进行准确、实时的全局位姿估计是必不可少的。假设一个纯稀疏的三维点地图可以提供环境的无结构表示,那么生成一个点-平面先验地图可以进一步建模环境拓扑结构,并为准确定位提供全局约束。

1bf4df74355b833a25de9b5109641c78.png

挣钱越来越难后,游戏引擎厂商们选择加入虚拟世界

在游戏开发者们铺天盖地的声讨中,Unity首席执行官John Riccitiello选择退场。

雷鸟X2抢先解读:一款前沿技术密集集成的真AR眼镜

雷鸟创新将于深圳举办其首场新品发布会,届时将公布高端AR眼镜产品雷鸟X2。基于目前已知信息,雷鸟X2是一款性能怪兽级眼镜产品:双目全彩Micro-LED、高通XR2芯片、1600万摄像头等,而这一系列模组将集成在一个小型的眼镜形态中。

Meta Quest 3现已发售!解锁高保真级别的输入、交互和动作捕捉功能

Meta Quest 3已于2023年10月10日正式发布,在Meta Connect 2023大会上,Meta宣布了一系列Presence Platform功能的升级,这些功能将支持Meta下一代头显的输入、交互和动作捕捉。以上功能的升级将影响高保真级别的上半身跟踪,带来更自然、反应更灵敏的交互(如微手势),以及逼真的腿部动作等。

06266c475658a20c555d9d2213fd23a2.png

浅析中国半导体产业的挑战与出路

近几年,半导体领域的“你追我赶”已成为世界强国博弈的主战场。近期华为发布的Mate60 Pro搭载的国产麒麟芯片9000s,实现了较高程度的自主可控和国产化,权威媒体认为是美国对华为4年技术封锁后的重大突破,也代表着中国距离欧美芯片最先进技术仅剩5年左右的差距。

ASML是绝对的霸主,纳米压印的影响近乎零

近来,因为佳能发布了号称可以生产2nm的新一代纳米压印光刻机,引起了大家对其与ASML竞争的广泛讨论。

CXL开启高性能计算的新纪元

随着科学研究和工业生产对数据处理能力的需求不断攀升,高性能计算(HPC)已成为推动这些领域进步的重要力量。在这样的背景下,计算机技术尤其是互连技术的进步显得尤为关键。Compute Express Link(CXL)作为新一代的高速互连技术,因其在带宽、延迟和扩展性方面的优势,正展现出在HPC领域的广泛应用潜力,有可能彻底改变数据中心和加速器之间的通信方式,从而推动HPC领域的革命性进步。

b5d640c392f5a80a5c911b5db22f1288.png

端到端语音识别中的建模单元

端到端语音识别中不同的建模单元有着不同的应用场景,本文对中英文常用的一些建模方式以及如何生成对应的标签进行总结,希望对大家有所帮助。

开源上新|FunASR英文离线文件转写软件包发布

FunASR是由阿里巴巴智能计算研究院语音实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署。

人工智能工具利用心音检测瓣膜性心脏病

当医生通过听诊器倾听患者心脏时,他们会听到心脏瓣膜在打开和关闭时发出的独特扑通声,以此来检测瓣膜泄漏、卡住或滑出位置时发出的细微杂音。

初创公司使用AI技术 演员可以使用本人的声音生成指定语音

近日,一名配音演员Ciccy Jones创办了AI初创公司Morpheme,旨在利用 AI“重塑”从动画片到游戏的配音、拟音方式。

25a8d1fee2b594e0d1d9ae258442920b.png

打造沉浸式专业音视频体验

我们的生活被专业的音视频设备所包围。从零售广告中的数字标牌,到现场活动中的麦克风和大屏幕显示;从体育赛事的现场直播到行业的实时监控....。需要在不牺牲视频质量、延迟或控制的情况下进行成本效益设计。AMD 平台可快速适应新兴音视频技术的要求,可通过 AV-over-IP 的方式,采用无损压缩或者深压缩方式进行高质量音视频传输,并在成本优化的器件中集成支持最新 AI/ML 技术的多媒体流水线。

从零开始的stable diffusion

stable diffusion真的是横空出世,开启了AIGC的元年。不知你是否有和我一样的困惑,这AI工具好像并不是那么听话?

基于多模态的视频高能点提取技术

当用户在浏览B站时,首页所呈现的视频内容以卡片形式依序展示,这些视频卡片的封面大多数是与视频相关的静态图像。在制作视频时,up 主通常会选取视频中的某一帧并加上较为醒目的文案来制作封面;而电影和记录片则倾向于选择具有代表性的精彩帧画面作为封面展示。这种策略通过简洁、直观的封面设计,让用户在页面浏览的时候能迅速捕捉到视频的主题。

5732e99def558ac835513afaaa440200.png

“好的编解码IP一定是不断打磨出来的”—— 对话北格逻辑研发总监周毅华

在音视频编解码领域,以H.264/H.265为代表的深压缩编解码算法一直占据着行业的主流。随着视频编解码的需求增多,浅压缩算法逐渐得到了重视。JPEG 2000曾获认为是未来取代JPEG的下一代图像压缩标准相较于主流的潜压缩JPEG来说,JPEG 2000压缩比更高,体积更小,并能同时支持有损/无损两种压缩方式。

亮风台唐荣兴:从业二十年,通讯、协作的“变”与“不变”

从03年左右开发PocketPC上软件电话SIPPhone算起,到现在AR眼镜上的AR协作软件,刚好二十年。

“完美的汽车音频体验就像坐在小型音乐厅”——对话赛因芯微CEO吴健

上次,我们聊到了专业音视频领域Pro AV的发展,而作为音视频的半壁江山,“听”的力量绝不对不容小觑,好的音频体验可以让听者更有“沉浸感”,实现身临其境的效果。本次,我们对话了专注于音频领域的赛因铸声场,创始人吴健从1999年开始从事音乐技术工作,2000年为中国摇滚音乐家崔健设计了现场录音系统,完成话筒信号分裂机和放大器的研发,崔健使用至今。如今,他们将关注放在汽车座舱声学的处理,希望能够创造完美的声学体验。以下,是LiveVideoStack与赛因芯微的对话,希望对你有所帮助。

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/118185.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【解锁未来】探索Web3的无限可能性-01

文章目录 前言什么是Web3? 前言 还记得你第一次听说比特币吗?也许那只是一个关于新技术将改变一切的微弱嗡嗡声。也许你会有一种 "FOMO "的感觉,因为那些早早入场的人突然积累了一大笔财富–尽管你并不清楚这些 "钱 "可…

flutter开发的一个小小小问题,内网依赖下不来

问题 由于众所周知的原因,flutter编译时,经常出现Could not get resource https://storage.googleapis.com/download.flutter.io…的问题,如下: * What went wrong: Could not determine the dependencies of task :app:lintVit…

ip报头和ip报文切片组装问题

在tcp层将数据打包封装向下传递后,网络层将其整个看为一个数据,然后对其数据加网络报头操作,在网络层最具有代表的协议就是ip协议。在这里我们探究ipv4的报头。 ip报头 4位版本:指定ip的版本号,对于ipv4来说就是4。 …

asp.net文档管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net文档管理系统是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为vs2010,数据库为sqlserver2008,使用c#语言开发 asp.net文档管理系统 二、功能介绍 (1…

C++ list 的使用

目录 1. 构造函数 1.1 list () 1.2 list (size_t n, const T& val T()) 1.3 list (InputIterator first, InputIterator last) 2. bool empty() const 3. size_type size() const 4. T& front() 4. T& back() 5. void push_front (const T& val) 6.…

FL Studio 21 for Mac中文破解版百度网盘免费下载安装激活

FL Studio 21 for Mac中文破解版是Mac系统中的一款水果音乐编辑软件,提供多种插件,包括采样器、合成器和效果器,可编辑不同风格的音乐作品,Pattern/Song双模式,可兼容第三方插件和音效包,为您的创意插上翅膀…

java _JDBC 开发

目录 一.封装JDBCUtiles 二.事务 三.批处理 四.数据库连接池 C3P0 Druidf(德鲁伊)阿里 五.Apache-DBUtiles 六.Apache-DBUtils 七.DAO 和增删改查 通用方法 - BasicDao 一.封装JDBCUtiles 说明:在jdbc操作中,获取连接和释放资源&#…

设计模式:代理模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)

上一篇《组合模式》 下一篇《命令模式》 简介: 代理模式,它是一种结构型设计模式,它通过引入一个代理对象来控制对原始对象的访问。代理模式的主要目的是在保持原始对象…

《动手学深度学习 Pytorch版》 10.4 Bahdanau注意力

10.4.1 模型 Bahdanau 等人提出了一个没有严格单向对齐限制的可微注意力模型。在预测词元时,如果不是所有输入词元都相关,模型将仅对齐(或参与)输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现…

【Elasticsearch】es脚本编程使用详解

目录 一、es脚本语言介绍 1.1 什么是es脚本 1.2 es脚本支持的语言 1.3 es脚本语言特点 1.4 es脚本使用场景 二、环境准备 2.1 docker搭建es过程 2.1.1 拉取es镜像 2.1.2 启动容器 2.1.3 配置es参数 2.1.4 重启es容器并访问 2.2 docker搭建kibana过程 2.2.1 拉取ki…

LSKA(大可分离核注意力):重新思考CNN大核注意力设计

文章目录 摘要1、简介2、相关工作3、方法4、实验5、消融研究6、与最先进方法的比较7、ViTs和CNNs的鲁棒性评估基准比较8、结论 摘要 https://arxiv.org/pdf/2309.01439.pdf 大型可分离核注意力(LSKA)模块的视觉注意力网络(VAN)已…

Linux CentOS 8(firewalld的配置与管理)

Linux CentOS 8(firewalld的配置与管理) 目录 一、firewalld 简介二、firewalld 工作概念1、预定义区域(管理员可以自定义修改)2、预定义服务 三、firewalld 配置方法1、通过firewall-cmd配置2、通过firewall图形界面配置 四、配置…

利用Jpom在线构建Spring Boot项目

1 简介 前面介绍了运用Jpom构建部署Vue项目,最近研究了怎么部署Spring Boot项目,至此,一套简单的前后端项目就搞定了。 2 基本步骤 因为就是一个简单的自研测试项目,所以构建没有使用docker容器,直接用java -jar命令…

Java程序设计进阶

Java异常处理机制 异常 异常的最高父类是 Throwable,在 java.lang 包下。 Throwable 类的方法主要有: 方法说明public String getMessage()返回对象的错误信息public void printStackTrace()输出对象的跟踪信息到标准错误输出流public void printSta…

【项目设计】网络对战五子棋(下)

我不再装模作样地拥有很多朋友,而是回到了孤单之中,以真正的我开始了独自的生活。有时我也会因为寂寞而难以忍受空虚的折磨,但我宁愿以这样的方式来维护自己的自尊,也不愿以耻辱为代价去换取那种表面的朋友。 文章目录 一、项目设…

Postman笔记

文章目录 1.安装2.简介和使用流程3 postman使用3.1 测试集与HTTP请求发送HTTP请求和分析响应数据 3.2 发送HTTP请求和分析响应数据3.3 Postman中请求体提交方式3.4 Postman使用之接口测试3.5 使用Postman新建一个mock服务3.6 请求数据的参数化3.7 断言与脚本导出 1.安装 官网地…

DP读书:《openEuler操作系统》(五)进程与线程

进程与线程 进程的概念程序:从源码到执行1. 编译阶段:2. 加载阶段:3. 执行阶段: 程序的并发执行与进程抽象 进程的描述进程控制块1. 描述信息2. 控制信息3. CPU上下文4. 资源管理信息 进程状态1.就绪状态2.运行状态3.阻塞状态4.终止状态 进程的控制进程控制源语1.创…

CrossOver23.6软件激活码怎么获取 CrossOver软件2023怎么激活

CrossOver一款类虚拟机,它的主要功能是在mac系统中安装windows应用程序。其工作原理是将exe格式的windows应用程序安装包安装至CrossOver容器中,并将运行该exe文件所需的配置文件下载至容器中,便能在mac正常运行windows应用程序了。下面就让我…

如何构建一个外卖微信小程序

随着外卖行业的不断发展,越来越多的商家开始关注外卖微信小程序的开发。微信小程序具有使用方便、快速上线、用户覆盖广等优势,成为了商家们的首选。 那么,如何快速开发一个外卖微信小程序呢?下面就让我们来看看吧! 首…

【C++入门:C++世界的奇幻之旅】

1. 什么是C 2. C发展史 3. C的重要性 4. C关键字 5. 命名空间 6. C输入&输出 7. 缺省参数 8. 函数重载 9. 引用 10. 内联函数 11. auto关键字(C11) 12. 基于范围的for循环(C11) 13. 指针空值---nullptr(C11)05. 1. 什么是C C语言是结构化和模块化的语言&…