音视频技术开发周刊 | 305

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

d47b829cc8bba61ff63cf3574cd988d8.png

大神回归学界:何恺明宣布加入 MIT

「作为一位 FAIR 研究科学家,我将于 2024 年加入麻省理工学院(MIT)电气工程与计算机科学系 EECS 担任教职。」

AI 领域的著名学者,ResNet 发明人何恺明,最近在个人网站上宣布即将回归学界了。

3649493fe23d6cb142466814a175c3c7.png

Meta新开源模型AudioCraft炸场!文本自动生成音乐

8月3日,全球社交、科技巨头Meta(Facebook、Instagram等母公司)宣布开源文本生成音乐模型Audiocraft。据悉,Audiocraft是一个混合模型,由MusicGen、AudioGen和EnCodec组合而成。仅用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。

从「生成式AI」转化为「生产力」,亚马逊云科技划出重点

凭借过去数年的客户需求洞察和技术积累,亚马逊云科技将大量的 AI 能力集成到了简单易用的产品之中,希望以最简洁的方式将技术进步输送到各行各业。在这场技术盛会上,亚马逊云科技一口气推出了七项生成式 AI 新功能。

人类创造的数据太贵了!开发者悄悄使用AI合成数据训练模型

现在,开发者都在悄悄使用AI生成的数据来训练AI模型。原因就是——人类创造的数据,实在是太贵了!

在以往,大多数AI模型都是靠人类的数据训练的,但现在,越来越多的公司(包括OpenAI、微软,以及Cohere这样的初创公司)都开始使用这种AI生成的「合成数据」,或者在努力搞清如何使用AI生成的数据了。

报告:数见潮流,洞见未来——发现内容行业新机遇

中国内容应用生态覆盖用户规模稳步增长,结构性变化呈现视频形态规模与粘性双增长,深度信息内容消费增加,进而影响企业层面品牌认知与种草转化,同时,AIGC变革生产力,内容产业生态多元化入局+平台赋能纵深,内容资产成为企业核心资产之一,内容运营是必选项。

c388fc9f306e3a7d8d8b5b2935090910.png

如何设计一颗AI芯片?来自Meta的实践!

机器学习(ML)已经在在线活动中变得无处不在。近年来,这些模型的规模和复杂性大幅增长,这有助于提高预测的准确性和有效性。然而,与此同时,这种增长给用于大规模训练和推理这些模型的硬件平台带来了巨大挑战。总拥有成本(TCO)是在数据中心将模型投入生产的主要制约因素之一,而功率是这些平台TCO的重要组成部分。因此,单位TCO的性能(以及每瓦的性能)已成为针对机器学习的所有硬件平台的重要衡量标准。

三雄并立的MCU市场

微控制器(Microcontroller Unit,MCU)是一类集成了中央处理器、内存、输入输出接口和定时器等功能的微型计算机芯片。自20世纪70年代问世以来,MCU技术在各个领域取得了巨大成功,并在当今数字化时代发挥着至关重要的作用。惊人的是,一个小小的微控制器却占据着处理器市场的80%以上份额!随着世界各地的半导体企业都参与到MCU技术的研发和生产中,MCU市场呈现多元化、竞争激烈的格局。

6663fa29698034d2c15a2adfa0235b0c.jpeg

自动驾驶企业摆脱高精地图依赖的情况下,SLAM算法在行车过程中还有什么意义?

这篇文章由多个知乎高赞回答整理而成,希望对关注自动驾驶领域SLAM算法应用的读者有所帮助。

动态环境下竟然能在嵌入式系统上实现实时语义RGB-D SLAM?

大多数现有的视觉SLAM方法严重依赖于静态世界假设,在动态环境中很容易失效。本文提出了一个动态环境下的实时语义RGB-D SLAM系统,该系统能够检测已知和未知的运动物体。为了减少计算成本,其只对关键帧进行语义分割以去除已知的动态对象,并保持静态映射以实现稳健的摄像机跟踪。此外,文章还提出了一个有效的几何模块,通过将深度图像聚类到几个区域,并通过它们的重投影误差来识别动态区域,从而检测未知的运动物体。

动态视觉SLAM的亿点点思考

动态环境下的视觉SLAM一直都是研究的重点和难点,但最近动态SLAM的paper越来越少,感觉主要原因是动态SLAM的框架已经固化,很难做出大的创新。现有的模板基本就是使用目标检测或者语义分割网络剔除动态特征点,然后用几何一致性做进一步的验证。笔者最近也在思考突破口,所以打算深入分析一下目前的主流方案,希望能够寻找到灵感。

68eae9c41bff29a4600afe697966e867.png

F-LIC:基于FPGA的细粒度管道的学习型图像压缩

最近,学习图像压缩(LIC)在压缩比和重建图像质量方面都表现出了卓越的能力。通过采用变异自动编码器框架,LIC 可以超越最新传统编码标准 VVC 的内部预测。为了加快编码速度,大多数 LIC 框架都在 GPU 上使用浮点运算。然而,如果编码和解码在不同的平台上进行,浮点运算结果在不同硬件平台上的不匹配会导致解码错误。因此,非常需要采用定点运算的 LIC 。

这篇论文给出了 8 位定点量化 LIC 的 FPGA 设计。不同于现有的 FPGA 加速器,该文提出了一种细粒度流水线结构,以实现较高的 DSP 效率。此外,还开发了级联 DSP 和跳零解卷功能,以提高硬件性能。

CVPR 2023 | 屏幕图像超分中的B样条纹理系数估计

随着多媒体应用的快速发展,屏幕内容图像(SCI)已在人们日常生活中频繁出现。但是显示设备和SCI之间经常发生分辨率不匹配,并且,SCI有着边缘薄而锐利等特点,与自然图像很不同。然而,大多数超分辨率方法是应用于自然图像的。因此,本文提出了一种针对SCI的超分辨率方法。本文提出了利用INR连续表示SCI的B样条纹理系数估计器(BTC),从低分辨率(LR)图像中预测B样条曲线的系数、节点和膨胀参数。然后,将查询点的坐标投影到2维B样条表示的空间中,并将其馈送到MLP。利用B样条基函数的正约束和紧支撑性,在SCI的不连续处减少了下冲/过冲带来的失真。

378f2adf81e594c169d7b65b7af67298.jpeg

Zoom正式支持AV1了!

当地时间7月28日的Zoom更新,官方发布的Release notes中的增强功能部分显示,“为了提供更高质量的视频而不增加带宽使用量,Zoom正在推出一种新的视频编解码器给免费账户使用”。现在Windows,macOS,Linux,Android,iOS端的Zoom都已经支持AV1这个“下一代编码器”。

https://support.zoom.us/hc/en-us/articles/17763841523213-Release-notes-for-July-24-2023   

BILIVVC编码器首次亮相MSU国际视频编码器大赛并获得多项好成绩

BILIVVC在1fps和5fps档位的YUV-SSIM指标下均获得了第三名的成绩。BILIVVC编码器的性能在众多参赛编码器中名列前茅。

BILIVVC编码器在H266内核的基础上,实现了VVC标准支持的绝大多数编码工具,同时对这些编码工具进行了大量优化,相较于参考代码的实现方式而言,各个工具在BILIVVC上的性能表现更为高效。

基于AI和NPU的Codec变革——VPU与NPU的协同创新

在这个快速变化的数字媒体时代,Codec技术在视频和音频处理中扮演着至关重要的角色。AI的崛起为Codec带来了前所未有的机遇和挑战,同时VPU与NPU的发展与协同创新,使得Codec能够更好地适应复杂的场景和需求,并实现更高水平的图像和声音处理能力。

LiveVideoStackCon2022北京站邀请到了中心微电子多媒体技术总监的孔德辉老师,从多个角度探讨AI和NPU对Codec的影响,包括算法优化、性能提升、能效改进等方面。深入了解基于AI和NPU的Codec变革的关键因素和潜在机会,进一步推动数字媒体领域的创新和发展。

2173cf23c9a82e2561c6efccf7bd27cb.png

Streaming Media East 2023 | About VVC

VVC(Versatile Video Codec)是基于 HEVC 的混合视频编码,通过完善现有的技术和增加一系列在 HEVC 及过去的编解码器中所没有的工具,它的性能相较 HEVC 在主客观上分别提升了 30% 和 40+%。VVC 面向 8k、360°、HDR 等一系列场景,这也是它被命名为多功能视频编解码器的原因。

VVC在云端和浏览器播放中的应用

通用视频编码(VVC)是由ITU-T和ISO/IEC联合开发的最新国际视频编码标准。虽然VVC具备广泛的功能集,可应用于多种领域,但相较其前身高效视频编码(HEVC),VVC在保持相同主观视频质量的前提下,可显著降低约50%的比特率。标准化工作于2020年7月完成后,已开始许多活动,以便将VVC集成到实际应用中。

这篇论文展示了如何在流媒体应用中实现使用VVC的实际工作流程。我们展示了弗劳恩霍夫(Fraunhofer)VVenC VVC编码器如何被应用于Bitmovin的基于云的编码解决方案。同时详细介绍了VVC如何影响实际决策,如选择最佳比特率阶梯,以及与其他编码器相比的成本和性能对比。最后,演示了弗劳恩霍夫VVdeC解码器如何与WebAssembly结合,实现在浏览器中实时播放VVC视频的可能性。

https://dl.acm.org/doi/10.1145/3510450.3517305

cad60b85457d8d8a9e98934503e47f88.png

苹果空间音频新专利 | 为可穿戴设备用户提供空间音频导航系统

近日,美国专利商标局正式授予苹果一项与空间音频导航相关的专利,该专利将在未来的AirPods、智能眼镜和更轻量级的Vision Pro上使用。该系统通过双耳音频设备播放指向性音频,为用户提供导航提示,帮助他们找到穿过商场、其他场所或城市公园的路。该系统还可以为车辆驾驶员提供音频导航。

Interspeech2023 | 跨语言语音识别中基于联合语音表征学习的音素到词转码器

跨语言语音识别(Cross-lingual Speech Recognition)的目标是利用高资源语言的发音信息,应用于低资源语言,提升低资源语言语音识别性能。全球共有7000多种语言,其中大部分语言的标注数据严重不足。为了应对低资源语音识别的挑战,跨语言语音识别成为了一种有效的解决方案。新近研究表明,基于无监督预训练技术,通过在可用语言的标注和无标注数据上进行大规模训练,可以构建一个通用的语音表示模型,并通过微调将其迁移到目标低资源语言上,取得了显著的成果。

学术简讯 | CN-Celeb-AV: 多场景视听多模态数据集发布

近日,清华大学语音和语言技术团队联合北京邮电大学发布了中国明星多场景音视频多模态数据集 (CN-Celeb-AV),供音视频多模态身份识别 (AVPR) 等领域的研究者使用。本数据集包含来自1,136名中国明星,超过419,000个视频片段,涵盖11种不同的场景,并提供了完备模态和非完备模态两套标准评测集。

通话降噪算法在手机和IOT设备上的应用和挑战

随着电子产品的升级换代,用户对通话质量的要求也越来越高。通话降噪算法对通话质量起到了关键核心的作用。计算资源的提升使得深度学习模型在便携式的低功耗芯片上面跑起来了,器件成本降低让IoT设备开始使用骨导传感器,,那怎么样才能将深度学习和传统算法结合?怎么样充分利用好骨导传感器?怎么样将客观测试的结果转化为真实的用户体验?这也是新时期通话算法面临的新的挑战。LiveVideoStackCon 2022北京站邀请到了王林章老师,为我们分享通话降噪算法在手机和IOT设备上的应用和挑战。 

3fb3d19981d6fc704ed14b0f1ab58801.png

第15种XR视频模式—3.5D矩形视频模式

今年(2023年),随着Apple Vision Pro的发布,视频透视(VST)有了标杆性产品。根据VST本身的价值,我预测未来市场上将会新增3种融合现实视频模式。3.5D矩形视频模式,可透视3D全景视频模式,BR/MR虚实拼接模式模式。 

苹果Vision Pro中文开发教程汇总(第3期)

本文包含了探索空间计算的Quick Look 、将SwiftUI带到下一个维度、 适用于空间计算的Safari等7个视频教程。

微软AR/VR专利分享改进的显示基板和背板基板的Micro-LED显示器件

由于分辨率,尺寸,效率,以及耐烧屏方面的优势,Micro-LED正在成为AR/VR头显厂商关注的一个重要领域。实际上,微软同样有所关注,并已申请了名为“Micro-led display”的专利。

fae7ec0e822e6b1bb26113875665f35c.png

半导体工艺控制设备行业研究:国产化率不足5%,替代空间大

半导体工艺控制设备主要包括“面向晶圆制造的前道检测”和“面向先进封装的中道检测”。传统的集成电路工艺主要分为前道和后道,随着集成电路行业的不断发展进步,后道封装 技术向晶圆级封装发展,从而衍生出先进封装工艺。

815dc40afa4c34d9a8902917c8b4690e.png

OpenAI首席科学家最新访谈:对模型创业两点建议、安全与对齐、Transformer够好吗?

OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题:对深度学习的信仰、对AGI的畅想,Transformer够不够好,让人震惊的涌现能力,安全和对齐,以及对模型创业者的两点建议。

直播+X——直播行业新趋势

人类对感受与体验的不断追求,趋势音视频技术迅猛发展,音视频服务以前所未有之势被各行业强烈需要。如今,直播已然是一个所有人耳熟能详的名词,直播业务和生态,以及关键支撑技术,都在持续演进和迭代,生机勃勃。本次LiveVideoStackCon 2023上海站邀请到华为云陆振宇为大家分享如何在直播行业让“老树长新芽”。

对话云从姜迅:大模型不是企业、国与国之间的竞争,可能是人类命运共同体的钥匙

如今,人机协同操作系统的定位也一直延续到了大模型时代。姜迅表示,虽然公司内部没有明确的‘最高战略’的提法,但对这件事情的重视度已经非常高了,我们不用‘最’这个词,用优先级来说,它确实是一个非常高的优先级。

反观国内大模型的发展,大部分企业仍停留在追热点阶段,并没有实质性进展。那云从是否也在追热点?姜迅给出了否定的答案。他表示,我们还在研究我们的人机协同操作系统,在GPT技术之上,人机协同操作系统的智商会越来越高,它不仅会增加其上限,还能降低成本,这能在很大程度上让该系统更好地服务客户,竞争优势也会增加。

b476db6075643bc745a6223bbdd15181.png

LiveVideoStackCon 2023 深圳站 已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。

本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。

29c35f5d7e88296b05f8326f75df9eb9.png

f96f05e1c57347cf78a7a20524fc80b0.jpeg

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/27048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国联易安网页防篡改保护系统“渠道招募”启动啦!

作为业内专注于保密与非密领域的分级保护、等级保护、业务连续性安全和大数据安全的领军企业,国联易安网页防篡改保护系统基于“高效同步”、“安全传输”两项技术,具备了独特的“五重防护”新特性,支持网页的全自动发布、网页监控、报警和自…

P1993 小 K 的农场(差分约束)(内附封面)

小 K 的农场 题目描述 小 K 在 MC 里面建立很多很多的农场,总共 n n n 个,以至于他自己都忘记了每个农场中种植作物的具体数量了,他只记得一些含糊的信息(共 m m m 个),以下列三种形式描述:…

Win7之MS12-020死亡蓝屏

一,何为死亡蓝屏 1,简介 死亡蓝屏利用RDP协议,基于3389远程桌面端口对目标主机进行攻击,使目标机系统瘫痪导致蓝屏,严重影响着计算机的正常使用。 2,条件 1>目标操作系统未开启防火墙和杀毒软件等 2&g…

API接口用例生成器

一、前言 随着自动化测试技术的普及,已经有很多公司或项目,多多少少都会进行自动化测试。 目前本部门的自动化测试以接口自动化为主,接口用例采用 Excel 进行维护,按照既定的接口用例编写规则,对于功能测试人员来说只…

element表格+表单+表单验证结合运用

目录​​​​​​​ 一、结果展示 二、实现代码 一、结果展示 1、图片 2、描述 table中放form表单,放输入框或下拉框或多选框等; 点击添加按钮,首先验证表单,如果存在没填的就验证提醒,都填了就向下添加一行表单表…

GATK BaseRecalibratorSpark 过程中因Too many open files终止

Error: GATK BaseRecalibratorSpark 过程中因Too many open files终止 执行命令: nohup time ./gatk --java-options "-Xmx16G" BaseRecalibratorSpark -R ../../alignment/hg38/hg38.fa -I ../../alignment/bam/P368T.sorted.markdup.bam …

element vue2 动态添加 select+tree

难点在 1 添加一组一组的渲染 是往数组里push对象 循环的;但是要注意对象的结构! 因为这涉及到编辑完成后,表单提交时候的 校验! 是校验每一个select tree里边 是否勾选 2 是在后期做编辑回显的时候 保证后端返回的值 是渲染到 select中的tr…

matplotlib库的用法——各种图的绘制

matplotlib是一个流行的Python绘图库,用于创建各种静态、动态、交互式可视化。以下是一些基本的用法: 线图 plt.plot([1, 2, 3, 4]) plt.ylabel(Some Numbers) plt.show()散点图 x [1,2,3,4,5] y [2,3,4,5,6] plt.scatter(x, y) plt.show() 条形图 …

sklearn中使用决策树

1.示例 criterion可以是信息熵,entropy,可以是基尼系数gini # -*-coding:utf-8-*- from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split wineload_wine()# print ( wine.feature_…

【2.3】Java微服务:sentinel服务哨兵

✅作者简介:大家好,我是 Meteors., 向往着更加简洁高效的代码写法与编程方式,持续分享Java技术内容。 🍎个人主页:Meteors.的博客 💞当前专栏:Java微服务 ✨特色专栏: 知识分享 &…

css-3:什么是响应式设计?响应式的原理是什么?如何做?

1、响应式设计是什么? 响应式网站设计(Responsive WEB desgin)是一个网络页面设计布局,页面的设计与开发应当根据用户行为以及设备环境(系统平台、屏幕尺寸、屏幕定向等)进行相应的相应和调整。 描述响应式…

ensp与虚拟机搭建测试环境

1.虚拟机配置 ①首先确定VMnet8 IP地址,若要修改IP地址,保证在启动Ensp前操作 ②尽量保证NAT模式 2.ensp配置 (1)拓扑结构 (2)Cloud配置 ①首先点击 绑定信息 UDP → 增加 ②然后点击 绑定信息 VMware ... → 增加 ③最后在 端口映射设置上点击双向通…

Hive创建外部表详细步骤

① 在hive中执行HDFS命令:创建/data目录 hive命令终端输入: hive> dfs -mkdir -p /data; 或者在linux命令终端输入: hdfs dfs -mkdir -p /data; ② 在hive中执行HDFS命令:上传/emp.txt至HDFS的data目录下,并命名为…

jmeter工具测试和压测websocket协议【杭州多测师_王sir】

一、安装JDK配置好环境变量,安装好jmeter 二、下载WebSocketSampler发送请求用的,地址:https://bitbucket.org/pjtr/jmeter-websocket-samplers/downloads/?spma2c4g.11186623.2.15.363f211bH03KeI 下载解压后的jar包放到D:\JMeter\apache-j…

2.Flink应用

2.1 数据流 DataStream:DataStream是Flink数据流的核心抽象,其上定义了对数据流的一系列操作DataStreamSource:DataStreamSource 是 DataStream 的 起 点 , DataStreamSource 在StreamExecutionEnvironment 中 创 建 ,…

init_pg_dir 的大小及作用

init_pg_dir 的大小 vmlinux.lds.S 中 在vmlinux.lds.S 中,有 init_pg_dir .; . INIT_DIR_SIZE; init_pg_end .;/*include/asm/kernel-pgtable.h*/ #define EARLY_ENTRIES(vstart, vend, shift) \ ((((vend) - 1) >&g…

基于 CentOS 7 构建 LVS-DR 群集

文章目录 前言1、LVS集群2、DR模式的工作流程图 一、LVS DR模式的配置二、配置步骤总结 前言 什么是LVS集群?DR模式? 1、LVS集群 LVS采用的是合入内核模块,先把对于nginx来说要稳定很多,性能和稳定都在一定层度上占据优势&…

【ChatGPT 指令大全】怎么使用ChatGPT写履历和通过面试

目录 怎么使用ChatGPT写履历 寻求履历的反馈 为履历加上量化数据 把经历修精简 为不同公司客制化撰写履历 怎么使用ChatGPT通过面试 汇整面试题目 给予回馈 提供追问的问题 用 STAR 原则回答面试问题 感谢面试官的 email 总结 在职场竞争激烈的今天,写一…

linux网络编程--线程池UDP

目录 学习目标 1线程池 2.UDP通信 3本地socket通信 学习目标 了解线程池模型的设计思想能看懂线程池实现源码掌握tcp和udp的优缺点和使用场景说出udp服务器通信流程说出udp客户端通信流程独立实现udp服务器代码独立实现udp客户端代码熟练掌握本地套接字进行本地进程通信 1…

FreeRTOS源码分析-10 互斥信号量

目录 1 事件标志组概念及其应用 1.1 事件标志组定义 1.2 FreeRTOS事件标志组介绍 1.3 FreeRTOS事件标志组工作原理 2 事件标志组应用 2.1 功能需求 2.2 API 2.3 功能实现 3 事件标志组原理 3.1 事件标志组控制块 3.2 事件标志组获取标志位 3.3 等待事件标志触发 3.4…