音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

大神回归学界：何恺明宣布加入 MIT

「作为一位 FAIR 研究科学家，我将于 2024 年加入麻省理工学院（MIT）电气工程与计算机科学系 EECS 担任教职。」

AI 领域的著名学者，ResNet 发明人何恺明，最近在个人网站上宣布即将回归学界了。

Meta新开源模型AudioCraft炸场！文本自动生成音乐

8月3日，全球社交、科技巨头Meta（Facebook、Instagram等母公司）宣布开源文本生成音乐模型Audiocraft。据悉，Audiocraft是一个混合模型，由MusicGen、AudioGen和EnCodec组合而成。仅用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频，或更复杂的音乐，适用于游戏开发、社交、视频配音等业务场景。

从「生成式AI」转化为「生产力」，亚马逊云科技划出重点

凭借过去数年的客户需求洞察和技术积累，亚马逊云科技将大量的 AI 能力集成到了简单易用的产品之中，希望以最简洁的方式将技术进步输送到各行各业。在这场技术盛会上，亚马逊云科技一口气推出了七项生成式 AI 新功能。

人类创造的数据太贵了！开发者悄悄使用AI合成数据训练模型

现在，开发者都在悄悄使用AI生成的数据来训练AI模型。原因就是——人类创造的数据，实在是太贵了！

在以往，大多数AI模型都是靠人类的数据训练的，但现在，越来越多的公司（包括OpenAI、微软，以及Cohere这样的初创公司）都开始使用这种AI生成的「合成数据」，或者在努力搞清如何使用AI生成的数据了。

报告：数见潮流，洞见未来——发现内容行业新机遇

中国内容应用生态覆盖用户规模稳步增长，结构性变化呈现视频形态规模与粘性双增长，深度信息内容消费增加，进而影响企业层面品牌认知与种草转化，同时，AIGC变革生产力，内容产业生态多元化入局+平台赋能纵深，内容资产成为企业核心资产之一，内容运营是必选项。

如何设计一颗AI芯片？来自Meta的实践！

机器学习（ML）已经在在线活动中变得无处不在。近年来，这些模型的规模和复杂性大幅增长，这有助于提高预测的准确性和有效性。然而，与此同时，这种增长给用于大规模训练和推理这些模型的硬件平台带来了巨大挑战。总拥有成本（TCO）是在数据中心将模型投入生产的主要制约因素之一，而功率是这些平台TCO的重要组成部分。因此，单位TCO的性能（以及每瓦的性能）已成为针对机器学习的所有硬件平台的重要衡量标准。

三雄并立的MCU市场

微控制器（Microcontroller Unit，MCU）是一类集成了中央处理器、内存、输入输出接口和定时器等功能的微型计算机芯片。自20世纪70年代问世以来，MCU技术在各个领域取得了巨大成功，并在当今数字化时代发挥着至关重要的作用。惊人的是，一个小小的微控制器却占据着处理器市场的80%以上份额！随着世界各地的半导体企业都参与到MCU技术的研发和生产中，MCU市场呈现多元化、竞争激烈的格局。

自动驾驶企业摆脱高精地图依赖的情况下，SLAM算法在行车过程中还有什么意义？

这篇文章由多个知乎高赞回答整理而成，希望对关注自动驾驶领域SLAM算法应用的读者有所帮助。

动态环境下竟然能在嵌入式系统上实现实时语义RGB-D SLAM？

大多数现有的视觉SLAM方法严重依赖于静态世界假设，在动态环境中很容易失效。本文提出了一个动态环境下的实时语义RGB-D SLAM系统，该系统能够检测已知和未知的运动物体。为了减少计算成本，其只对关键帧进行语义分割以去除已知的动态对象，并保持静态映射以实现稳健的摄像机跟踪。此外，文章还提出了一个有效的几何模块，通过将深度图像聚类到几个区域，并通过它们的重投影误差来识别动态区域，从而检测未知的运动物体。

动态视觉SLAM的亿点点思考

动态环境下的视觉SLAM一直都是研究的重点和难点，但最近动态SLAM的paper越来越少，感觉主要原因是动态SLAM的框架已经固化，很难做出大的创新。现有的模板基本就是使用目标检测或者语义分割网络剔除动态特征点，然后用几何一致性做进一步的验证。笔者最近也在思考突破口，所以打算深入分析一下目前的主流方案，希望能够寻找到灵感。

F-LIC：基于FPGA的细粒度管道的学习型图像压缩

最近，学习图像压缩（LIC）在压缩比和重建图像质量方面都表现出了卓越的能力。通过采用变异自动编码器框架，LIC 可以超越最新传统编码标准 VVC 的内部预测。为了加快编码速度，大多数 LIC 框架都在 GPU 上使用浮点运算。然而，如果编码和解码在不同的平台上进行，浮点运算结果在不同硬件平台上的不匹配会导致解码错误。因此，非常需要采用定点运算的 LIC 。

这篇论文给出了 8 位定点量化 LIC 的 FPGA 设计。不同于现有的 FPGA 加速器，该文提出了一种细粒度流水线结构，以实现较高的 DSP 效率。此外，还开发了级联 DSP 和跳零解卷功能，以提高硬件性能。

CVPR 2023 | 屏幕图像超分中的B样条纹理系数估计

随着多媒体应用的快速发展，屏幕内容图像（SCI）已在人们日常生活中频繁出现。但是显示设备和SCI之间经常发生分辨率不匹配，并且，SCI有着边缘薄而锐利等特点，与自然图像很不同。然而，大多数超分辨率方法是应用于自然图像的。因此，本文提出了一种针对SCI的超分辨率方法。本文提出了利用INR连续表示SCI的B样条纹理系数估计器（BTC），从低分辨率（LR）图像中预测B样条曲线的系数、节点和膨胀参数。然后，将查询点的坐标投影到2维B样条表示的空间中，并将其馈送到MLP。利用B样条基函数的正约束和紧支撑性，在SCI的不连续处减少了下冲/过冲带来的失真。

Zoom正式支持AV1了！

当地时间7月28日的Zoom更新，官方发布的Release notes中的增强功能部分显示，“为了提供更高质量的视频而不增加带宽使用量，Zoom正在推出一种新的视频编解码器给免费账户使用”。现在Windows，macOS，Linux，Android，iOS端的Zoom都已经支持AV1这个“下一代编码器”。

https://support.zoom.us/hc/en-us/articles/17763841523213-Release-notes-for-July-24-2023

BILIVVC编码器首次亮相MSU国际视频编码器大赛并获得多项好成绩

BILIVVC在1fps和5fps档位的YUV-SSIM指标下均获得了第三名的成绩。BILIVVC编码器的性能在众多参赛编码器中名列前茅。

BILIVVC编码器在H266内核的基础上，实现了VVC标准支持的绝大多数编码工具，同时对这些编码工具进行了大量优化，相较于参考代码的实现方式而言，各个工具在BILIVVC上的性能表现更为高效。

基于AI和NPU的Codec变革——VPU与NPU的协同创新

在这个快速变化的数字媒体时代，Codec技术在视频和音频处理中扮演着至关重要的角色。AI的崛起为Codec带来了前所未有的机遇和挑战，同时VPU与NPU的发展与协同创新，使得Codec能够更好地适应复杂的场景和需求，并实现更高水平的图像和声音处理能力。

LiveVideoStackCon2022北京站邀请到了中心微电子多媒体技术总监的孔德辉老师，从多个角度探讨AI和NPU对Codec的影响，包括算法优化、性能提升、能效改进等方面。深入了解基于AI和NPU的Codec变革的关键因素和潜在机会，进一步推动数字媒体领域的创新和发展。

Streaming Media East 2023 | About VVC

VVC（Versatile Video Codec）是基于 HEVC 的混合视频编码，通过完善现有的技术和增加一系列在 HEVC 及过去的编解码器中所没有的工具，它的性能相较 HEVC 在主客观上分别提升了 30% 和 40+%。VVC 面向 8k、360°、HDR 等一系列场景，这也是它被命名为多功能视频编解码器的原因。

VVC在云端和浏览器播放中的应用

通用视频编码（VVC）是由ITU-T和ISO/IEC联合开发的最新国际视频编码标准。虽然VVC具备广泛的功能集，可应用于多种领域，但相较其前身高效视频编码（HEVC），VVC在保持相同主观视频质量的前提下，可显著降低约50%的比特率。标准化工作于2020年7月完成后，已开始许多活动，以便将VVC集成到实际应用中。

这篇论文展示了如何在流媒体应用中实现使用VVC的实际工作流程。我们展示了弗劳恩霍夫（Fraunhofer）VVenC VVC编码器如何被应用于Bitmovin的基于云的编码解决方案。同时详细介绍了VVC如何影响实际决策，如选择最佳比特率阶梯，以及与其他编码器相比的成本和性能对比。最后，演示了弗劳恩霍夫VVdeC解码器如何与WebAssembly结合，实现在浏览器中实时播放VVC视频的可能性。

https://dl.acm.org/doi/10.1145/3510450.3517305

苹果空间音频新专利 | 为可穿戴设备用户提供空间音频导航系统

近日，美国专利商标局正式授予苹果一项与空间音频导航相关的专利，该专利将在未来的AirPods、智能眼镜和更轻量级的Vision Pro上使用。该系统通过双耳音频设备播放指向性音频，为用户提供导航提示，帮助他们找到穿过商场、其他场所或城市公园的路。该系统还可以为车辆驾驶员提供音频导航。

Interspeech2023 | 跨语言语音识别中基于联合语音表征学习的音素到词转码器

跨语言语音识别（Cross-lingual Speech Recognition）的目标是利用高资源语言的发音信息，应用于低资源语言，提升低资源语言语音识别性能。全球共有7000多种语言，其中大部分语言的标注数据严重不足。为了应对低资源语音识别的挑战，跨语言语音识别成为了一种有效的解决方案。新近研究表明，基于无监督预训练技术，通过在可用语言的标注和无标注数据上进行大规模训练，可以构建一个通用的语音表示模型，并通过微调将其迁移到目标低资源语言上，取得了显著的成果。

学术简讯 | CN-Celeb-AV: 多场景视听多模态数据集发布

近日，清华大学语音和语言技术团队联合北京邮电大学发布了中国明星多场景音视频多模态数据集 (CN-Celeb-AV)，供音视频多模态身份识别 (AVPR) 等领域的研究者使用。本数据集包含来自1,136名中国明星，超过419,000个视频片段，涵盖11种不同的场景，并提供了完备模态和非完备模态两套标准评测集。

通话降噪算法在手机和IOT设备上的应用和挑战

随着电子产品的升级换代，用户对通话质量的要求也越来越高。通话降噪算法对通话质量起到了关键核心的作用。计算资源的提升使得深度学习模型在便携式的低功耗芯片上面跑起来了，器件成本降低让IoT设备开始使用骨导传感器，，那怎么样才能将深度学习和传统算法结合？怎么样充分利用好骨导传感器？怎么样将客观测试的结果转化为真实的用户体验？这也是新时期通话算法面临的新的挑战。LiveVideoStackCon 2022北京站邀请到了王林章老师，为我们分享通话降噪算法在手机和IOT设备上的应用和挑战。

第15种XR视频模式—3.5D矩形视频模式

今年(2023年)，随着Apple Vision Pro的发布，视频透视(VST)有了标杆性产品。根据VST本身的价值，我预测未来市场上将会新增3种融合现实视频模式。3.5D矩形视频模式，可透视3D全景视频模式，BR/MR虚实拼接模式模式。

苹果Vision Pro中文开发教程汇总（第3期）

本文包含了探索空间计算的Quick Look 、将SwiftUI带到下一个维度、适用于空间计算的Safari等7个视频教程。

微软AR/VR专利分享改进的显示基板和背板基板的Micro-LED显示器件

由于分辨率，尺寸，效率，以及耐烧屏方面的优势，Micro-LED正在成为AR/VR头显厂商关注的一个重要领域。实际上，微软同样有所关注，并已申请了名为“Micro-led display”的专利。

半导体工艺控制设备行业研究：国产化率不足5％，替代空间大

半导体工艺控制设备主要包括“面向晶圆制造的前道检测”和“面向先进封装的中道检测”。传统的集成电路工艺主要分为前道和后道，随着集成电路行业的不断发展进步，后道封装技术向晶圆级封装发展，从而衍生出先进封装工艺。

OpenAI首席科学家最新访谈：对模型创业两点建议、安全与对齐、Transformer够好吗？

OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题：对深度学习的信仰、对AGI的畅想，Transformer够不够好，让人震惊的涌现能力，安全和对齐，以及对模型创业者的两点建议。

直播+X——直播行业新趋势

人类对感受与体验的不断追求，趋势音视频技术迅猛发展，音视频服务以前所未有之势被各行业强烈需要。如今，直播已然是一个所有人耳熟能详的名词，直播业务和生态，以及关键支撑技术，都在持续演进和迭代，生机勃勃。本次LiveVideoStackCon 2023上海站邀请到华为云陆振宇为大家分享如何在直播行业让“老树长新芽”。

对话云从姜迅：大模型不是企业、国与国之间的竞争，可能是人类命运共同体的钥匙

如今，人机协同操作系统的定位也一直延续到了大模型时代。姜迅表示，虽然公司内部没有明确的‘最高战略’的提法，但对这件事情的重视度已经非常高了，我们不用‘最’这个词，用优先级来说，它确实是一个非常高的优先级。

反观国内大模型的发展，大部分企业仍停留在追热点阶段，并没有实质性进展。那云从是否也在追热点？姜迅给出了否定的答案。他表示，我们还在研究我们的人机协同操作系统，在GPT技术之上，人机协同操作系统的智商会越来越高，它不仅会增加其上限，还能降低成本，这能在很大程度上让该系统更好地服务客户，竞争优势也会增加。

LiveVideoStackCon 2023 深圳站已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展，多媒体生态正在向精致优化发展，更注重细节、成本，内卷和出海成为压力输出口。一方面，在现有市场及业务竞争仍旧相当激烈的环境下，企业开始更多关注于如何降低成本、追求更高的利润，以及面向用户提供更优质的服务与体验；另一方面，对于不断涌现的更多新的技术、场景，逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。

本次深圳站，我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂，与你共同分享他们的专业见解。