音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

更强的Llama 2开源，可直接商用：一夜之间，大模型格局变了

Meta 终于发布了大家期待已久的免费可商用版本 Llama 2。

6000份问卷透露出AI时代的职业焦虑与机遇｜附报告下载

AI大模型的发展日新月异，从ChatGPT到 GPT4，再到越来越多的行业模型，曾经我们认为离我们还很遥远的人工智能技术，似乎已经到达了一个临界点，出现了技术“涌现”和能力“跃迁”。在美国模拟律师考试中的得分中，GPT-4能够排进前 10% 左右，相比之下，GPT-3.5 的得分只能排在倒数 10% 左右。很多人已经开始越来越担心自己未来的职业会被取代，产生了多种维度的职业焦虑。

商家们的第一次AI上新背后：阿里妈妈万相实验室重磅来袭

阿里妈妈万相实验室，为商家上新带来的0成本适配模特、0成本创造场景、30秒批量创造高规格商品图的AI上新能力。目前，安踏、particle fever（粒子狂热）、欧舒丹、VERMO、恣无ZIWU等大小商家均已体验，正引领全行业商家迈入AI上新时代。

IGBT产业公司汇总及知识学习

IGBT，绝缘栅双极型晶体管，是由（BJT）双极型三极管和绝缘栅型场效应管（MOS）组成的复合全控型电压驱动式功率半导体器件, 兼有（MOSFET）金氧半场效晶体管的高输入阻抗和电力晶体管（GTR）的低导通压降两方面的优点。

实现超快可编程的二维原子晶体同质结 | 进展

二维原子晶体具有带隙可调控、高迁移率、低介电常数和新奇的自旋、能谷等特性，利用二维原子晶体的这些优异特性，可研制面向下一代的信息功能器件，从而构建集成电路。p-n结作为现代电子学和光电子学中最基本的单元器件，如何构筑二维原子晶体p-n结对于未来发展基于二维晶体的电子器件具有重要研究意义。

芯片散热挑战，刻不容缓！

半导体消耗的功率会产生热量，必须将热量从设备中排出，但如何有效地做到这一点是一个日益严峻的挑战。

热量是半导体的废物。当功率在设备和电线上耗散时就会产生这种现象。设备切换时会消耗电力，这意味着它取决于活动，并且不完美的设备和电线不断地浪费电力。设计很少是完美的，一些热量来自于执行不需要的功能的活动。但在某些时候，设计团队必须弄清楚如何消除热量，因为如果不这样做，产品的使用寿命将非常短。

采访克里斯·米勒|芯片之战：世界上最关键技术的争夺

半导体产业的控制斗争是当今世界最重要的经济故事之一。中国能否从美国及其民主盟友手中夺取对半导体的主导地位，就像它在许多其他高科技产业中所做的那样，将在很大程度上决定本世纪的军事平衡。而了解这场史诗般斗争的基本情况，最好的书籍莫过于塔夫茨大学历史学家克里斯·米勒撰写的《芯片之战：世界上最关键技术的争夺》。

在采访中，米勒回答了一系列广泛的问题，涉及出口管制、中国的努力、芯片法案、美国对半导体工人的需求、日本振兴本国芯片产业的尝试等等。

https://www.noahpinion.blog/p/interview-chris-miller-historian

CVPR 2023 | 南洋理工、商汤提出E3DGE：2D图片秒出3D形象

在CVPR 2023上，南洋理工大学-商汤科技联合实验室S-Lab的研究者提出的基于Encoder的快速3D GAN Inversion方法，针对现有3D GAN inversion方法无法兼顾重建速度、重建质量和编辑质量的问题，提出一种自监督3D GAN inversion训练框架。同时，通过构建全局-局部的多尺度结构以及2D-3D混合对齐模型实现了高保真、可编辑的3D重建。该方法适配包括StyleSDF、EG3D等SoTA 3D GAN模型，并在多个基准测试中取得了优异成绩。

SLAM中基于滤波的方法的问题及如何调参?

这篇文章由知乎优秀问答整理而成，题主在实践slam后端滤波相关的内容时，在看论文和跑实验的过程中发现了诸如“论文公式和实际代码实现不一样”等几个令他困惑的问题。文章汇总了该问题下的若干优秀回答，希望对读者有所启发。

ICASSP 2023 | 用于学习图像压缩的多级空间上下文模型

最先进的学习图像压缩方法以空间上下文模型为特色，与超先验方法相比，在率失真方面取得了巨大的改进。然而，自回归上下文模型需要串行解码，限制了运行性能。Checkerboard 上下文模型允许并行解码，但代价是降低 RD 性能。本文提出了一系列多级空间上下文模型，可以实现快速解码和更好的 RD 性能。

UniColor：使用 Transformer 进行多模态上色的统一框架

这篇文章提出了一种多模态统一的上色框架，支持笔画、范例和文本提示输入，同时还支持局部编辑。通过将三种不同形式的提示输入转化为提示点的方式进行统一，上色网络包括Chroma-VQGAN 和 Hybrid-Transformer两部分，其中Chroma-VQGAN用于特征提取和重建，通过将灰度通道和颜色通道分开处理的方式保留更多灰度细节，Hybrid-Transformer则专注于上色。最后文章设计了一个应用界面，展示了该统一框架在实际使用中的有效性。

DCVC-DC | 多种上下文的神经视频压缩

视频编解码器的原理是，对于当前要编码的信号，编解码器会从之前重构的信号中找到相关的上下文(例如，各种预测作为上下文)，以减少时空冗余。相关上下文越多，比特率节省就越高。但对于大多数神经视频编解码器（NVC），上下文提取和利用的方式仍然有限。

这篇论文则在时间和空间维度上增加上下文多样性以进一步提高 NVC。时间维度上，本文指导模型跨帧学习分层质量模式，进一步利用视频中的长距离时间相关性，并有效缓解大多数 NVC 中存在的质量退化问题。

patchVVC：用于流式体积视频的实时压缩框架

现如今，体积视频已成为一种吸引人的多媒体应用，为用户提供高度沉浸式的观看体验。然而，流式传输体积视频对带宽要求极高。因此，有效地压缩其基础点云帧对于部署体积视频至关重要。现有的压缩技术要么基于3D，要么基于2D，但它们在实际部署中仍存在缺陷。基于2D的方法在压缩视频时效果较好但速度较慢，而基于3D的方法速度较快但压缩比较低。在本文中，我们提出了patchVVC，这是一个基于3D的压缩框架，它既具有高压缩比又实现了实时解码速度。更重要的是，patchVVC是基于点云补丁设计的，使其适用于视场自适应流媒体系统，进一步降低了带宽需求。评估结果显示，在视场自适应流媒体场景中，patchVVC实现了与代表性基于2D的方案V-PCC相当的实时解码速度和可比较的压缩比。

https://dl.acm.org/doi/10.1145/3587819.3590983

研究人员将声音精确分解为三个基本组成部分

这种来自听觉感知的洞察力与模糊逻辑相结合：在任何时刻，声音的一部分可以属于三种正弦、瞬态或噪声中的任何一类，而不仅仅是其中之一。为了完美的重建，Fierro优化了声音的分解方式。

研究人员开发音频插件VIRTUOSO通过耳机体验身临其境的3D音频

经过五年多的前沿研究项目，音响工程师现在可以通过耳机体验真正身临其境的3D音频，而无需使用扬声器。

由哈德斯菲尔德大学（University of Huddersfield）的Hyunkook Lee博士领导的应用心理声学实验室（Applied Psychoacoustics Lab，APL）开发了一种名为VIRTUOSO的沉浸式音频插件。

ICASSP 2023说话人识别方向论文合集

ICASSP (International Conference on Acoustics, Speech and Signal Processing) 即国际声学、语音与信号处理会议，是IEEE主办的全世界最大、最全面的信号处理及其应用方面的顶级会议，在国际上享有盛誉并具有广泛的学术影响力。

今年入选 ICASSP 2023 的论文中，说话人识别（声纹识别）方向约有64篇，初步划分为Speaker Verification（31篇）、Speaker Recognition（9篇）、Speaker Diarization（17篇）、Anti-Spoofing（4篇）、others（3篇）五种类型。

B站虚拟人与动作捕捉技术

随着虚拟主播在B站等平台的火爆，越来越多的用户和主播对虚拟直播产生了浓厚的兴趣。3D写实风格的虚拟人不仅视觉效果出众，还能提供沉浸式的直播体验，为用户带来全新的观看感受。如抖音推出的3D超写实虚拟主播令颜欢，出道一周粉丝就突破了60万，全网视频播放量破亿，直播间更是突破了百万人次的场观水平。3D写实风格的虚拟人有望成为未来虚拟直播领域的市场趋势。

VisionPro 眼动追踪精度推算讨论

这篇文章讨论了VisionPro眼动追踪精度测算问题，然后讨论对比肉眼直接观看的差别，以及行业内其他公司的眼动追踪数据对比。

MicroOLED For AR/VR 洞察报告

该报告基于警长产业链调研输出，内容包括：AR/VR的核心需求及核心技术、AR/VR屏幕分类、特点及发展趋势、AR/VR with MicroOLED 历史、AR/VR with MicroOLED 产品预测、全球MicroOLED销售额预测、全球MicroOLED产业链全景图、MicroOLED核心供应链、苹果眼镜MicroOLED供应链、Rokid眼镜MicroOLED供应链等。

福布斯刊文评苹果眼镜：上市即售罄

无论你本能地喜欢还是厌恶它，它都为品牌体验、交互和品牌内容消费创造了新的可能性。因此，各行业具有前瞻性思维的品牌都应该予以关注。

人工智能行业深度报告：AI大模型赋能千行百业

AI+办公是此次 AIGC 浪潮中的核心受益方向。此次 AIGC 浪潮的引爆点是基于自然语言处理大模型技术的文字创作工具 ChatGPT 快速成长为火爆全球的现象级应用，随后基于对图像、视频、音频等进行处理的多模态大模型的应用也快速推广起来。AIGC 即生成式人工智能天然是面向文字、音视频、图像等内容自主创作场景的 AI 技术，因而其可以直接提升现有各类型办公软件的产品力，从而推动办公软件的迭代升级。