音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

日程揭晓！速览深圳站大会专题议程详解

LiveVideoStackCon 2023 音视频技术大会深圳站，保持着往届强大的讲师阵容以及高水准的演讲质量。两天的参会时间，您可以快速了解音视频大咖前瞻的思想、把握音视频技术发展的最新动向、深入学习技术内容和工程化方面的一手实践。现在，深圳站大会日程正式揭晓，一起来看看您所关注的演讲都出现在哪些时段吧！

●时间：2023年11月24日-25日
●地点：深圳圣淘沙酒店（翡翠店）
●咨询：13520771810（微信同号）了解详情。
●官方链接：https://sz2023.livevideostack.com/topics

LiveVideoStack多媒体技术调研定量收集倒计时两周

在过去两个月中，我们致力于收集和分析定量数据与定性数据，以深入了解音视频行业的最新动态和反馈。通过音视频技术人员的支持，得以在音视频市场中捕获独特且具有深度的洞察。
扫描下方图片二维码，参与其中，抽奖深圳大会门票！期待与您共同探索和创造音视频行业的更多可能性！

PyTorch大更新，编译代码速度暴增35倍！视觉模型一键部署，头显Quest 3可用

最近，在Pytorch发布会上，发布移动端Pytorch解决方案ExecuTorch，实现在移动端设备上大范围地部署AI工具，并推出最新版本Pytorch2.1，推理速度大幅提升。

AI Agent，启动！复旦NLP团队发86页长文综述，智能体社会近在眼前

近日，一篇探讨基于LLM的Agent综述论文在X上火了！仔细一看，论文署名中甚至一度还有米哈游。

自动驾驶数据不用愁！港中文等发布MagicDrive：日夜、雨晴、多视角全覆盖，人、物位置随意变更

MagicDrive可以细粒度生成高保真、多相机街景，可以随意变换天气、光照条件以及人物位置，海量自动驾驶数据触手可及！

麦肯锡发布生成式AI报告，预测2030可达人类水平

麦肯锡AI报告发布，生成式AI进步飞快，经济效益巨大，未来不可小觑。

碾压GPT-4，微软最强AutoGen爆火！多个智能体协作，编码速度飙升4倍，GitHub狂揽10k星

AI智能体热度，只增不减。发布仅2周，微软、PSU和华盛顿大学等团队开发的智能体AutoGen瞬间登顶GitHub热榜，狂揽10k星。

打造ChatGPT平替，成本暴降95%！OpenAI硬核更新下月发布，视觉API要来

为了吸引更多开发者，OpenAI正在计划一波重大更新，并且让构建ChatGPT应用的成本降低多达20倍！

超低训练成本文生图模型PixArt来了，效果媲美MJ，只需SD 10%训练时间

当前，最先进的文本到图像（T2I）模型需要大量的训练成本（例如，数百万个 GPU 小时），这严重阻碍了 AIGC 社区的基础创新，同时增加了二氧化碳排放。

CMU等发布最简单的行走机器人：具有一个驱动器和两个刚体的双足机器人

卡内基和伊利诺伊大学香槟分校联合发布最简单的行走机器人：具有一个驱动器和两个刚体的双足机器人。

TRO 2023|iSimLoc：利用虚拟图像对未看到的环境进行视觉全局定位

相机由于体积小、重量轻、功耗低且成本低,是无人机超视距操作的一种有吸引力的设备。但是,目前最先进的视觉定位算法在匹配视觉数据方面存在困难,尤其是在照明或视角产生显著变化时。本文提出了iSimLoc,这是一种基于学习的全局重定位方法,对外观和视角的变化具有鲁棒性。iSimLoc的场景识别网络学习到的特征可以用来匹配查询图像和不同视觉风格域和视角的参考图像。此外,我们的分层全局重定位模块以粗细粒度的方式进行搜索,使iSimLoc可以进行快速精确的姿态估计。

ICRA 2023| 基于点平面图的高效视觉惯性导航

在许多应用中，如微型飞行器物流、增强现实等，相对于全局先验地图进行准确、实时的全局位姿估计是必不可少的。假设一个纯稀疏的三维点地图可以提供环境的无结构表示，那么生成一个点-平面先验地图可以进一步建模环境拓扑结构，并为准确定位提供全局约束。

挣钱越来越难后，游戏引擎厂商们选择加入虚拟世界

在游戏开发者们铺天盖地的声讨中，Unity首席执行官John Riccitiello选择退场。

雷鸟X2抢先解读：一款前沿技术密集集成的真AR眼镜

雷鸟创新将于深圳举办其首场新品发布会，届时将公布高端AR眼镜产品雷鸟X2。基于目前已知信息，雷鸟X2是一款性能怪兽级眼镜产品：双目全彩Micro-LED、高通XR2芯片、1600万摄像头等，而这一系列模组将集成在一个小型的眼镜形态中。

Meta Quest 3现已发售！解锁高保真级别的输入、交互和动作捕捉功能

Meta Quest 3已于2023年10月10日正式发布，在Meta Connect 2023大会上，Meta宣布了一系列Presence Platform功能的升级，这些功能将支持Meta下一代头显的输入、交互和动作捕捉。以上功能的升级将影响高保真级别的上半身跟踪，带来更自然、反应更灵敏的交互（如微手势），以及逼真的腿部动作等。

浅析中国半导体产业的挑战与出路

近几年，半导体领域的“你追我赶”已成为世界强国博弈的主战场。近期华为发布的Mate60 Pro搭载的国产麒麟芯片9000s，实现了较高程度的自主可控和国产化，权威媒体认为是美国对华为4年技术封锁后的重大突破，也代表着中国距离欧美芯片最先进技术仅剩5年左右的差距。

ASML是绝对的霸主，纳米压印的影响近乎零

近来，因为佳能发布了号称可以生产2nm的新一代纳米压印光刻机，引起了大家对其与ASML竞争的广泛讨论。

CXL开启高性能计算的新纪元

随着科学研究和工业生产对数据处理能力的需求不断攀升，高性能计算（HPC）已成为推动这些领域进步的重要力量。在这样的背景下，计算机技术尤其是互连技术的进步显得尤为关键。Compute Express Link（CXL）作为新一代的高速互连技术，因其在带宽、延迟和扩展性方面的优势，正展现出在HPC领域的广泛应用潜力，有可能彻底改变数据中心和加速器之间的通信方式，从而推动HPC领域的革命性进步。

端到端语音识别中的建模单元

端到端语音识别中不同的建模单元有着不同的应用场景，本文对中英文常用的一些建模方式以及如何生成对应的标签进行总结，希望对大家有所帮助。

开源上新｜FunASR英文离线文件转写软件包发布

FunASR是由阿里巴巴智能计算研究院语音实验室开源的语音识别框架，集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署。

人工智能工具利用心音检测瓣膜性心脏病

当医生通过听诊器倾听患者心脏时，他们会听到心脏瓣膜在打开和关闭时发出的独特扑通声，以此来检测瓣膜泄漏、卡住或滑出位置时发出的细微杂音。

初创公司使用AI技术演员可以使用本人的声音生成指定语音

近日，一名配音演员Ciccy Jones创办了AI初创公司Morpheme，旨在利用 AI“重塑”从动画片到游戏的配音、拟音方式。

打造沉浸式专业音视频体验

我们的生活被专业的音视频设备所包围。从零售广告中的数字标牌，到现场活动中的麦克风和大屏幕显示；从体育赛事的现场直播到行业的实时监控....。需要在不牺牲视频质量、延迟或控制的情况下进行成本效益设计。AMD 平台可快速适应新兴音视频技术的要求，可通过 AV-over-IP 的方式，采用无损压缩或者深压缩方式进行高质量音视频传输，并在成本优化的器件中集成支持最新 AI/ML 技术的多媒体流水线。

从零开始的stable diffusion

stable diffusion真的是横空出世，开启了AIGC的元年。不知你是否有和我一样的困惑，这AI工具好像并不是那么听话？

基于多模态的视频高能点提取技术

当用户在浏览B站时，首页所呈现的视频内容以卡片形式依序展示，这些视频卡片的封面大多数是与视频相关的静态图像。在制作视频时，up 主通常会选取视频中的某一帧并加上较为醒目的文案来制作封面；而电影和记录片则倾向于选择具有代表性的精彩帧画面作为封面展示。这种策略通过简洁、直观的封面设计，让用户在页面浏览的时候能迅速捕捉到视频的主题。

“好的编解码IP一定是不断打磨出来的”—— 对话北格逻辑研发总监周毅华

在音视频编解码领域，以H.264/H.265为代表的深压缩编解码算法一直占据着行业的主流。随着视频编解码的需求增多，浅压缩算法逐渐得到了重视。JPEG 2000曾获认为是未来取代JPEG的下一代图像压缩标准相较于主流的潜压缩JPEG来说，JPEG 2000压缩比更高，体积更小，并能同时支持有损/无损两种压缩方式。

亮风台唐荣兴：从业二十年，通讯、协作的“变”与“不变”

从03年左右开发PocketPC上软件电话SIPPhone算起，到现在AR眼镜上的AR协作软件，刚好二十年。

“完美的汽车音频体验就像坐在小型音乐厅”——对话赛因芯微CEO吴健

上次，我们聊到了专业音视频领域Pro AV的发展，而作为音视频的半壁江山，“听”的力量绝不对不容小觑，好的音频体验可以让听者更有“沉浸感”，实现身临其境的效果。本次，我们对话了专注于音频领域的赛因铸声场，创始人吴健从1999年开始从事音乐技术工作，2000年为中国摇滚音乐家崔健设计了现场录音系统，完成话筒信号分裂机和放大器的研发，崔健使用至今。如今，他们将关注放在汽车座舱声学的处理，希望能够创造完美的声学体验。以下，是LiveVideoStack与赛因芯微的对话，希望对你有所帮助。

▲点击“阅读原文” ▲

跳转LiveVideoStackCon 2023 深圳站官网，了解更多信息