开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的数据」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01有话题的新闻
1、visionOS 2.2 Beta 引入超宽屏投屏模式
近日,苹果在其 Vision Pro 头显的 visionOS 2.2 Beta 最新系统版本中推出了 Mac 投屏的宽屏及超宽屏模式。然而,这些新模式需要搭载最新的 macOS 15.2 Beta 系统,无法在 macOS 15.1 上运行。
据悉,Vision Pro 头显自推出以来,就具备将物理 Mac 屏幕替换为巨大虚拟显示屏的功能。用户只需看向 MacBook 并点击浮动虚拟按钮,或在台式 Mac 上使用控制中心,即可轻松连接。
该系统能够迅速在头显与 Mac 之间建立直接的无线连接,无需依赖 Wi-Fi 网络,带来了高质量、低延迟的体验。
此前,Mac 虚拟显示仅限于 16:9 的宽屏模式。但随着 visionOS 2.2 的推出,用户现在可以选择宽屏、超宽屏甚至全景沉浸的超宽显示模式。所有三种模式下,Mac 虚拟显示屏都呈现出轻微的弧度,提供更具包围感的观看体验。
苹果表示,超宽的 Mac 虚拟显示屏具有 8K 的水平分辨率,相当于将两个 4K 显示器并排放置,这得益于眼动追踪技术的支持。
此外,visionOS 2.2 还优化了音频路由功能,现在 Mac 的音频可以直接传输到 Vision Pro 播放。这一改进使得用户在享受巨大虚拟显示屏的同时,也能获得更加沉浸式的音频体验。
与 Meta 和微软等竞争对手的 PC 显示扩展方式相比,苹果的宽屏与超宽屏模式提供了不同的体验。Meta Quest 及其 Immersed 和 Virtual Desktop 等第三方应用上,用户可以虚拟添加多个侧边显示器,但这些虚拟显示器与物理显示器之间通常保留间隙。
相较而言,而苹果则通过单一扩展显示屏覆盖整个宽屏区域,无需任何显示间隙,实现了一体化的视觉体验。(@新浪 VR)
2、超快速文本转语音模型 Lightning:超低延迟, 100 毫秒生成 10 秒音频
近日,总部位于美国加州旧金山的 AI 初创公司 smallest.ai 推出了其新产品 Lightning,一款能够在 100 毫秒内生成长达 10 秒音频的文本转语音(TTS)模型。此项技术的进步,使得全球开发者能够构建高仿真度的语音机器人应用,且延迟时间极短,降低了实施成本,提高了应用的可及性。
Lightning 目前支持英语和印地语的多种口音,团队还计划迅速添加更多语言,以满足市场需求。这款模型的定价为每分钟仅需 0.02 美元(约 1.6 印度卢比),为语音机器人开发者提供了一种极具成本效益的解决方案,应用的运行成本可控制在每分钟 1 卢比以下,大幅降低了语音机器人构建的费用,同时扩大了市场的可达性。
与传统的 TTS 模型依赖流媒体和网络套接字,增加服务器负担和复杂的可扩展性不同,Lightning 通过简单的 REST API 设计,使音频在大约 100 毫秒内交付,避免了持续流媒体带来的服务器压力。这种快速的处理能力和成本效率,使其在语音机器人行业中成为一个显著的替代选择。
smallest.ai 由印度理工学院古瓦哈提校友 Sudarshan Kamath 和 Akshat Mandloi 创立。Kamath 表示,smallest.ai 的低价策略得益于他们对数据质量和模型效率的关注。「我们的模型比竞争对手如 ElevenLabs 的小得多,但我们通过高度精炼的数据实现了高质量的语音输出。」 他解释道。
早期获得 Lightning 使用权的语音机器人开发者报告称,他们的运营成本降低了 8 倍,同时音频质量得到了提升。除了实时的语音机器人应用,Lightning 还可以用于制作有声书和社交媒体内容的配音,如 Instagram 和 YouTube 等平台。非开发者也可以通过 Waves Speech 平台访问 Lightning,体验包括声音克隆和口音转换等功能,这些功能目前处于测试阶段。(@AIbase 基地)
3、Meta 公司 AR 眼镜团队前负责人宣布加入 OpenAI
11 月 5 日消息,Meta 前增强现实眼镜项目负责人凯特琳・卡利诺夫斯基(Caitlin Kalinowski)周一在 LinkedIn 上宣布,她将加入 OpenAI,领导机器人和消费硬件部门。
卡利诺夫斯基是一位资深的硬件主管,自 2022 年 3 月起领导 Meta 的 AR 眼镜团队。她监督了 Orion 的开发,这是一款增强现实眼镜原型,Meta 此前在年度 Connect 大会上展示了这款产品。卡利诺夫斯基还领导了 Meta 虚拟现实头显的硬件团队近九年。在此之前,她曾在苹果工作,设计 MacBook 的硬件。
「我很高兴分享,我将加入 OpenAI 领导机器人和消费硬件部门,」卡利诺夫斯基在她的帖子中说,「在我的新角色中,我将最初专注于 OpenAI 的机器人工作和合作伙伴关系,以帮助将 AI 引入物理世界并为人类解锁其潜力。」(@极客公园)
4、腾讯开源最大 MoE 大语言模型
11 月 5 日消息,腾讯宣布开源 MoE 大语言模型混元 Large、腾讯混元 3D 生成模型 Hunyuan3D-1.0 正式开源,并全面披露腾讯混元的全系列多尺寸模型、C 端应用、B 端应用版图
腾讯称混元 Large 是业界参数规模最大、效果最好的开源 MoE 大语言模型,采用 7T 训练 tokens,总参数量 389B,激活参数量 52B,上下文长度高达 256K,技术报告也同步发布。混元-Large 包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct 和 Hunyuan-A52B-FP8。
与有相似激活参数量的业界开源模型 Llama3.1-405B、Mixtral-8x22B 等相比,在多学科综合评测集、中英文 NLP 任务、代码、数学等 9 大维度,混元 Large 都实现领先。(@极客公园)
5、消息称苹果已进军智能眼镜市场,启动代号 Atlas 项目
据知情人士透露,苹果上周悄然启动了一项名为 Atlas 的内部研究项目,该项目主要聚焦于智能眼镜的开发。
为了深入了解员工对于智能眼镜的看法,苹果上周还特意收集了相关反馈,并通过电子邮件向部分选定员工确认了这一产品研究方向。
据了解,苹果在计划推出新品类产品时,通常会组建秘密小组,并倾向于收集内部员工的反馈,以保持项目的保密性。这一做法再次印证了苹果有意推进开发自有智能眼镜的传闻,而此次 Atlas 项目正是由苹果硬件工程部门的产品系统质量团队所领导。
今年 2 月,苹果发布的 Vision Pro 头显因其高达 3499 美元的售价和笨重的外观,被市场认为难以成为主流产品。然而,苹果并未放弃在这一领域的探索,多年来一直在寻求制造一款更轻便、可全天佩戴的 AR 设备,甚至期望其能够取代 iPhone。然而,由于技术上的诸多挑战,苹果在这一项目上的进展并不顺利。与此同时,Meta 通过更精简的公式取得了成功。
面对 Meta 的成功,苹果也在调整策略,寻求创造类似的产品。据推测,苹果可能会借鉴其已经广受欢迎的 AirPods 耳机的成功经验,制造一款智能眼镜。这款眼镜预计将拥有更长的电池寿命、先进的传感器和改进的音频技术,以满足用户对便携性和实用性的需求。
尽管苹果方面尚未就此事发表评论,但种种迹象表明,苹果对于智能眼镜市场的兴趣浓厚,并正在积极投入研发资源。未来,随着 Atlas 项目的深入进行,我们或许能够见证苹果在智能眼镜领域的创新与突破。(@新浪 VR)
02有态度的观点
1、吴恩达对谈斯坦福计算机系主任:生成式 AI 可赋能编程,但基础编程知识及编程思维仍值得学习与培养
Andrew Ng(吴恩达)与斯坦福大学工程学院的计算机科学系主任 Mehran Sahami 在一次演讲访谈中谈到了对生成式 AI 对编程和软件开发职业的影响、计算机科学教育的重要性,以及领域知识在 AI 应用中的关键作用。
他们认为,生成式 AI 正在加速软件开发的速度,一方面帮助有经验的开发者提高效率,另一方面也让没有太多编程经验的人能够快速进入软件工程领域。这种技术使得编写复杂程序变得更加可行,从而吸引了更多人参与软件工程。因此,整个领域的速度在加快,开发出的软件也越来越多。
此外,他们强调了计算机科学教育的必要性。尽管生成式 AI 能够帮助生成代码,但基础的计算机科学技能仍然至关重要。学生需要理解编程的基本概念、算法和数据结构,以便能够评估和优化生成的代码。教育应注重培养学生的计算思维,即如何系统地分解问题并解决问题,而不仅仅是教授编程语言的语法。
计算机科学推动的快速节奏正在给许多其他行业带来压力。生成式 AI 让团队能更快地完成任务,也可能会改变许多行业的工作模式。AI 作为一种新技术,能够提高生产力,但如何利用这些生产力的提升仍然是人类的决策。AI 的应用与特定领域的知识相结合,能够创造出更具价值的应用。(@ Z potentials)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻