赛博·新闻
1、英伟达开源新模型,性能直逼DeepSeek-R1
本周,英伟达开源了基于Meta早期Llama-3.1-405B-Instruct模型开发的Llama-3.1-Nemotron-Ultra-253B-v1大语言模型,该模型拥有2530亿参数,在多项基准测试中展现出与6710亿参数的DeepSeek-R1相媲美的性能,甚至在GPQA(76vs.71.5)、IFEval指令遵循(89.5vs.88.8)和LiveCodeBench编码任务(66.3vs.65.9)中表现更优,同时推理吞吐量达到后者的4倍,但DeepSeek-R1在MATH500和ArenaHard基准测试中仍具微弱优势。该模型通过神经架构搜索(NAS)优化架构设计,引入跳跃注意力层、融合前馈网络(FFN)及可变FFN压缩率等技术,有效降低内存占用与计算需求,在保持输出质量的前提下支持高效部署,可运行于单个8xH100GPU节点,兼容B100和Hopper微架构硬件,并通过BF16与FP8精度验证。其应用场景涵盖聊天机器人开发、AIAgent工作流、检索增强生成(RAG)及代码生成,且根据英伟达开放模型许可证及Llama3.1社区许可协议,允许商业用途,模型代码及权重已在HuggingFace平台开源。
2、OpenAI宣布GPT-4退役
OpenAI在更新日志中宣布,自2025年4月30日起,GPT‑4将在ChatGPT中退役,将完全被GPT‑4o取代。不过这也不意味着GPT-4再也用不了,开发者依然可以在API中可调用GPT-4。OpenAI表示,GPT-4是ChatGPT进化中的里程碑时刻,它所实现的种种突破,以及那些塑造了其继任者的宝贵反馈,团队都心怀感激。而GPT-4o正是在这个基础上,带来更强大的能力、更优的一致性与更丰富的创造力。2023年3月15日,GPT-4正式发布,在多种专业和学术指标下展现了人类水平的表现,甚至已经达到哈佛、斯坦福的水平,在之后一年都是各家大模型唯一的对标对象。
3、OpenAI或将在下周发布多款新模型
日前,OpenAI CEO Sam Altman在回复网友时表示,o3和o4-mini两款新模型会在不久之后发布。而据TheVerge消息,知名AI软件工程师Tibor Blaho今天也在新版ChatGPT网页中发现了o4mini、o4minihigh和o3的相关信息。而The Verge也表示,o3和o4mini系列都将会在下周推出,除非OpenAI调整发布计划。另外,报道还指出OpenAI将会在下周推出GPT-4.1系列模型,包括更小版本的GPT-4.1mini和nano两个版本。知情人士透露GPT-4.1将会是多模态模型GPT-4o的改进版。不止新模型,昨晚Altman还发文声称今天会推出一个「令人兴奋」的新功能。而这一新功能目前已经揭晓——全面升级的记忆功能。据介绍,从今天开始,ChatGPT将能够参考用户所有的历史对话内容,提供更加个性化的服务体验,比如在写作、建议、学习等方面,能给出贴合用户喜好的回答。早在去年9月,ChatGPT就已全量推送记忆功能,并将其扩展到GPTs功能。而此次升级后,新的对话将在已保存的记忆信息上自然延伸,交互更加流畅,更符合用户个人风格。
4、昆仑万维开源7B/32B最强数学代码推理模型
本周,昆仑万维天工团队推出全新开源推理模型SkyWork-OR1系列,包含7B和32B参数规模的数学专项模型与通用模型,在同等参数规模下实现业界领先的数学推理与代码生成能力。该系列通过构建高质量数学与代码数据集(11万数学题和1.37万代码问题)、采用Group Relative Policy Optimization(GRPO)训练方法及多阶段训练策略,显著提升模型在复杂任务中的稳定性与推理深度。技术亮点包括动态数据过滤机制(离线/在线双重筛选)、多阶段上下文窗口扩展训练、自适应熵控制探索策略,以及创新评估指标avg@k(替代传统pass@k)以更全面衡量模型性能。其中SkyWork-OR1-32B-Preview在数学推理任务中超越阿里QwQ-32B,与DeepSeek-R1持平;专注数学的7B模型在AIME2024/2025分别取得69.8%和52.3%的avg@32成绩,代码能力亦同步提升至43.6%。团队采用业界最高透明度开源策略,全面公开模型权重、训练数据集、完整代码及技术文档,通过渐进式训练优化与严格数据质量控制,在保持模型紧凑性的同时实现专业领域突破,为AI社区提供可复现的推理模型训练范本。
5、字节开源新生图模型
本周,字节开源的全新图像生成模型UNO,通过统一架构实现了多任务图像生成的突破性进展,其核心创新在于以Flux.1模型为基础,采用“模型-数据共同进化”范式,有效解决了参考驱动生成中数据扩展性(单主体到多主体数据集的扩展)和主体扩展性(多物体协同生成)两大挑战。UNO整合了文生图、单/多主体参考生成功能,支持最多四张参考图的跨主体融合,例如将运动鞋与埃菲尔铁塔背景结合,或保持人物特征生成吉卜力风格图像,在虚拟试穿、产品设计等场景中展现应用潜力。技术层面,模型通过两阶段训练策略(先单主体微调后多主体增强)和基于Object365分类树的大规模数据合成框架,结合创新的通用旋转位置编码(UniRoPE),精准调控多模态交互并缓解属性混淆问题。实验表明,UNO在单主体生成任务中DINO得分0.542、多主体任务DINO得分0.760,全面超越OmniGen、RealCustom++等模型,用户研究显示其在主体相似度、文本忠实度和视觉吸引力上均领先竞品。该模型通过HuggingFace开放体验,其统一架构设计和技术路径(如扩散Transformer的上下文生成能力)为AI生成内容的精细化控制开辟新方向,被业界视为推动定制化AI智能体发展的关键突破,其模型-数据协同进化范式可能成为扩散模型训练的新标准,标志着多主体可控生成技术从单点突破迈向系统化解决方案的重要里程碑。
赛博·洞见
1、互联网下一步,欢迎来到智能体互联网(AgenticWeb)时代!
互联网的演进方向由新技术驱动,当前生成式AI与大模型的发展将推动互联网进入智能体互联网(Agentic Web)时代。现有互联网因数据孤岛和人类中心化设计无法充分释放AI能力,下一代互联网需解决四大问题:让AI获取完整上下文信息、调用所有工具、以原生接口(API/协议)交互、实现智能体高效协作。文章否定了模仿人类操作的Computer Use技术和终端绑定的AI手机方案,认为Anthropic的MCP协议与去中心化的Agent Network Protocol更符合趋势。未来智能体将取代人类成为互联网主要节点,个人助理作为新入口通过个性化UI服务用户,后端智能体通过自组织协议互联互通,形成扁平化、去中心化的协作网络。这一变革将重构现有应用生态,打破平台垄断,最终使互联网从“人类操作界面”转向“智能体协作网络”,其市场规模潜力达千亿美金级别。技术本质是通过开放协议释放AI处理底层数据与自主协作的能力,而非适配现有图形界面体系。
2、GPT4o又出15种脑洞玩法,吉卜力已经落后N个版本了
这篇文章全面展示了GPT-4o在创意生成领域的突破性应用,通过15种创新玩法揭示其超越传统AI工具的潜力。核心在于GPT-4o凭借强大的多模态理解能力,能够实现从潮玩手办定制到艺术创作的全链路突破:用户可通过精准提示词生成真实感手办模型(如甲亢哥手办/泡泡玛特盲盒)、创作3D浪漫场景摆件,甚至结合Kling制作把玩视频;在文字领域,既可模拟人类涂鸦笔记实现图文混排标注,又能通过HTML代码精准控制视觉元素的色彩呈现;双面人像功能将不同艺术风格(如吉卜力动画与超现实主义)融合在同一肖像中,展现时空碰撞的戏剧张力;宠物拟人化功能可将猫狗转化为特定风格的人类形象,并制作专属表情包;微缩世界功能则通过剖面模型展现设备内部奇幻场景(如电话机里的太空植物园),结合粘土质感渲染打造虚实交融的微观世界。这些玩法不仅突破了MidJourney等工具的风格局限,更通过语义理解实现跨模态创作,将AI从工具升维为创意合作伙伴,为艺术设计、IP开发、个性化定制等领域开辟全新可能性。
3、为什么AIAgent需要自己的浏览器?
随着AI Agent逐渐成为互联网流量的重要组成部分,传统浏览器和现有无头浏览器技术已无法满足其自动化交互需求。当前互联网40%流量来自机器人,但网站普遍缺乏结构化API接口,迫使AIAgent依赖传统网页交互方式,而现有浏览器在设计逻辑上以人类视觉交互为核心,存在动态内容加载、复杂页面解析、反爬机制规避、交互流程自动化等天然缺陷。尽管Puppeteer等无头浏览器技术提供代码级控制能力,但其操作复杂度高且维护成本大,无法适应AIAgent所需的高效自然语言交互范式。Browserbase提出的云端专属浏览器解决方案通过整合LLM和VLM技术,赋予浏览器理解网页语义和自适应页面变化的能力,将传统基于DOM元素定位的机械操作转化为自然语言驱动的智能交互,配合Stagehand框架实现开发者与网页的自然语言对话。这种AI原生浏览器不仅解决动态内容加载、验证码识别等技术难题,更重要的是通过云端服务提供弹性扩展能力,大幅降低AIAgent与网页交互的技术门槛和运维成本,为构建自主完成任务的高效AI系统提供基础设施支撑,标志着浏览器从人类视觉交互工具向AI智能体操作系统的范式转变。
4、为什么美国人的AI应用看起来跑的好像更快些?
这篇文章的核心观点认为,中美在AI应用发展速度的差异源于企业数据层的结构性缺失。美国AI应用的高速成长建立在成熟的SaaS生态之上,其B端数据层具备完整性、实时性和系统穿透性:企业数据全域打通形成"活数据",使Glean、Moveworks等产品能通过智能层实现精准服务(如企业知识管理、IT服务自动化),催生ARR超亿美元的规模化营收。而中国长期受限于碎片化生产关系,企业数据割裂在部门墙与系统孤岛中,既无法形成完整数据资产,也难以维持数据时效性——这些物理特性导致构建有效数据层的成本远超技术投入,直接制约AI应用的商业价值。更深层矛盾在于,数据价值遵循"全有或全无"定律:局部数据价值趋零,全量实时数据才能激发指数级应用创新。当前路径依赖下,简单复制美国SaaS+AI模式难以奏效,需要探索新型生产关系支撑的AI商业形态(如AI驱动的全链条商业体),通过重构数据采集与价值分配机制突破既有瓶颈。未来变数或将出现在数据确权、流通机制突破或特定领域的系统性数字化重构进程中。
5、斯坦福2025年AI指数报告
报告显示,全球人工智能领域呈现加速发展态势,中国在AI技术研发、应用落地及产业化方面取得显著突破,与美国的技术差距持续缩小。在核心能力测试中,中美顶尖模型的性能差距已收窄至微小幅度,如MMLU测试仅差0.3个百分点,HumanEval差距降至3.7个百分点,中国科技企业阿里、字节、腾讯、智谱、DeepSeek组成的“国产五英杰”跻身全球头部模型开发机构,阿里巴巴以年度发布6个知名模型位列全球第三。中国在学术研究和知识产权方面表现尤为突出,清华大学2023年高被引论文数量与谷歌并列全球第一,AI授权专利占全球总量的69.7%,论文产出占比达23.2%。产业应用方面,中国企业AI使用率同比增长27%,工业机器人部署量占全球半数以上,83%的公众对AI持积极态度。技术发展呈现模型规模扩大化与小模型高效化并存趋势,训练GPT-4o级模型需38B算力且周期缩短至百天,而Phi-3-mini等小模型以3.8B参数实现接近GPT-3.5的性能,模型推理成本三年间下降超280倍。全球AI能力在多模态、代码生成等领域取得突破,Swe-bench测试准确率从4.4%跃升至71.7%,但数据资源面临枯竭风险,预计高质量网络数据将在2026-2032年间耗尽,这将成为行业持续发展的关键挑战。
6、普通人的AI学习资源2025
在2025年AI技术高速发展引发全民焦虑与信息噪音泛滥的背景下,普通人应主动筛选高质量学习资源以对抗“数字文盲”困境。作者指出当前AI科普被大厂垄断、自媒体贩卖焦虑的现象导致信息茧房加剧,呼吁通过系统性学习获取真实知识而非被动接受碎片化内容,强调自由源于主动求知而非被动投喂。为此推荐两条路径:技术侧聚焦如Anthropic、斯坦福等机构的前沿研究及Karpathy等专家的中立科普;商业侧关注头部投行、风投报告及YC孵化器动态以把握产业趋势。文章同时复盘了作者去年对AI发展的预测(如视频生成、AI陪伴等应用基本实现,但伦理立法滞后),揭示技术突破与商业落地、社会风险之间的核心矛盾,最终提出在“AI内容压倒人类内容”的转折点下,普通人需以批判性思维持续学习,才能避免被技术浪潮淘汰,在“噪音压过真实”的时代实现认知突围。