文|周效敬
编|王一粟
当大模型的竞争开始拼落地,商业化在B端和C端都展开了自由生长。
在B端,借助云计算向千行万业扎根;在C端,通过软件App和智能终端快速迭代。
在华为,这家曾经以通信行业起家的科技公司,以AI为纵向中轴线的牵引力,以鸿蒙为横向基础系统,分别延伸出了B端和C端的不同业务线的迭代。
在B端,华为从网络通信、底层算力,到云计算都有系统性覆盖,尤其是近年来高歌猛进的华为云,成为了承接AI基础大模型——盘古大模型落地的最佳场景。而在C端,从手机、PC平板,再到智能汽车,华为终端也包揽了几乎最全的智能硬件生态,第一时间落地大模型。
6月中旬,华为在2024年开发者大会上呈现出的AI和系统级的软件能力,再次证明了硬件出身的华为,一样能让“软件定义华为”。
“硬件越来越简单,软件越来越复杂”,任正非曾在一次会议中提到他对软件的重视,“未来软件将吞噬一切,说明未来信息社会的数字化基础架构核心是软件。数字社会首先要终端数字化,更难的是行业终端数字化,只有行业终端数字化了,才可能建立起智能化和软件服务的基础。”
而到了大模型时代,盘古大模型做的怎么样,能否承担牵引华为整体业务的重担?在大模型B端行业场景中,华为云又靠什么去解最难的题?
目前看来,盘古大模型5.0在多模态、思维链技术上都做了重点加强,正好命中大模型技术中最前沿、也最难攻克的两个技术点,可以说,这两个技术的水平决定了大模型能力的上限。另外,盘古大模型5.0已经集齐从十亿级到万亿级的参数规模,可满足几乎所有规模企业的应用场景。
而在行业落地上,过去一年里,在多数厂商仍处于POC阶段时,盘古大模型已在30多个行业、400多个场景中落地,覆盖了从高铁巡检、气象预报到钢厂场景仿真、具身智能,再到工业互联网等。
华为常务董事、华为云CEO张平安宣布盘古大模型5.0正式发布
华为云盘古大模型能够在B端快速落地,一方面得益于华为在to B和to G领域的深厚积累,一方面也离不开多年来ISV(独立软件提供商)的生态建设,比如中软动力、软通动力、南威软件等,都是深耕各行业的软件服务商。
值得注意的是,华为第一次在HDC开发者大会上同时举办来自不同BG——华为云和华为终端的两大重磅发布会,盘古大模型5.0和鸿蒙HarmonyOS NEXT双双迎来实质性更新,这种时空上的连接不是偶然,背后是在AI浪潮下,云和端的协同愈加紧密了。
盘古大模型5.0,多模态和强思维挑战大模型的能力上限
底层技术是大模型商业化想象力的根基。
目前看来,盘古大模型5.0在多模态、思维链技术上都做了重点加强,正好命中大模型技术中最前沿、也最难攻克的两个技术点,可以说,这两个技术的水平决定了大模型能力的上限。
首先来看多模态技术。从2024年初,Sora展现出惊人的视频生成能力,多模态大模型再次成为全球大模型公司技术竞逐的焦点和难点。
从多模态大模型发展的时间线可以看到,从2022年大模型突然爆发开始,多模态技术就在不断积蓄力量,有人预测,2024年有望成为多模态的爆发之年。
图:多模态大模型发展时间线 源自中国科技大学、腾讯优图实验室《多模态大模型综述》
本次发布的盘古5.0,在技术层面最大的亮点是多模态技术,从文本、视频等方面的理解到内容的生成,再到复杂逻辑推理和场景应用,都实现了高度的一致性,盘古5.0在处理不同任务、不同数据或处于不同环境时,能够保持其性能和行为的稳定、可靠。
在理解方面,盘古5.0可以更好、更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面,可支持10K超高分辨率。10K的超高分辨率意味着什么?更丰富的细节,更准确地分析和理解图像内容。在工业设计和建筑设计领域,10K分辨率可以帮助设计师更快速地生成和调整3D模型,缩短设计周期。
在内容生成方面,盘古5.0采用的“可控时空生成”技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容。
可控时空生成技术可以生成在视觉上逼真、车辆行为和环境互动真实的训练视频。在自动驾驶领域,该技术可以生成六摄像头视角的视频,而且在车辆行为和环境互动方面与现实情况高度同步。
在大模型领域,除了盘古5.0之外,前不久智源研究院也推出了Emu3原生多模态世界模型。该模型采用多模态自回归技术路径,既统一了视频、图像、文字,也统一了生成和理解。据了解,Emu3在持续训练中,经过安全评估之后将逐步开源。
可以看到,一致性更强的多模态技术,是目前行业共同发展的方向,这给大模型落地到实际场景中奠定了基础。
除了多模态能力,推理决策依托的思维能力,是大模型“智商”的体现。比如,GPT-4V 可以理解复杂的指令来生成问答对甚至推理信息,但其他模型这方面的能力则明显不足。上下文学习和思维链研究依然处于初步阶段,相关的能力也较弱,亟需相关底层机制以及能力提升的研究探索。
复杂逻辑推理是大模型成为行业助手的关键,盘古5.0将思维链技术与策略搜索深度结合,极大提升了数学能力、复杂任务规划能力以及工具调用能力。
思维链(Chain of Thought)技术的基本思想是,模拟人类解决问题时的思维过程,将复杂的问题分解为较简单的子问题,然后分别解决并汇总。相较于纯文本的推理,多模态的推理涉及更多的信息来源和更复杂的逻辑关系,当前行业里这方面的能力较少。
策略搜索是人工智能领域中用于寻找最优或可行解决方案的一系列方法,在不同的应用场景下,策略搜索可以采用不同的形式和算法。
这些技术应用到行业里,比如,借助卫星遥感图像,盘古大模型就能够准确分析出一个区域农作物的生长状况,做农作物的产量预估、整体病虫害的监测;借助红外影像,盘古大模型可以准确识别车辆和人的运行轨迹,来进行交通的管理和事故的预防等。
另外,为了适配不同的业务场景,盘古大模型5.0提供了比上一版本跨度更大的参数规格,主要分为四个级别:
十亿级参数的Pangu E(Embedding)系列,属于无需联网就可以嵌入各类终端的“小”大模型,可支撑手机、PC等端侧的智能应用。这个参数规格在应用上与谷歌的Gemini Nano版本类似,Gemini Nano是谷歌多模态模型中体积最小、最高效的版本。参数超过10亿之后,通常需要大规模的分布式计算资源。
百亿级参数的Pangu P(Professional)系列,适用于低时延、高效率的推理场景,据华为常务董事、华为云CEO张平安介绍,100亿~900亿这一级别的参数,可以解决大部分场景下的AI应用问题。超百亿规模的参数,需要极大的计算资源和数据集。
千亿级参数的Pangu U(Ultra)有 1350 亿、2300 亿两种参数规格,适用于处理复杂任务,可以作为企业大模型的一个通用底座。
万亿级参数的 Pangu S(Super)系列超级大模型有 2.6 万亿参数,是处理跨领域多任务的超级大模型,能帮助企业更好的在全场景应用 AI 技术。随着参数数量的增加,模型的泛化能力和复杂度也会提高,但同时也需要更多的数据和计算资源。
盘古5.0从十亿级到万亿级,可以说覆盖了大中小企业所有简单或复杂的任务场景。企业在选择模型时,需要根据具体的应用场景、可用资源和任务需求来决定使用哪种规模的模型。
从多模态到强逻辑推理,再到适配各行业场景的参数规格,盘古5.0是怎么炼成的呢?其中一个关键点是数据。
华为诺亚方舟实验室主任姚骏透露,盘古5.0的训练从3.0堆数据量和提高数据清洗质量的数据工程,向科学使用数据的方向转变。盘古3.0时代,训练所需的数据量为3T tokens,5.0时代这一数字已经飙升到10万亿tokens,为了弥补自然数据增长的不足,合成数据已经成为训练数据的重要组成部分,在盘古的训练数据中,合成数据的占比为30%。
那么,如何确保合成数据的高质量和可用性?盘古团队的做法是,先利用小一点的大模型去快速地对不同的数据进行 AI 评估,区分不同数据类别在学习过程中的难易程度,再进一步根据阶梯式课程学习原理,让大模型学习基础的课程,逐渐加大高难数据的配比,模型就能像人一样从易到难去学习知识,从而实现更可控、可预期的能力涌现。
大模型行业化落地,最难攻的山头
今天的大模型竞争,没有什么比商业化落地更有吸引力,也更有难度。
商业分析机构Gartner认为,大模型未来场景选择会遵从“4C理论”:第一个C是技术成熟度,第二个C是场景商用化, 第三个C是紧迫性,第四个C是成本。这个理论中的几个要素也是企业客户关注的部分。
在一次活动上,中国移动研究院AI中心副总经理金镝介绍,中国移动从2023年年初开始启动大模型研发工作,当年就推出了139亿参数的大语言模型,中国移动在公司内部和客户中加快推进大模型落地,但面临的一大挑战是,行业如何看待和拥抱大模型。
“我们见行业客户,他们都会问:大模型到底能干什么?能带来什么价值?要先从哪些领域开始用?这些对客户而言都是很现实的问题。”金镝说。此外,在成本上也存在很多现实问题,比如用大模型,需要买多少算力,投多少人做数据治理和训练模型,需要多少人做运维等等。
盘古大模型从诞生伊始便确定了“不作诗,只做事”的方向,发力的重点是在to B领域。当其他厂商仍处于POC阶段时,盘古在过去一年里,已在30多个行业、400多个场景中落地。
在上海宝武钢铁热轧生产线上,一块 260 毫米厚的钢坯要在两分钟之内被轧成 1.2 毫米厚的钢板,每次调整生产钢板的种类和尺寸,都需要工程师重新调整7道精轧机组的300多个参数,需要耗费约5天的时间。
盘古大模型创新地将时序数据、表格数据、工艺参数、行业机理等token化,通过大模型的学习,实现对最优的参数进行预测,显著降低了热轧生产线调优时间,并提高预测精度和钢板成材率。现在通过盘古的预测大模型,只需要 3 到 4 个小时就可以完成这项复杂的工作。
目前,盘古大模型目前已在宝钢1880热轧生产线上线,预测精度提高5%以上,钢板成材率提升0.5%,预计每年可以多产钢板2万余吨,年收益达9000余万元。
据华为常务董事、华为云CEO张平安透露,现在华为云专家已经与宝武钢铁团队坐在一起,讨论挑战最具难度的高炉场景,在2000度的高温下,对炉温、铁水温度、硅含量等炉况进行仿真,从而辅助高炉精准控制,充分利用每一分能源,降低能源成本。同时,华为云还与宝武钢铁集团在炼钢、表检、新钢种研发、排程优化等多个领域开展盘古大模型的应用研究。
盘古5.0的应用始终聚焦在行业急需的价值场景上,自动驾驶是另一个被重塑的场景,鸿蒙智行的智驾能力在行业内也有口皆碑。
这个背后,也离不开盘古5.0通过可控时空生成技术,结合场景视频生成、4D BEV视频生成、自动驾驶仿真库及路网信息,大规模生成和实际场景相一致的驾驶视频数据,还可以灵活增加控制条件,生成不同路况、不同光照、不同天气的训练视频数据,加速自动驾驶技术的快速成熟。
此次开发者大会还展示了盘古大模型在具身智能方面的应用。如智源研究院院长王仲远所言,大模型将以数字智能体的形态与智能硬件融合,以具身智能的形态从数字世界进入物理世界。
华为此次展示的“夸父”机器人出菜谱、炒菜、扫地、端茶倒水,都不在话下。盘古大模型能够让“夸父”机器人完成10步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。这些技能背后是盘古5.0对思维链技术与策略搜索的深度结合,让具身智能产品拥有了强大的脑力,可以自如调用工具,进行数学计算以及复杂任务规划。
据光锥智能在现场了解到,盘古大模型在这次机器人上落地,仅仅花了1~2个月的时间。
盘古能够在如此多的行业场景中迅速落地绝非偶然,背后离不开多个因素的助力。
首先,盘古自身的设计从一开始就很“扎实”。据了解,盘古团队一开始选择和NLP和CV两个赛道的时候,选择全栈技术路线并确立了三项核心设计原则:模型要大,网络结构要强,要有优秀的泛化能力。这些早期的设计原则,为盘古真正落地到各行各业的工作场景打下了基础。
其次,华为拥有强大的to B和to G能力也是不争的事实。华为经验积累多,资源多,深耕各行业多年,亦建有深耕各行业的20大产业军团。
华为军团是聚焦特定行业,面向战略扩张、面向战役攻关、面向代表处和伙伴赋能的组织。军团会瞄准一个领域进行饱和攻击,缩短商业成功的时间,快速做到行业领先。同时,组建包括科学家、技术专家、产品专家、销售专家等在内的重量级部队,把业务颗粒化,缩短产品的商用周期。
图:华为部分ISV合作伙伴 拍摄:光锥智能
此外,华为拥有强大的第三方供应商体系,与中软国际、软通动力、南威软件、能科科技、金财互联等深度合作,伙伴强有力的配合使得盘古在各行业能扎根下去。
端云协同,大模型竞争的关键变量
长在生态体系里与单打独斗是大模型的两种不同生存之道。
如果把以盘古大模型为主的AI能力看作华为的纵向能力,那么连接各终端的鸿蒙则是横向的系统级能力,华为通过“一横一纵”的格局来带动终端和华为云的能力双提升。
AI是这个生态体系中最大的技术变量,盘古大模型重塑了终端,也重塑了华为云。
通过云端训练和优化,盘古大模型可以赋予终端设备更高级的智能化能力,比如具身智能产品的应用表明,华为云的AI能力让终端更加智能和自主。
华为云将盘古大模型和华为在产品研发、数据治理、安全防护、业务运维等各个领域积累的数据和经验相结合,“跳了自己的降落伞”,应用在了华为云CodeArts、DataArts、MetaStudio和GaussDB、云安全等系列云服务的智能化上,从而重塑了华为云的服务。
鸿蒙操作系统不仅仅是手机或设备的操作系统,它也是一个全场景分布式操作系统,能够实现设备间的无缝连接和协同工作。
华为云与鸿蒙已经实现了深度协同,提供了包括统一账号、支付、音频、视频、地图和广告服务等开放能力。这意味着开发者可以利用一套统一的接口和服务,同时服务于云端和终端用户,简化了开发流程并提升了用户体验的一致性。
鸿蒙的生态伙伴“华龙讯达”是端云协同的一个典型。
华龙讯达是一家在工业自动化控制系统领域具有重要影响力的企业,工信部试点示范的工业互联网赋能平台公司。公司聚焦于智慧工业领域,推出基于鸿蒙生态的工业操作系统HUALONG OS,提供从设备级到工厂级的自动化控制解决方案,助力制造业数字化转型。
华龙讯达相关负责人
光锥智能在大会现场了解到,HUALONG OS实现了不同设备、不同屏幕尺寸的“一次开发、多端部署”,高效和实时传输的特性,降低了开发工作量,提高了开发效率,助力构建更加智慧的工厂。
在端云协同越来越紧密的当下,盘古大模型和鸿蒙系统纵横交错,通过一系列的技术融合与生态合作,实现了从底层技术到上层应用的全面协同,为用户、开发者及行业伙伴创造了一个高度一体化、智能化的数字生态体系。
据华为2023年年度财报数据,终端业务实现销售收入2515亿元人民币,同比增长17.3%;云计算业务实现销售收入553亿元人民币,同比增长21.9%。同期,华为云全球开发者数量超过600万,合作伙伴超过40000家。
在大模型商业化落地如此需要场景的今天,盘古依托华为的端云协同生态体系,相对其他纯大模型厂商无疑有着不小的优势。在竞争中,这类“综合型选手”会不会折叠掉那些只拥有单一能力的大模型厂商?未来的格局会怎样,这也是一件值得思考的事情。
结语
盘古5.0的发布标志着中国大模型技术向更高维度的跨越,不仅在技术层面实现了多模态处理、强逻辑推理和全系列参数的突破,还在实践中融入华为云与鸿蒙操作系统的生态矩阵,展现出端云协同的潜力。
盘古大模型通过与产业界的紧密合作,成功破解了B端应用的诸多难题,加速了AI技术在各行各业的商业化进程,一个由AI深度驱动的全新时代正加速到来。随着技术边界的不断拓展和应用场景的持续深化,盘古5.0及后续迭代将成为撬动产业升级的关键力量,未来的大模型竞争格局可能会悄然改变。