留给“端侧大模型”的时间不多了

端侧大模型（Edge AI models），也就是只在设备本地（如智能手机、IoT设备、嵌入式系统等）运行的大模型，过去一两年来非常流行。

具体表现在，终端设备厂商，如苹果、荣耀、小米、OV等，AI公司如商汤科技，都推出了自研的纯端侧大模型。

端侧大模型存在的意义，就是“以小博大”。

简单来说，和云侧大模型相比，端侧大模型要在本地部署，所以参数规模都不大，不用担心私密数据在推理时被泄露；不需要网络传输，因此响应速度更快；设备原生搭载，不需要租用云资源，用起来更省……

听起来，端侧大模型简直是AI设备不可或缺的标配啊。但实际情况，可能出乎很多人的意料。

我们在调研和使用多个终端厂商的大模型时发现，端云协同、云端大模型，才是大模型在端侧的主流形式。

比如目前很流行的“手机拍照一键擦除背景人物”，仅靠端侧大模型的计算能力是无法实现的，需要端云协同来完成。

再比如公文写作、长文要点总结、PDF要点摘要等，端侧大模型要么无法完成，比如荣耀、OPPO端侧大模型都不支持PDF文本摘要，小米MiLM的支持度和生成效果也不够好。

最终，用户还是要访问GPT-4、文心一言、智谱清言、讯飞星火、KIMI等云端大模型的网页/APP，来满足一些复杂AIGC任务需求。

不难看到，端侧大模型听起来很美，但真正用起来却有点鸡肋。

而随着云端大模型“变大”（走向统一多模态）又“变小”（压缩技术），留给“端侧大模型”的时间，真的不多了。

端侧大模型不是万能的

但没有云侧大模型是万万不能的

目前来看，“端侧大模型”收益和损失这笔账，根本算不平。

先说收益，云端大模型比端侧大模型对用户的价值更大。

端侧AI首先要保障用户体验，先有价值，再说其他。只能在设备本地运行，意味着“端侧大模型”注定不会太大，必然限制了模型本身的性能表现，无法媲美云端大模型。

所以，用户在使用端侧大模型时，要牺牲一部分体验，那么所获得的收益是否更大呢？并不是。

云端大模型的能力变得越来越强大，与不得不“因小失大”的端侧大模型，拉开了更大的体验差距。比如近期OpenAI和谷歌斗得火热的多模态大模型，GPT-4o和Gemini带来令人惊艳的语音交互、多种模态一次生成等能力，处理图片、视频、音频等数据和复杂逻辑，都要在云端运行。

一位国内PC行业的资深从业者曾告诉脑极体，大模型出来之后我们硬件企业就在研究，怎么将大模型跟PC结合，究竟什么是真正的AI PC？结论就是，搭载了GPT-4（代指当下最先进大模型）的硬件，确实可以叫“AI xx”，模型能力才是最核心的。

所以，想做好端侧AI，端侧大模型不是万能的，但没有云侧大模型是万万不能的。

云端大模型不得不用，那端侧大模型也一样非用不可吗？这就要来说说损失了。

不用端侧大模型，并不会给用户带来更大的麻烦。

此前，终端追求搭载“端侧大模型”，主要受限于两点：计算瓶颈、安全顾虑。大模型推理对实时性的要求，云端相比本地的时延更高。此外，手机、PC涉及大量隐私数据，传输到云端进行推理，让很多人有顾虑。上述两点“损失”正在被积极地解决。

比如前不久谷歌I/O大会上，就发布了响应速度快、成本低的轻量化模型Gemini 1.5 Flash。谷歌采用了“蒸馏”方法，将较大Gemini 模型的核心知识和技能迁移到了更小、更高效的模型中，Gemini 1.5 Flash在摘要、聊天应用、图像和视频字幕等多种任务中，有很好的表现，可以在不同平台运行。

此外，本地计算硬件针对AI任务进行优化，也可以提升云端推理服务的流畅度。目前x86、Arm阵营都在积极提升端侧计算单元对AI专项任务的适配度，已经有旗舰和高端手机支持实时运行大规模参数量的大模型。

数据安全层面，终端厂商和大模型企业都推出了相应的隐私安全保护机制，通过“数据可用不可见”、脱敏、联邦学习等多种手段，防范泄露风险。