2026“端侧AI战事”升级，苹果谷歌们在拼什么？-墙外头条

图片由AI工具生成

2026上半年，端侧大模型走到了一个新阶段：模型将继续变小、变轻，但光靠压缩已经不够了。接下来的关键，是让模型和底层框架、芯片、具体设备场景配合起来，从“能跑起来”走向“更好用”。

这样的转变，正在头部厂商身上集中发生。6月9日的苹果全球开发者大会（WWDC2026）上，苹果发力端侧大模型，发布了AFM3系列。

苹果的思路是，从根本上为端侧设计出省算力的结构，推出约200亿参数的端侧主力AFM 3 Core Advanced，把模型本体做大，通过稀疏架构，每次推理只激活其中一部分参数。

这是苹果的解法。不过从整个行业看，在端侧的落地路径上，仍然面临不同取舍和分化。

一些公司走“蒸馏路线”：让能力强的大模型迁移给体量更小的模型，再把这个小模型装进设备里跑，以更低的成本逼近先进大模型的效果。

Google的Gemini Nano就是典型代表。早期Gemini技术报告中提到，Gemini Nano由更大的Gemini模型蒸馏而来，面向端侧部署，直接跑在Pixel、三星Galaxy等安卓手机本地上。

还有一类厂商则选择从端侧约束出发，重新设计模型本身。在有限的算力、内存和功耗条件下，尽可能提高端侧模型单位参数能够承载的能力密度。

这条路线押中是端侧大模型的“小而强”：模型体积要足够小，才能进入更多手机、PC、车机、机器人等终端；能力又要足够完整，才能支撑端侧 Agent、实时交互和本地智能体验。

以国内聚焦端侧大模型的面壁智能为例，长期强调模型压缩和能力密度提升。从MiniCPM系列开始，其思路就是用更小的参数规模，尽量承载更强的模型能力。

到目前，面壁智能选择沿着低比特路线继续压缩模型，并联合清华大学、OpenBMB开源社区发布的BitCPM-CANN，已经在华为昇腾平台上验证了1.58-bit三值大模型的训练方案。

以前每个参数要用一长串数字来记，现在改成只用很少几位就能表示，这样模型可以更省算力、也更省存储。

和以往不同的是，这一步的压缩，使得端侧大模型的升级不再只停留在模型算法层面，也开始进入芯片适配层面。

在近日和面壁智能的一次交流会上，面壁智能CEO李大海表示：“今年以来，随着行业整体把推演转移到国产芯片上，我们也在逐步把训练工作转移到国产芯片和国产集群”。

这也指向端侧大模型的一个共同趋势：模型越往终端走，就越依赖软硬协同。单纯把模型做小还不够，模型需要贴合芯片的计算方式，芯片也需要围绕大模型推理继续优化。

行业中，类似的动作已经越来越多。无论是苹果围绕 Apple Silicon芯片推出Core AI，还是高通、联发科、英特尔等厂商，都在搭建自己的端侧AI平台。

端侧AI的竞争，正在从比拼参数规模和压缩比例，转向模型、芯片、系统、应用之间的整体配合。

不过，端侧大模型的共识正在形成，分歧也随之浮现。

当模型真正进入手机、汽车、PC、机器人等真实设备后，行业讨论的焦点开始更加聚焦在端侧能力的核心能力拓展和边界上：端侧模型应该承担哪些核心任务？本地智能与云端智能如何分工？端侧模型从“能跑”走向“好用”，还要跨过哪些门槛？

围绕这些问题，面壁智能CEO李大海分享了他对端侧大模型进入落地阶段后的判断与思考。

01 苹果加码端侧：一场迟到的“系统工程”

问：苹果2026年继续加码端侧大模型，推出的端侧大模型AFM3 Core Advanced，也让端侧 AI 再次成为行业焦点。你怎么看苹果这一路线的落地进展？如何看待苹果通过“稀疏路线”切入端侧的方式？对安卓手机厂商来说，会带来怎样的竞争压力？

李大海：我觉得可以从几个角度看。

第一，苹果的端云协同战略其实在2024年6月就已经公布了，到现在逐步落地，某种程度上已经晚于行业预期。这说明端侧大模型不是一个简单的模型问题，而是涉及芯片、系统、软件生态和具体场景定义的系统工程。

第二，苹果切入端侧大模型，也进一步说明这个方向本身是成立的。端侧模型的价值，不只是把一个小模型放到手机里，而是要真正改变人与设备的交互方式。手机是用户最常使用、也最贴近个人数据和个人场景的终端，因此非常适合承载一部分高频、实时、隐私敏感的智能能力。

第三，这件事并不完全是苹果和安卓之间的竞争。关键不在于操作系统阵营，而在于谁能找到更合适的芯片、更高效的模型，以及更清晰的产品场景定义。

其实，国内手机厂商很早就在关注这个方向，也在和模型公司、芯片公司进行深度合作。就我的观察，大家对端侧智能的理解都相当深入，差距并没有外界想象中那么大。从面壁的角度看，我们从2024年起就提出了端侧战略，并持续与国内终端厂商合作。

问：苹果正在加码端侧大模型，高端安卓手机厂商也在寻找自己的端侧AI路线。端侧大模型真正形成体验差异，关键取决于哪些能力？

李大海：从面壁智能的经验看，手机厂商评估端侧模型，通常会看几个很具体的问题。

首先是模型本身的能力和部署成本。端侧模型不能只看参数大小，也不能只看某个榜单分数。它最终要跑在手机这样的设备上，所以必须同时考虑能力、速度、功耗和内存占用。模型太弱，用户感知不到价值；模型太重，又会带来耗电、发热和体验不稳定的问题。

其次是和端侧芯片的适配能力。手机里的AI能力最终要落到芯片上运行，模型公司不能等硬件确定之后再做简单适配。比较理想的方式，是在更早阶段就和芯片厂商一起看模型结构、推理方式、内存占用和功耗表现。比如面壁和包括高通在内的一些端侧芯片厂商都有合作，也会在部分方向上做更前置的联合优化。

第三是推理效率。手机和汽车这类终端设备，对功耗和稳定性的要求很高。用户不会接受一个看起来能力很强，但一用就明显耗电、发热或者响应不稳定的 AI 功能。所以在效果接近的情况下，谁能用更低功耗、更低延迟把体验做出来，谁就更有优势。

苹果进入端侧大模型，会加速整个生态成熟。对高端安卓手机来说，压力会变大，但机会也仍然存在。未来真正决定竞争力的，还是芯片、模型、系统和场景能否形成高效协同。谁能把这些环节打通，谁就更有机会把端侧 AI 变成用户真正可感知的体验。

02 端侧落地的瓶颈：模型与芯片的结合

问：进入2026年后，端侧模型的落地进展到了什么阶段？目前制约端侧模型进一步规模化应用的关键瓶颈是什么？

李大海：2025年，面壁智能的端侧模型已经在汽车场景中实现量产，这是一个很重要的标志；今年则进入了落地的第二年，端侧模型的增长速度其实非常快。

但端侧模型真正向下落地，最大的制约还是刚提到的——模型与芯片的结合。

端侧场景和云端不一样，它对功耗、算力、带宽、成本和实时性都有很高要求。模型能力本身很重要，但如果没有合适的端侧AI芯片支撑，很多能力就很难以低成本、低功耗的方式进入真实设备。

所以我们非常期待接下来一批国产存算一体端侧AI芯片的量产。目前已经有一些相关芯片正在流片，一旦进入规模化应用，就有望在功耗、算力和带宽上提供更有竞争力的端侧 AI 能力。基于这些芯片，端侧应用会迎来更快爆发。

另外，我们认为端侧AI最合理的形态，并不是所有能力都放在端上，也不是完全依赖云端，而是端云协同。

比如，上下文管理应该尽可能放在端上，一些重要、高频、对隐私和实时性要求更高的推理任务，也应该优先在端上完成；而更复杂、更重的任务，则可以交给云端。

在这样的模式下，端侧模型会更自然地进入用户的日常生活。它未必一开始就以一个非常显性的“大模型产品”出现，而是会嵌入到汽车、手机、PC、可穿戴设备、智能家居等具体场景里，变成用户能直接感受到的智能体验。随着芯片、模型和应用生态进一步成熟，端侧模型的落地速度会明显加快，今年我们也会看到大量实际应用出现。

问：国产AI芯片过去更多被用于推理，但大模型训练对软件栈、集群稳定性、通信效率和精度一致性要求更高。站在模型公司的角度看，训练任务迁移到国产芯片上，面壁智能需要集中克服哪些难点？

李大海：我们现在主要沿着两个方向推进。

第一个方向，是在真实训练任务中与国产芯片厂商持续磨合。模型公司在训练过程中会遇到很多具体问题，比如算子性能、通信效率、集群稳定性、精度对齐等，这些问题只有在真实大模型训练中才会充分暴露出来。通过不断反馈、调优和验证，模型公司和芯片公司可以一起把国产 AI 软件生态打磨得更成熟。

第二个方向，是在更底层的软件适配上做一些配合。国产芯片的问题，不只是单块芯片性能怎么样，更大的挑战在于软件栈不够统一。不同芯片有不同的编译、算子、通信和调度体系，模型公司如果每接入一类芯片都要重新适配一遍，成本会很高，效率也很低。

所以我们也会参与一些共性软件生态的工作，比如智源研究院牵头的FlagOS。其意义是希望把一部分重复适配的工作沉淀下来，让不同国产芯片在模型训练和推理时，能有更清晰的接口和协作方式。这项工作对于国产智算生态非常有价值，也在快速发展。

面壁智能本身既是大模型公司，也在算子适配和底层优化上有比较深的积累，所以我们在这两条路径上都有比较多的参与。一方面，我们通过真实模型训练任务帮助国产芯片和软件栈发现问题、解决问题；另一方面，我们也参与到更系统化的国产AI软件生态建设中。

此外，训练迁移到国产芯片上，比推理迁移更复杂。推理主要看吞吐、延迟和成本，训练还要验证数值精度、稳定性和长时间运行能力。

为此，我们用小模型实验预测大模型训练效果，并把华为等国产AI 芯片上的测试结果与英伟达平台对齐，判断训练精度是否可靠。这类测试可以在大规模训练前，提前暴露芯片、算子和软件栈中的底层问题。

问：2026年的上半年，“豆包手机”等产品引发了外界对端侧智能体的关注。你怎么看端侧模型和端侧智能体对人机交互方式的改变？

李大海：这是一个非常自然发展的方向。

这背后是由端侧模型的分工优势决定的。相比完全依赖云端，端侧模型在隐私保护、实时响应和可靠性上更有优势，因此天然适合承担人机交互任务。因为人和设备之间的交互，对实时性和稳定性的要求非常高。

可以用云游戏来类比。移动互联网时代，很多公司都尝试过云游戏。理论上，云游戏把渲染放在云端，终端就不需要很强的算力，但这个方向一直没有真正大规模跑通。核心原因在于，用户对交互的帧率、延迟和稳定性非常敏感，不希望在没有预期的情况下突然卡顿。

也就是说，很多人会低估交互体验对实时性和可靠性的要求。只有在终端侧，才更有可能满足这种高标准。其实早在 PC 互联网时代，我们就已经看到过这一点的重要性。我最早任职的公司是 Google，当时 Google 很早就发现，响应速度每提升 100 毫秒，对广告转化率都会产生很大影响。

所以回到豆包手机这类产品，端侧模型和端侧智能体结合，真正值得关注的是它可能带来新的交互层。

能不能做好端侧智能体，不只是看模型能力强不强，而是取决于三个因素的叠加：第一，芯片和算力能承受多大成本；第二，模型在能力、速度、功耗和稳定性上的综合表现；第三，具体场景是否成立。只有这三个圈真正重叠，端侧智能体才能进入大规模应用。

芯片决定能不能跑，模型决定能不能做，场景决定有没有人用。只有这三点重叠，端侧智能体才会走向大规模应用。

03 Agent落地后，更多任务会回到端侧

问：面壁智能已经把低比特量化探索到1.58bit。你怎么看模型量化继续往下压缩的空间？接下来的攻克和突破点主要在哪些方向？

李大海：从目前的技术判断看，1.58bit可能已经接近模型量化的极限了。继续往下压缩，理论空间会越来越小，真正的挑战也不只是把bit数降下来，而是在极高压缩比下，尽可能保持模型能力不出现明显损失。

对我们来说，更关键的是量化损失能不能足够低。模型压缩不是单纯追求参数占用更小，更重要的是在更低存储、更低算力、更低功耗的前提下，仍然保持足够好的推理效果。这也是端侧模型真正落地时最重要的问题之一。

在这方面，面壁智能采用的是从训练阶段就面向低比特量化进行优化的路线，也就是通过QAT，量化感知训练，让模型从训练一开始就持续适应低比特表示，而不是等模型训练完成后再做后处理压缩。

这种方式的好处是，模型从一开始就围绕低比特目标进行优化，可以更好地控制量化带来的性能损失。对面壁来说，极致量化的核心目标不是追求一个更低的数字，而是在接近量化极限的情况下，仍然让模型保持足够可用、足够稳定的能力。

问：这两年端侧模型进步很快。未来Agent的任务，会有多少能在本地完成？端和云之间会形成怎样的关系？

李大海：端云协同一定会扩展端侧模型的能力边界，但它并不意味着所有任务都要放在端上完成。更合理的方式是，把高频、实时、隐私敏感、需要稳定交互的部分尽可能放在端侧；而更复杂、更重的推理和规划任务，则由云端来承担。端和云最终会形成一种分工协作关系。

AI技术变化非常快，模型和Agent的进化速度也非常快。也许今天还做不了的事情，下个月就能做；这个月某个任务还有10%的错误率，再过一段时间可能就降到 1%。所以现在很难用一个静态比例去判断未来有多少 Agent 工作可以在本地闭环完成。

但趋势是明确的：随着端侧模型能力提升、芯片性能增强，以及端云协同架构逐渐成熟，越来越多原本依赖云端的任务会被前移到本地。尤其是上下文管理、个人数据理解、高频交互和一部分轻量级决策，都会更适合在端侧完成。

从长期来看，Agent会成为一个非常重要的趋势。AI作为新的生产要素，对社会和产业的影响会非常深远。今年可以说是Agent 真正开始进入产业落地的第一年，很多东西还需要摸索，但长期来看，它一定会成为常态。

问：过去一年，面壁智能的端侧模型已经进入汽车、手机、无人机等终端设备。这些场景的落地进展来看，不同设备对端侧模型的能力、功耗、稳定性和交互方式有哪些差异？

李大海：智能座舱是面壁端侧模型落地的重要场景之一。过去一年，我们在汽车场景中已经实现了量产落地，也获得了车企和用户的正向反馈。

比如吉利银河M9上搭载了相关功能，这个功能需要用户主动开启。从目前看到的车辆数据看，主动开启比例比较高，说明用户在实际使用中对这类座舱智能能力有需求。

从技术上看，座舱场景对端侧模型提出了比较具体的要求：响应要快，交互要稳定，也要能结合车内环境和用户指令完成任务。因此，仅有语言模型能力还不够，还需要多模态、语音交互、流式响应等能力配合。

除了汽车，端侧模型也在进入手机、无人机、潜水器等终端设备。不同设备对模型的要求并不一样，手机更关注功耗和系统体验，汽车更关注稳定性和交互安全，智能硬件则更看重体积、成本和本地响应。

所以我们现在更关注的是，端侧模型在不同设备里到底能承担哪些任务，哪些能力可以稳定运行，哪些场景用户真的会高频使用。端侧模型的落地，最终还是要回到具体设备和具体体验里验证。