高通万卫星:混合AI与分布式协同是未来

2025-12-11 10:25:17 · chineseheadlinenews.com · 来源: 量子位

从“感知”到“生成”,再到自主行动的“智能体”,AI正在终端侧掀起一场无声的算力革命。

在量子位MEET2026智能未来大会上,高通公司AI产品技术中国区负责人万卫星指出:尽管目前行业关注点仍然集中在生成式AI上,但整个产业其实正呈现出从生成式AI向智能体AI演进的路线。

他将这一演进过程梳理为四个阶段——从传统的感知AI出发,历经当前的生成式AI、正在到来的智能体AI,最终迈向理解真实定律的物理AI。

而目前产业正处于从“生成”向“智能体”跃迁的关键窗口期,终端侧的能力也正从单一文字模态,向全模态交互加速演进。

在他看来,在端侧运行大模型,最大的护城河在于“个性化”——在离数据产生最近的地方做推理,不仅能实现隐私保护,更能提供无需联网的即时响应。

然而,要在手机、PC等高集成度设备上部署百亿级参数模型,必须直面内存受限、带宽瓶颈与功耗控制这三大挑战。 对此,万卫星分享了高通的破局之道。

最后,对于未来的终端体验,他描绘了一个混合AI与分布式协同的图景——智能眼镜、手机、汽车将实现跨端的AI推理。

为了完整体现万卫星的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

AI应用的演进,可以分为感知AI、生成式AI、智能体AI和物理AI四个阶段。

从模态来看,终端侧正在从单一文字模态,向多模态甚至全模态方向演进。

生态系统从单体模型向复合系统的转变是迈向智能体AI的基础。

在终端侧运行大模型,最大的好处之一是个性化。

在终端侧运行大语言模型主要面临内存限制、带宽限制和功耗控制等挑战。

为解决这些挑战,高通进行了一系列技术储备与预研:量化与压缩、并行解码技术等以提高推理效率、先进NPU与异构计算架构。

以下为万卫星演讲原文

AI应用演进的四个阶段

今天我想跟大家分享一下高通在终端侧AI以及混合AI上的成果和思考。

首先,我们来看一下AI应用在整个行业中的演进。

第一个阶段可以称之为感知AI,包括大家比较熟悉的、传统的自然语言处理、语音降噪、图片识别和分割等AI技术,都属于这个范畴。

这些技术其实在很多年前就已经在许多终端侧设备上实现商业化落地。

第二个阶段是生成式AI,是随着ChatGPT的兴起而来的,这一阶段主要基于大量数据进行预训练,并在人类监督下完成某类具体任务。

包括文生图、聊天机器人,或是利用大模型进行翻译等在内,都属于“生成式AI”。

第三个阶段,我们称之为智能体AI。

与生成式AI相比,智能体AI可以在几乎没有人类监督或无干预的情况下,进行自主行动、预测、意图理解与任务编排。

我们能够看到,尽管目前行业关注点仍然集中在生成式AI上,但整个产业其实正呈现出从生成式AI向智能体AI演进的路线。

第四个阶段,我们叫做物理AI。

在这个阶段,AI可以理解真实的物理世界,并根据真实的物理定律与规律做出相应的反馈和响应。

目前,物理AI尚处于研究和探索的初期。

端侧AI的优势和挑战

我们看到在终端侧生成式AI的生态中,模型尺寸正在不断增大——

目前手机可以支持将近100亿参数的大模型部署;

PC可以支持约200亿参数的大模型终端侧部署;

在车载场景中,模型支持的规模则更大,可部署的参数量级已达到200亿至600亿之间。

在模型尺寸不断扩大的同时,模型质量也不断提升。

今年年初我们已经能够将支持思维链(CoT)和推理能力的模型完全部署在端侧。

同时,端侧模型所支持的上下文长度也在显著增长——从两年前端侧仅能处理1K到2K的上下文,到去年已提升至4K,而今年则已能够支持8K到16K的典型用例在端侧进行部署。

事实上,就像我们在今年9月的骁龙峰会上展示的那样,在某些特殊场景下,已经可以实现128K上下文窗口的端侧大模型部署。

从模态的角度来看,终端侧AI也呈现出从单一的文字模态,向支持文本、图片、视频、音频、语音等多模态,甚至全模态演进的趋势。

再来看一下在端侧运行AI的优势,以及所面临的挑战。

我们认为在终端侧运行大模型或AI,最大的好处之一是个性化——

数据的产生都在终端侧,在距离数据产生最近的地方做推理,是自然而然的事情,同时也非常有利于保护用户的隐私和安全。

和云端相比,端侧还具备两个优势,一是完全免费,二是无需任何网络连接。

那么挑战有哪些呢?在这里我想着重分享两点。

首先是内存限制,终端侧有限的内存大小限制了可运行模型参数量的大小,从而约束了终端侧模型的能力上限。

其次是带宽限制,终端侧有限的带宽决定了AI的推理速度,因此会影响用户体验。

当然,在手机这类集成度非常高的终端去运行大语言模型,对能效控制也提出了极致要求,因为如果功耗过高,就容易触发设备的温控机制。

面对这些挑战,高通公司都有哪些技术储备和预研呢?

第一是量化和压缩。从8 bit、4 bit到今年实现的2 bit,通过更极致的量化压缩,我们使端侧能够支持的模型尺寸越来越大,其所占用的内存越来越小;

第二是在端侧带宽约束下,我们采用并行解码技术以提高大语言模型的token速率;

第三是通过先进的NPU,包括eNPU的架构和领先的异构计算系统,我们让端侧AI从以往的被动式服务向主动式、个性化的AI服务迈进。

接下来,我想就并行解码技术再进行展开讲解。

当前大语言模型大部分是基于自回归架构,它需要把所有的输入和权重全部加载到内存中,才能生成一个token。

从效率的角度来讲,这是非常不经济的行为。尤其是随着模型规模持续增大,token的生成速度会非常慢,进而导致时延增加、影响用户体验。

高通通过并行解码技术,先在端侧运行一个较小的草稿模型,一次性推理出多个token,然后将这校縪ken交予原始的、较大的模型进行校验。

因为草稿模型是基于原始大模型训练而来,在原始大模型上进行token验证时,能够保证较高的接受率,从而实现并行解码,达到提高端侧解码速度的目的。

从生成式AI向智能体AI演进

我们正处在从生成式AI向智能体AI演进的路径上。

从用例的角度来讲,生成式AI主要能支持关键的“单体”用例,比如实时翻译、文生图或者内容创作、摘要、续写等任务。

智能体AI是更复合、更复杂、更主动式的AI服务。

实现智能体AI需要许多基础模块,首先需要一个具有推理能力的大模型,它可以在端侧或者云上运行以理解用户意图;

在理解用户的意图和任务之后,智能体可以通过查询个人知识图谱等个人本地数据,生成个性化的任务编排;

最后,智能体还要通过调用本地或云上的API执行相应的任务。

下面可以看一个具体的智能体AI用例。

用户可以利用智能体发布微博,这个过程中首先要通过自然语言和智能体进行交互。

当智能体理解了用户“需要发布微博”的意图后,会打开微博APP,搜索需要发布的照片,同时根据用户过往的个人偏好给照片加滤镜,最终完成整个发布过程。

不仅如此,用户还可以通过自然语言交互监测回复,并进行相应操作,比如我特别喜欢某个评论时,可以去点赞或回复。

这个用例在今年9月的骁龙峰会上进行展示时,整个流程是全部运行在端侧的。

除了手机之外,高通的芯片也覆盖了丰富品类的产品,包括智能眼镜、PC、汽车、智能手表、IoT等产品,并且我们能够支持所有骁龙设备之间的智能互联。

大家可以想象一下,智能眼镜、智能手表等算力较小的设备,可以通过Wi-Fi或者蓝牙与手机、汽车连接,去共享它们之间的本地数据,将大模型推理从较小设备中转移到手机、PC甚至汽车等算力较大的设备上,实现分布式的个性化大模型推理。

最后,我们相信AI体验在未来会向混合AI的方向发展。

也就是说,在终端侧运行垂类的、比较高效的模型,提供更好的、更安全的个性化AI服务;在云端,运行更大尺寸的模型,提供能力更强、更通用、更极致的AI服务。

高通公司也将凭借低时延、高速且安全的连接技术,确保混合AI场景下的端云协同和端云连接。


    24小时新闻排行榜更多>>
  1. 胡春华失察万科案或被查 再缺席会议 马兴瑞“官宣”落马?!
  2. 世界杯官方票价震惊球迷 国际足联被指榨干粉丝
  3. 泽连斯基突然现身库皮扬斯克 此前俄称已控制该地
  4. 甲骨文暴跌,重燃AI泡沫论
  5. 走出军队大院 红二代亲述人生二大转折
  6. 这5种炎症拖着不管,会悄悄变成癌
  7. 电商女王被家暴“还要跟他睡”
  8. 【军事情报局】F-18强势进出委内瑞拉湾
  9. “老年斑”是身体在发信号 五宝养颜汤比护肤品更有效
  10. 消息:美特种部队拦截从中国运往伊朗货轮
  11. 川普要把“这4国”踢出欧盟?
  12. 查尔斯三世癌症治疗进展良好
  13. 三千亿美金巨资与四个“女强人”的一台大戏
  14. 父亲回应26岁青年学者任浙大博导:都靠他自己努力
  15. 不满军事规划?美南方司令被防长“突然被拔”内幕曝光
  16. 谋杀肝脏的五大杀手,再不看就晚了
  17. 长期不喝酒,身体或出现4变化
  18. 英伟达用重构生产力:别让主厨削土豆
  19. 高市早苗回击中共 都给我闭嘴 日本回来了
  20. 国资背景的浙金中心暴雷 投资者连日维权遭警察殴打
  21. 英国流感大爆发,医院比商场还拥挤
  22. 年终报道:中共重磅内讧的后效应
  23. 马斯克罕见敞开心扉 坦然信仰“创世主”深度访谈引发全球热议
  24. 五年飞升三年坠落,燕郊95后的断层人生
  25. 美气象预报员:拉尼娜现象将持续整个冬季
  26. 蓝白强推“反年改”年金提早破产全民买单
  27. 大灾难将有三件大事?人心竟是阻止的关键
  28. 胡锡进:要提振消费,第一老百姓得有钱 就业稳定
  29. 中共中央经济工作会议:推动投资止跌、扩大内需
  30. 海外华人出境被拦,当场要求销户
  31. 美国芯片巨头狂泻8%,中国资产、金银集体拉升
  32. 温家宝十年不拜毛泽东 暗流涌动
  33. 300万粉丝网红澳门COCO姐被禁言
  34. GPT-5.2来了:“专家级”复仇,牛马终于得救
  35. 明年7月起,欧盟各国将对中国小包裹征税
  36. 清淡水煮险送命?极端减肥 女网红胰坏死
  37. AI手机战火升级,OPPO打造“超级小布”
  38. “中国巴菲特”和门徒们的AI新江湖
  39. 日本为台湾挡刀 原来是因为感恩台湾311救助
  40. 美联储降息对你钱包的影响
  41. 【佳音时刻】李希露面 中南海内斗升级疑云未平
  42. 中国单身人群破3亿
  43. 欧盟官宣:对小包裹征收3欧元关税
  44. “近期失踪人数暴增”大陆博主:孩子大人都危险
  45. 劣迹网红“东北雨姐”“秀才”“猫一杯”等转世账号被关闭
  46. 【纪元焦点】美军开发移动精炼厂 重建锑供应链
  47. 从经济工作会议看见习近平治理的构造性悖论
  48. 退休,投资理财和其他
  49. 美近300斤重死刑犯提出请求 “最后的晚餐”该满足吗
  50. 从“情绪价值”到“情感经济”,我们忽略了什么?
  51. 王友群:习“军中大秘”钟绍军被秘密查办?
  52. 美乌又整新活:乌克兰须2027年前“插队”加入欧盟
  53. AI交易连遭打击,三大指数集体收跌
  54. 孩子为何能看懂“脸色”?
  55. 末日不是终点?原住民的末世预言
  56. 两位华裔工程师,靠一根线成为亿万富豪
  57. 洪秀柱痛批高市早苗
  58. 当厨房输给工厂:英国缘何成为“美食荒漠”?
  59. 2026年社保改革四大变化
  60. 美发布2025年中国人权报告 详述中共跨国镇压