DeepSeek新技术移植苹果芯片

2026-07-03 06:25:22 · chineseheadlinenews.com · 来源: 量子位

DeepSeek开源DSpark仅一周,工程师Abdur Rahim便推出首个苹果芯片原生版本mlx-dspark。在M4 Pro上,该版本通过投机解码与MLX框架重构,成功将Gemma-4和Qwen3模型的生成速度分别提升1.6倍和1.4倍。

DSpark刚开源一周,就被搬进了苹果电脑。

移植版本叫mlx-dspark,跑的是Gemma-4 12B和Qwen3-4B这两个模型。

装上之后,这两个模型在Mac上的生成速度分别提了1.6倍和1.4倍。

更难的是,它做到了大多数移植版本做不到的一件事——输出和原模型逐字节相同,一个字都不差。

也就是说,速度换来了,质量一点没丢。

动手的人是Abdur Rahim,业余时间捣鼓开源项目的一个工程师,DSpark开源以来的第一个Mac原生版本,都是他一个人做出来的。

苹果电脑跑大模型,提速60%

针对DeepSeek在6月27日开源的DSpark,官方给出的数字是服务端场景下能提速60%到85%。

不过这套技术当时只有数据中心GPU上的实现,没有适配苹果芯片的版本。

mlx-dspark是这套技术的第一个苹果芯片原生版本。

DSpark的思路是配一个更小的模型给目标模型打下手,小模型先一口气蹦出几个候选词,目标模型再一次性核对,对的收下,错的打回去重猜。

这一步的成本,在数据中心和苹果电脑上不一样。

在数据中心的GPU上,核对一批候选词更像包车,坐几个人都是一口价,解码本来就是内存瓶颈,多核对几个词几乎不多花时间。

苹果芯片更像打表的出租车,核对的候选词越多,表跳得越多。

Rahim实测过,Gemma-4 12B每多核对一个token,要多花约14毫秒。他把这套账算成了一个成本模型,得出的结论是,苹果芯片上的速度天花板在2.2倍左右。

总之,Rahim把这个打下手的小模型从HuggingFace的checkpoint里搬了过来,分别配给Gemma-4 12B和Qwen3-4B这两个目标模型使用。

他还把核对流程在MLX框架里重新搭了一遍,权重量化成4-bit。

结果,在M4 Pro上,对比苹果官方的MLX工具,Gemma-4 12B的生成速度从18.4tok/s涨到约30tok/s,是原来的约1.6倍;Qwen3-4B从52.9tok/s涨到约73tok/s,是原来的约1.4倍。

另外,在mlx-dspark里,Rahim还做了一件大多数移植工作没做的事。

移植版本,也能高精度还原

多数把大模型搬到本地的版本,只支持贪婪解码,也就是每一步都挑概率最高的那个词。

Rahim在mlx-dspark里,把DSpark论文里原本描述的温度采样方法也实现了出来,草稿模型给出候选词,接受概率是min(1, p/q),没通过的部分从残差重新采样。

他自己核对过,这套流程跑出来的输出,严格等于目标模型在同样温度下会给出的那个精确分布,不是打了折扣的近似版本。

多数投机解码只做贪婪版本,是因为验证贪婪模式的正确性很简单,逐字比对就行。

Rahim多做的这一步,是自己把采样模式下跑出来的输出分布核对了一遍,确认没有走样。

负责核对的目标模型该配哪个精度,是他自己试出来的一个坑。

如果小模型配的是没经过指令微调的基础版目标模型,蹦出的候选词只有47%能通过核对;换成对应的指令微调版本,这个比例涨到82%。

他还测过把目标模型换成bf16精度,核对成本涨得比通过率涨得多,反而更慢,所以目标模型默认留在8-bit上最划算。

负责打前站蹦候选词的小模型,用的是另一套精度。

草稿模型本身被他做了压缩,4-bit量化之后只有1.8GB,装进内存毫无压力,跑起来还是无损。

结果就是,DSpark不仅实现了加速,也确实把论文里提到的16%到18%接受率提升,在设备端复现了出来。

DFlash也接了进来,代码任务更快

推文发出后,评论区来了一条留言,DFlash论文的作者之一Jian Chen问,能不能试试他们团队的模型。

DFlash是z-lab今年5月发的论文里提出的另一种投机解码方案,作者团队带头人Zhijian Liu,UCSD助理教授,同时是NVIDIA的研究科学家。

DFlash的思路和DSpark不太一样,它用一次并行的“块扩散”去噪一整块16个token,而不是像DSpark那样一步步带着依赖关系去猜。

Rahim迅速动手。

他用Jian自己写的移植脚本,把z-lab发布的gemma4-12B-it-DFlash接到mlx-vlm的Gemma-4目标模型上,在同一台Mac上,跟自己刚测完的DSpark又跑了一轮头对头对比。

代码和数学任务上,DFlash整块解码的接受长度能到5.95到6.20,速度约36tok/s,达到约2.1倍,跑赢了DSpark。

但是,DFlash一次要蹦出一整块16个token,而但目标模型未必全部认可,实际能通过核对的只是其中一部分,业内管这个叫“接受长度”,不是每次都能把16个全填满。

所以在开放聊天这种内容不好预测的场景里,接受长度上不去,块填不满,DFlash的优势发挥不出来。

DSpark的Markov头正是为了对付同一个毛病存在的,并行蹦出一整块词,越往后的位置是各自独立算出来的,容易互相不搭调,Markov头给这些位置之间加了一层依赖关系,专门纠正这个问题。

结果就是,在聊天场景里,DSpark反而比DFlash更快。

而后更新的mlx-dspark v0.0.3,正式把z-lab原版DFlash接入了包里,还加了一个参数,可以手动把DFlash的有效块长度调短,聊天场景用短块,代码和数学场景仍然用满16的整块。

这之后,同一台Mac、同一个包,就能同时完成聊天和代码、数学类的任务,不用再在DSpark和DFlash两个项目之间来回搬了。

Rahim在推文里说,同样的方法,用在更大的Qwen3-8B和14B草稿模型上应该也能跑通。


    24小时新闻排行榜更多>>
  1. 池子:被北京封杀的脱口秀演员 在海外回到舞台
  2. 中共党庆两中将与上将同排坐 仕途或晋升 军委名单预测
  3. 高市早苗访问印度:靠烧牛粪“对抗中国”
  4. 花100多万,赌一个香港本科?
  5. 年薪200万的黄金志愿,不在985
  6. 女子凌晨坠崖卡在崖缝,4小时后获救
  7. 习近平给301高干病房集体“拔管” 网友:建议都去静坐示威
  8. 中国小伙娶挪威媳妇,生不出孩子?
  9. 2026世界杯观赛笔记
  10. 美中钨矿争夺战:这座韩国矿山能否重构供应链?
  11. 华国锋晚年透露的诸多秘密
  12. 火星旧照“惊见外星人手枪”?UFO专家:NASA早知情
  13. Brampton枪击案揭露“勒索团伙”内幕
  14. 并非自杀而是被害?西安赛格商户坠亡惊悚内幕曝光
  15. 台陆配曝光“秘密任务”真实不虚 从此不敢回国
  16. 世界杯:西班牙3-0奥地利晋级16强 奥亚萨瓦尔双响
  17. “崩老头”之后 “崩阿姨”悄然兴起 有人卖陪伴 有人赌真爱
  18. 美国6月非农数据远低于市场预期 股市大跌
  19. 国台办批谷立言“上蹿下跳”遭学者炮轰只会狗吠火车
  20. 吴建豪再婚 现任老婆是日本女星 跨国美女+高知学霸
  21. 芯片业又爆重大考验
  22. 中国抄底黄金,单月692吨黄金运抵回国
  23. 习近平精神衰竭了 中共央视暴露绝密
  24. iPhone 18工程文件遭泄密
  25. 多伦多集会抗议中共《民族团结法》生效 美欧关切
  26. 外国人被台湾农民“拿刀逼吃芒果”!台湾味引发热议
  27. 多族裔洛杉矶集会 抗议中共新法升级迫害
  28. 北京通报飞机撞击“中国尊”事件,称飞行员曾有轻生念头
  29. 吃面喜欢加醋的人 后来身体怎么样了?
  30. 美庆祝250岁生日,领导人谈立国原则
  31. 快手可灵AI投后估值达到180亿美元
  32. 大摩:原厂>模组厂,DRAM>NAND
  33. “上海地震了吗?”成为社交平台热词
  34. 谷立言遭批“上蹿下跳” 学者炮轰:国台办只会狗吠火车
  35. 泰勒斯威夫特婚礼流程曝光 为何选址这里?
  36. 哈梅内伊遗体告别仪式,伊革命卫队总司令现身
  37. 川普“空中宫殿”首飞
  38. “DeepSeek时刻”?中国AI模型 逼近美国顶尖产品
  39. 英国一女性游印度3个月 脑中竟藏38只寄生虫
  40. 国庆将迎200万旅客,LAX吁早报到
  41. 5天拘留逾万人!ICE全美悄然开启“低调大扫荡”
  42. 长城汽车加速进军欧洲市场
  43. 登顶帝国大夏求婚 俄罗斯这对“亡命鸳鸯”犯众怒
  44. 美国破获严重虐童案:16人获救 父母祖父母遭逮
  45. 吃不起龙虾牛排?美议员:他们跟我一样认真工作?
  46. 梵蒂冈怒祭最严厉“绝罚”
  47. 南极冰川“流血”流的不是血!科学家揭真相
  48. 美国拒绝延长《美墨加协定》
  49. 法国南部野火,当局动用直升机灭火
  50. 伊朗革命卫队总指挥官战后首度露面
  51. 婚内强行性行为,男子被羁押15个月
  52. 川普笑谈“我是老大” 习近平梦做全球“一尊”
  53. 美联储向川普“宣战”,话音刚落,华尔街砸盘
  54. 纽森反对加州富豪税 却呼吁征联邦富豪税
  55. 中国百年国运大倒退 从中共七一建党说起
  56. 香港名媛道歉:绝无丑化或炒作意图
  57. 证监会就再融资改革征求意见
  58. 辉达AI服务器走私中国案 青云总经理、美超微2人遭收押
  59. 半导体走私中国 美国超微两名高管在台湾被逮捕
  60. 国庆日长周末,80号公路将严重堵塞