DeepSeek塞进苹果本儿,实现“龙虾自由”

2026-05-10 07:25:20 · chineseheadlinenews.com · 来源: 字母AI

在agent时代最贵的是什么?是token。

一些重度agent使用者,一个月用掉几亿token,账单小几万块钱也是常有的事。

然而现在开始,有这么一个开发者他开源了一个本地方案,一台苹果笔记本就能部署,也就是说,你从此实现了“龙虾自由”,跑再多任务,也不会再为token付出一分钱了。最关键的是,他用的还是DeeSeek V4 Falsh。

几天前,antirez在GitHub上发布了一个项目,叫ds4。

这是一个专门为DeepSeek V4 Flash写的推理引擎。一共几千行C代码,可以让DeepSeek V4 Flash这个模型在128G内存的苹果电脑上跑起来。

开发者antirez,本名Salvatore Sanfilippo,是意大利程序员,同时他也是开源数据库Redis的原作者。Redis后来成为全球互联网基础设施里最常用的内存数据库之一。

往好的方面去想,DeepSeek影响力足够大,吸引到了圈内顶流的程序员,但是坏的方面是,DeepSeek这回真的免费了。

任何开发者都可以用ds4,去把DeepSeek V4 Flash装进自己的MacBook Pro里,本地跑代码、本地读上下文、本地做agent任务,而这一切的一切,不需要给DeepSeek付1分钱。

虽然DeepSeek V4 Flash本身开源,可FP16精度的原始模型要吃掉284G内存,显存需求更是高达160G。

因此,想运行它,你至少得有两张英伟达A100 80GB、一条512GB DDR5 ECC内存,以及一个4TB NVMe SSD。总成本50万人民币。

而现在,一台3万块钱的MacBook Pro就能跑。

那antirez为什么偏偏选中DeepSeek V4 Flash呢?

原因是DeepSeek最适合被“塞进本地电脑”。

它有284B总参数,足够大;但每次推理只激活13B参数,又不像传统大模型那样沉重。

它支持100万token上下文,适合编程助手这种长任务;同时KV cache压缩得足够狠,给本地内存和SSD留下了操作空间。

DeepSeek V4 Flash刚好站在了这样一个神奇的平衡点上,既大到值得折腾,又小到能被塞进苹果笔记本里。

YC的CEO Garry Tan在X上转了这条消息,只打了一行字:正在下载……100万token上下文窗口,可用的编程助手能力,全在一台128GB的MacBook Pro上,太疯狂了。

ds4究竟是什么?

先说结论,ds4不是一个模型,它是一台“专用发动机”。DeepSeek V4 Flash是车,苹果电脑是路,ds4负责把这辆原本更适合跑在云端的大车,改到本地机器上能跑、能接API、还能被coding agent调用。

过去大家想在自己电脑上跑大模型,普遍用的都是llama.cpp这个工具。它的好处是什么模型都能跑,Llama、Qwen、DeepSeek全都支持。

可问题就是,什么都能跑,就意味着什么都跑不到最快。为了照顾所有模型,llama.cpp必须做很多妥协,性能上不可能做到极致。

antirez的想法正好相反,他才不管别的模型死活,他就专门伺候DeepSeek V4 Flash这一个,把它优化到极限。

他一共做了3件事。

第一件事,是不对称的2-bit量化。

DeepSeek V4 Flash的架构是MoE(Mixture of Experts),284B总参数里,每次推理只激活13B,这13B是路由挑出来的若干个专家子网络。

就像一个工具箱里有284把工具,每次只拿出13把来用。这284B里面,有一大堆“备选专家”占了90%以上的空间,但它们不是每次都用,只是候补。

antirez的做法是,只对这批routed experts做激进的2-bit量化,up和gate矩阵用IQ2_XXS,down矩阵用Q2_K,而模型里所有关键路径上的组件,包括shared experts、projections、routing网络,全部保持原始精度不动。

也就是说,antirez把这些“候补专家”狠狠压缩,压到只剩原来1/4的大小,但那些每次都要用的核心组件,一点都不动,保持原样。

这是一种不对称的压缩策略,砍掉体积大头,保住质量命脉。

第二件事,是把KV Cache搬到SSD上。

DeepSeek V4 Flash支持100万token的上下文,这相当于你可以把一整本小说扔给它,它能全记住。

但这么长的上下文,意味着AI在工作时要不停地回头翻看前面的内容。为了让这个“回头翻看”的动作不至于慢到卡死,AI需要把这些内容暂存在一个叫“缓存”的地方,方便随时调用。

以前的做法是把这个缓存放在内存里。内存速度快,AI每次生成一个字都要频繁查这个缓存,所以必须放内存。

但问题是,如果让128GB内存的MacBook Pro跑DeepSeek-V4 Flash,光缓存就能把内存吃光,模型本身都没地方放了。

所以antirez的做法是直接把缓存扔到硬盘(SSD)上。ds4把一部分KV状态做成可落盘、可恢复的缓存,让长提示词和agent反复续写时,不必每次从头处理。

这听起来有点离谱,因为硬盘比内存慢多了。

然而现代Mac SSD足够快,适合做KV缓存持久化和恢复。加上DeepSeek V4 Flash本身对缓存做过压缩,读写量不大,所以硬盘完全顶得住。

结果就是内存省出来了,100万token的超长对话真的在一台MacBook上跑起来了。

不过这不等于128GB MacBook可以毫无压力地把100万token全部拉满。

按照ds4自己的说明,2-bit模型本身已经要占掉大约80GB级别的内存,真正日常使用时,100k到300k上下文会更现实一点。

第三件事,是纯Metal原生路径。

antirez把所有优化都押在苹果电脑的GPU上。

因此他专门为苹果芯片写了一套代码,让DeepSeek V4 Flash能在苹果电脑上跑得飞快。

至于CPU,并不是这个项目的重点。README里也写得很直白,CPU模式目前还不稳定,甚至可能触发系统崩溃。antirez进一步表示,如果有人真想走这条路,后续大概还得靠社区来补救。

在M3 Max 128GB的MacBook Pro上,实测速度是每秒能生成26个字左右。M3 Ultra 512GB的Mac Studio上能跑到每秒36个字。

不算快,但写代码、调试这些日常工作完全够用。

更有意思的是,antirez是独自一人通过GPT-5.5完成的整个这个项目。

利好DeepSeek

根据外媒报道,DeepSeek目前正在寻求高达73.5亿美元的融资,梁文锋现在就处在这个关键的转折点上,用商业叙事取代DeepSeek过往的技术叙事。

那投资人看什么?不只是看模型跑分,不只是看API调用量,更看生态位和不可替代性。

一个海外知名开发大佬,愿意为你的模型写专用引擎,这本身就说明DeepSeek在海外有着一定的生态地位。

过去一年,中国开源模型的出海叙事里,主流衡量标准是benchmark,MMLU、HumanEval、SWE-bench,一串又一串的数字。

但有人愿意围绕你做二次工程,才代表你的模型被认可了。Anthropic用千问做实验,Cursor蒸馏Kimi,这种认可比分数更值钱。

antirez不是AI圈里那种什么新模型都要试一遍的博主

他选一个模型,然后还要花几周的时间去写专用推理引擎、做特制量化、搭HTTP服务层、做agent集成测试,显然是他认为DeepSeek值得。

这就变相等于,一个有信誉的第三方,在用自己的时间和名声给DeepSeek-V4背书。

说到国产模型出海,目前我能想到的路有两条。

一条是API被调用。你提供服务,别人付费使用,你是service provider,客户是consumer。

这条路很直接,也很现实,别人可以随时切换,你无时无刻都得对抗你的竞品,从性能到价格。

另一条是模型被改造。有人把你的权重拿走,做量化、做蒸馏、做专用runtime、做本地部署、做agent工具链。在这条路里,你的模型成了材料。

材料和服务的区别在于,材料会被嵌入到别人的工具链里,然后就很难被换掉了。

举个例子,某个开发者把ds4集成到自己的coding agent里,写了一堆配置文件、调试脚本、自动化流程。他的团队成员也都习惯了这套工具,公司的代码库里到处都是基于DeepSeek本地推理的调用。

这时候如果要换成别的模型,就不是“改个API key”那么简单了,而是要重新适配引擎、重写脚本、重新培训团队习惯。成本太高,大概率就不换了。

这就是“被嵌入”的粘性。

ds4把DeepSeek V4 Flash嵌进了Metal原生本地推理这个场景。截至发稿,Hugging Face上antirez那个deepseek-v4-gguf仓库,就已经有25000次下载了。

每一次下载,都意味着有人在自己的机器上跑起了DeepSeek,粘性也就这么一点一点的建立起来了。

更值得注意的是连锁效应。

Hacker News上有这样一条高赞评论,他说如果以后针对精确的GPU加模型组合构建超优化推理引擎会怎样?GPU越来越贵,抽象层去掉得越多,优化空间就越大。

这个方向一旦被验证,意味着每一代有分量的开源模型发布时,都会有人跳出来给它做专属引擎、专属量化、专属agent接入。

相当于是每一代模型都应该有一个自己的“antirez”,开发出一个自己的“ds4”。

DeepSeek V4 Flash正好踩在了这个起点上。

如果这套逻辑成立,那么后续每个V4 Flash的小版本迭代,都会天然地被嵌入到这个“一代模型配一个专用引擎”的循环里。

梁文锋成了第一个吃螃蟹的人。

DeepSeek也从一个模型品牌,变成海外开发者手里的基础设施材料。

对于现阶段的DeepSeek来说,这种“升维”非常重要。

焉知非福

讲完了利好,必须讲另一面。

目前来看,DeepSeek的核心商业化路径是API。开发者调用,按token付费,薄利多销。

这是DeepSeek最擅长的打法。

但ds4这种项目,本质上是在“劝退”一部分API用户。

你可以这么来理解,一个独立开发者或者小团队,过去用Claude Code或者DeepSeek的API跑coding agent。coding agent是高token消耗场景,长上下文、多轮对话、频繁工具调用、反复重试。

按token计费的话,一个重度agent的开发者每个月可能要花几千块钱的token费用。

然而现在他面前出现了另一个选项。

花几万块钱买一台128GB的MacBook Pro,然后跑ds4。

前期投入一次,之后推理没有边际成本,数据不出本地,延迟完全可控。

外网论坛上有个开发者分享了他的方法:日常写代码、改bug这些简单任务,全扔给本地的ds4跑,不花钱。只有遇到复杂的架构设计问题,才切换到云端的DeepSeek V4-Pro或者Claude Opus。

高token消耗的部分被本地化了,只有少量高价值调用还留在云端。

相当于一分钱没有给到DeepSeek,却在绝大多数时间都在使用DeepSeek。

同时,antirez采用的量化方法也是有“坑”的。

即使是不对称量化策略,只压MoE专家不压关键路径,也不可能完全没有质量损失。

外网论坛上已经有人发出了测试结果,ds4本地量化版本在超2000行代码的文件里偶尔丢失变量作用域,幻觉略多,MoE路由层对量化噪声尤其敏感。

这就引出了另一个更麻烦的问题,叫做体验解释权。

就像DeepSeek服务器崩了,我不知道是为什么崩的,我只会觉得是DeepSeek不行。

用户调用DeepSeek官方API,如果效果不好,他大概率会认为是DeepSeek自己的问题。但用户在本地跑ds4时,面对的是2-bit量化、Metal runtime、SSD KV cache、上下文截断、agent配置等一整套变量。

这里面任何一个环节出问题,最后往往被归因到“DeepSeek不行”。

别人帮你扩散模型,但他并不会帮你去维护口碑,主要是人家也没这义务。

更深一层看,“成为材料”和“成为平台”是完全不同的两件事,梁文锋更想要的是后者,可是ds4却让DeepSeek成为了前者。

材料只会被嵌入别人的工具链,不能为DeepSeek提供商业闭环,只有平台才掌握分发、计费、账户、数据、开发者关系和升级节奏。

DeepSeek如果只是提供权重,被antirez、Cursor、各种本地agent和第三方runtime拿去改造,它当然获得了名声。不过真正能留住用户的人,可能是那些工具链的开发者。

这就是开源模型的悖论。

模型越成功,越容易成为别人的底层能力;但底层能力如果没有抓住开发者的入口,就有可能被上层产品吃掉大部分商业价值。

所以ds4对DeepSeek不是简单的好消息,也不是坏消息。

可以肯定的是,对于DeepSeek来说,他们又有故事可以讲给投资人听了。


    24小时新闻排行榜更多>>
  1. 中国多名老人因免费领鸡蛋 被骗50余万元
  2. 李嘉诚儿子拿下世界杯转播权
  3. 大连一物业4天3名员工突发心梗、脑梗
  4. 森林北否认与汪峰分手
  5. 鲁比奥访意质问盟友:为何不支持美国对伊朗动武
  6. 老鼠、选票与科学:台北“安鼠之乱”背后的治理危机
  7. BBC调查:朝鲜为俄罗斯出战 阵亡了多少士兵?
  8. 爆汉坦病毒邮轮将抵西班牙 各国紧急应对
  9. 蔡文静直播哭着唱歌登上热搜
  10. 组图:庆祝法轮大法日 纽约学员集体炼功
  11. 女子上完厕所,吓得直接跑去医院
  12. 一天是288个小方块?马斯克恐怖的时间管理术
  13. 中共通过铁路援助伊朗 专家揭援伊真实目的
  14. 中国男子藏大量军火 泰国展开全面调查
  15. 前俄军中国籍士兵在德国庇护申请遭拒 或将被遣返
  16. 夏天这碗“祛湿汤”坚持喝 大肚腩小了!
  17. 这座小城才是中国吃鸭天花板
  18. 上海奉贤前副区长唐丽娜淫乱私生活细节曝光
  19. 萧敬腾考虑和妻子领养孩子
  20. 深圳男童吃生菜后全身血肿 检出钩虫感染
  21. 亲欧派就任匈牙利总理 终结“刺头”奥尔班16年统治
  22. 去海外建立新的生活 越来越多美国人选择离开美国
  23. 中国男子私藏大批军火 泰国以国安疑虑宣布彻查
  24. 伊朗蚊子舰队瘫痪海峡 不对称战法如何创造优势?
  25. 旧金山移民法庭被关,12万案件迁移
  26. 2026,国内市场迎来“百镜大战”
  27. 伊朗宣布:没收262处“叛国者”房产
  28. 脱离实际的报价遭冷遇,世界杯中国转播费腰斩
  29. Omega-3补充剂可能增加速部分人的大脑衰老
  30. 美AI企业恼火:白宫内部大乱斗,到底在搞什么?
  31. 汉他病毒零号病人身分确认
  32. 阿省独立公投有干预风险,这国威胁最大
  33. 每周2天走4000步,死亡风险降26%
  34. 减肥“吃得越无聊”瘦越多
  35. 美客机丹佛机场起飞过程中撞上行人 已致1死12伤
  36. 回国观察:致成都市长公开信 也写给我的袍泽乡亲
  37. 湖南烟花厂爆炸 厂区遍贴“符咒”引关注
  38. 德意志银行谈黄金、美元与货币未来
  39. Gardiner高速多车相撞
  40. 官方从未承认 民间却持续目击的巨大“黑豹”
  41. 跨越半世纪的战士:朱利安尼挺过死神威胁
  42. 原恒大总裁夏海钧广州豪宅挂牌拍卖 估值七千万
  43. 英派强大军舰 拟参与霍尔木兹海峡通航行动
  44. “传播路径异常”,张文宏最新发声
  45. 马尔代夫新手攻略:解锁海岛度假
  46. 人均百万奖金,韩国企业为啥要强制分红?
  47. 揭秘石狮子头顶上的那些秘密
  48. 青海省政法委书记何录春多名旧部被查
  49. 重庆公安局长突然死亡 官方称病死 专家质疑
  50. 爱泼斯坦兄长质疑公开"遗书"真实性,称可能系伪造
  51. “电线杆顶端趴个乌龟”视频疯传 帐号遭封
  52. 普京首表“接近止战”
  53. 大陆今年小龙虾上市早 但价格腰斩
  54. 美议员“痛心”:美国在中东烧钱,给中国送礼
  55. 我正在去巴勒斯坦,急需律师和使馆援助!
  56. 2男助北京监控异议份子!英警告:严重侵犯主权
  57. 大脑在出生时是空的还是满的?
  58. 以色列战前在伊拉克设军事基地
  59. 母亲节低俗广告博眼球,中国广告协会发声
  60. 川普不惜代价重开霍尔木兹海峡