小成本DeepSeek和Kimi,令奥特曼破防

2025-11-09 11:25:11 · chineseheadlinenews.com · 来源: 新智元

2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写,二者以数百万美元成本、开源权重,凭MoE与MuonClip等优化,在SWE-Bench与BrowseComp等基准追平或超越GPT-5,并以更低API价格与本地部署撬动市场预期,促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。

2025年以前,AI界盛行着一种信念:只有闭源、巨额投入和疯狂堆算力才能打造最强大的模型。

OpenAI作为这一思路的旗手,不仅将模型训练秘而不宣,更与合作伙伴绘制了高达1.4万亿美元的基础设施蓝图。

八年内烧掉1.4万亿美元来构建数据中心,被视作确保领先的唯一途径。

在这种思维下,OpenAI旗舰模型的研发成本节节攀升:据报道,训练GPT-4就花费了约1亿美元。

闭源+重资本模式一度令人信服,OpenAI因此获得了天价估值和汹涌资本支持。

然而,这一“用钱砸出智能”的神话,正随着一系列意料之外的挑战而动摇。

信念的第一次动摇

DeepSeek-R1横空出世

今年年初,一家彼时名不见经传的中国初创公司深度求索掀起了巨浪。

它发布的DeepSeek-R1模型不仅开源,而且号称性能可与OpenAI顶级模型比肩。

更令人瞠目的是,DeepSeek宣称训练这款模型只花了约560万美元,连旧金山一套像样的房子都买不起。

这个成本数字相比业内普遍认为的“烧钱”级别相差悬殊,仅为Meta开发Llama模型成本的约十分之一。

事实证明,这并非夸夸其谈。

DeepSeek-R1发布后一周内,DeepSeek App下载量迅猛攀升,一举超越ChatGPT,登顶美国苹果App Store免费榜。

一款开源AI应用在美国用户中的受欢迎程度超过了OpenAI的王牌产品,这一幕令业界震惊。

DeepSeek以微薄成本实现高性能,直接质疑了开发AI必须投入天量资金和算力的传统观念。

华尔街对此反应剧烈,微软和谷歌股价应声下挫,而AI芯片巨头英伟达的市值甚至蒸发了约17%,相当于约6000亿美元。

资本市场用脚投票,开始重新审视AI赛道的投入产出模型:烧钱打造封闭模型的路线,或许并非高枕无忧的康庄大道。

开源低成本路线的核弹

Kimi K2 Thinking震撼登场

DeepSeek年初点燃的星星之火尚未平息,中国另一家初创公司月之暗面在年末投下了一枚震撼弹。

本周,月之暗面发布了最新的开源巨模型Kimi K2 Thinking(以下简称K2 Thinking),以开源身份在多个关键基准上追平甚至超越了OpenAI的旗舰GPT-5。

要知道,GPT-5可是闭源巨头最先进的成果之一,而K2 Thinking仅用几百万美元训练,却在高难度推理和编码测试上正面较量并拔得头筹。

K2 Thinking在综合编程挑战“SWE-Bench Verified”上取得了71.3%的通过率,略高于GPT-5的成绩,甚至在复杂网页搜索推理任务BrowseComp上,以60.2%对54.9%的得分大幅领先GPT-5。

这些数字宣示了一个历史拐点:开源模型与顶级闭源模型之间性能鸿沟的实质性塌陷。

K2 Thinking的问世标志着开源免费模型在高端推理和编码能力上与封闭系统平起平坐,这一点在过去几乎难以想象。

而实现这一壮举,月之暗面投入的算力成本据传约为460万美元,比起OpenAI宏图中的万亿投入,几乎可忽略不计。

一边是几百万美元造就的开放奇迹,另一边是幻想烧钱万亿的巨无霸帝国,鲜明对比令人不禁怀疑:AI行业过去坚持的大投入逻辑,难道真的站不住脚了?

技术路径的胜利

巧用架构胜过砸钱堆料

K2 Thinking并非魔法横空出世,而是技术路线差异带来的成本逆袭。

传统的GPT-5这类闭源模型采用的是“通用大脑”式架构,每个参数对每个输入都会发动运算,因而模型越大推理开销越惊人。

K2 Thinking则采用混合专家架构,将庞大模型划分为384个专长各异的专家模块。

每次仅有8个专家(外加1个通用专家)被激活参与计算,相当于只动用320亿参数来解决特定问题。

换言之,K2-Thinking拥有一个“万智百宝箱”,每个token只调用其中不到3.5%的智力,却能享受近似万亿参数的知识储备。

这一架构设计让K2 Thinking在推理时既聪明又节省:“大而不笨重”。

架构优化带来的成本效率提升达百倍之多,令人叹为观止。

更关键的是,月之暗面研发了名为“MuonClip”的自定义优化器,在训练过程中自动稳压梯度,成功杜绝了超大模型常见的梯度爆炸和损失发散问题。

Kimi-K2在长达15.5万亿token的训练中实现了“零训练崩溃”,无需人为中途干预重启,这意味着即使资金设备相对有限的团队也能可靠地训练超大模型。

DeepSeek也在工程上强调“强化学习后训练”等高效策略,使得小团队得以攀登AI高峰。

这些技术路径上的创新,等于是用聪明才智破解了过去只有砸钱才能解决的难题。

曾经只有巨头烧钱才能铺就的康庄大道,如今民间高手另辟蹊径,用技术巧思抄了近路。

开源风暴的经济学冲击

当技术壁垒被攻克,开源路线在经济层面的优势便愈发凸显。

K2 Thinking的模型权重可在相应许可证条款下自由下载部署。

这与OpenAI等闭源模式形成鲜明对比,它们的模型被封藏于云端,只能通过昂贵API租用它们的大脑。

以K2 Thinking为例,其官方提供的API价格是每百万输入token收费4元(命中缓存时更低至1元)、输出token16元。

相比之下,OpenAI的GPT-5 API价格约为每百万输入token收1.25美元(约9元),输出token高达10美元(约71元)。

换算下来,同样百万token的处理,K2 Thinking的费用仅为GPT-5的十分之一不到。

对开发者和企业而言,这无疑极具诱惑力,更何况K2完全可以本地部署,不愿付API费的话,大可以自建服务。

正因如此,我们已看到市场正在迅速响应:越来越多AI工具和平台开始集成K2 Thinking模型,许多开发者在社区分享如何用K2 Thinking微调自定义应用。

DeepSeek-R1发布后,其MIT开源权重更是被无数开源社区下载、魔改,用于各种插件和研究项目。

甚至政府机构和大型企业也开始重新考虑,与其斥资购买封闭模型的算力配额,不如采用开源模型作为基础,掌控自主可控的AI能力——尤其当这些开源模型已经足够好且成本低廉。

这种用脚投票的风向转变,不仅出现在技术圈,更在资本圈引发连锁反应:OpenAI此前天价的数据中心投资承诺,正面对质疑和压力。

OpenAI高管甚至在公共场合暗示需要政府贷款支持,事后又忙不迭出来“灭火”澄清不寻求政府背书,以平息外界对其烧钱计划的担忧。

当巨头为融资“续命”四处游说时,开源对手们正用实际成绩证明,也许根本不需要那么多钱,也能把事情办成。

行业叙事的改写与泡沫的冷却

DeepSeek和Kimi K2 Thinking带来的并非单纯的“追赶”,而更像是一场对旧路线的证伪。

过去,封闭巨头们的护城河建立在一种假设之上:只有不断投入数量级增长的资金和算力,才能保持模型性能的领先。

这一假设曾让OpenAI们在资本市场上如日中天,甚至形成了某种估值泡沫,AI公司和底层芯片厂商的价值被无限推高,因为所有人相信烧钱会带来奇迹。

然而当开源挑战者以区区百万量级美元达到同类水准,这个故事的结局便不再那么线性。

事实证明,“性能领先的最后20%”或许并非大多数用户真正需要的,尤其如果为此要付出十倍乃至百倍的价格。

从普通消费者到中小企业,更青睐的是“够用+便宜”的实惠。

OpenAI等公司无疑依然握有行业顶尖的研究人才和技术积累,但他们再难宣称自己的路线是“唯一正确且必不可少”的。

行业叙事正在转向:与其痴迷于砸钱堆出更大模型,不如在架构创新和工程稳定性上下功夫,以换取成本效率和开放生态。

投资者也日趋清醒,过去见谁谈AI就砸钱的狂热减退了许多,现在更关注实际效能和商业可行性。

最危险的对手,不是那个跟你拼烧钱的人,而是那个证明根本不需要烧那么多钱的人。


    24小时新闻排行榜更多>>
  1. 吴亦凡惊传在狱中死亡 北京官方封口中!
  2. 内蒙古禁飞区惊现蝴蝶状不明飞行物
  3. 美股崩盘恐迎血洗修正?专家曝"最神准指标",预警跌幅16%
  4. BBC:中国官媒罕有揭示严打诈骗活动内幕
  5. 加拿大最惨流感季:今年疫苗不匹配
  6. 夜店也能领证?中国结婚率迎来反弹
  7. 战狼失控 中共外交官威胁斩首日本女首相
  8. 伊朗货币“去掉4个零”计划,获批
  9. 报告:中资如何乔装美企 取得技术与资金
  10. 安世半导体事件发酵,荷兰人自己都看不下去了?
  11. 欧洲多国喊话:美国赶紧“还钱”!
  12. 西安书记方红卫落马 传涉习远平利益网
  13. 美国产稀土磁铁出炉 25年来首次
  14. “密使一号”欲以邪术夺台 国防部参谋次长吴石
  15. 京东第一辆车,价格定了
  16. 官员伪造公章并重婚获刑
  17. 美国红杉资本“掌门人”突遭罢免!华裔大佬上位
  18. 日本民宿变卖淫场所 专做中国游客 性工作者赞“豪爽”
  19. 痛风发作前有征兆 尿酸不高也会中标
  20. 军方高喊过紧日子藏心思 德媒:中共或想攻打台湾
  21. 打赢“选区重划”公投战 纽森角逐总统大位行情看涨
  22. 美农业部要求各州停止全额发放SNAP福利金
  23. 蒂尔警告共和党:指责曼达尼=政治自杀
  24. 匪夷所思!柄土安全部长买了10架“没发动机的飞机”
  25. 郭俊辰被折磨20至48小时后遭活埋!博物馆地下室囚禁48人或包括陈都灵!
  26. 一年23轮融资,AI眼镜引爆资本市场
  27. “初代网红”凤姐纽约谈反共心路
  28. “50年房贷”引爆关注:川普政府为年轻人买房出新招
  29. 川普:用关税给美国人分红 每人至少2000
  30. 科技股估值超过Mag 7
  31. 中产阶级难负担的8件事在10年前可轻松应对
  32. 俄赴华旅游人数升至13年来最高水平
  33. 黄明志涉谋杀扯上于朦胧?毁形象比杀人更干净
  34. 哥伦比亚总统警告川普:莫唤醒美洲豹
  35. 商品涨价行情对A股市场有何影响?
  36. 中国结婚率反弹:夜店玩嗨直接领证
  37. 【翻墙必看】药企连轴转生产 对付中国流感
  38. 宣战?中国驻大阪总领事贴文“要砍高市早苗的头”
  39. 男子去体检,发现左肺不见了
  40. “胖改”17个月,永辉超市还没上岸
  41. 中国10月通胀意外回升
  42. 中南海被乌鸦包围 英灵媒预言11月中国爆发政变
  43. 山东威海海域商船与渔船碰撞 致8人失联
  44. 超强台风凤凰逼近 菲律宾近百万人紧急撤离
  45. 中国政协非换届年,10名高官集中去职
  46. 因“猎狐行动”案被定罪 前纽约警官获川普特赦
  47. 中国卫星把台湾看光光 国台办:这是“家的俯瞰”
  48. 干净世界首播 神韵2025中秋舞蹈技巧表演
  49. 身背递解令 华人男女“远程诈骗”玩脱了 被ICE当场带走
  50. 萧美琴欧议会演讲 专家:台湾外交重大突破
  51. “计算镜头”实现全景画面清晰成像
  52. “高雅人士”企鹅表情包,什么来头?
  53. 毛泽东晚年需要邓小平 虽然嘴上不承认
  54. 中国进口原研药退市潮:民众质疑国产药品质
  55. 刘嘉玲曝:刘德华住酒店,16岁粉丝躲床底一天
  56. 英媒:他赌赢了 有望成为下一届民主党总统候选人
  57. 中国人去不得!信息茧房之外的真实俄罗斯
  58. 晚清的中国人,是怎么看待“波兰亡国”这事的?
  59. 政府停摆 上千航班取消 川普又回海湖庄园狂欢
  60. 曼达尼的崛起,华尔街大佬彼得·蒂尔邮件泄密