杨植麟预告,Kimi K3要来了

2025-11-12 07:25:24 · chineseheadlinenews.com · 来源: 华尔街日报

最近AI圈又炸了!月之暗面的Kimi K2 Thinking模型一经发布,就让海外开发者社区彻底沸腾。

这款模型在Humanity's Last Exam、TAU-Bench等多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,而API调用价格远低于两者。

Hugging Face联合创始人Thomas Wolf直接惊呼:"这是又一次DeepSeek式的辉煌时刻吗?"

就在全球开发者热议之际,北京时间11月11日凌晨,当国内大部分人还在睡梦中时,月之暗面创始人杨植麟,以及联合创始人周昕宇、吴育昕,在Reddit社交媒体进行了一场长达数小时的AMA(Ask Me Anything)问答。

这也是三位联创首次共同露面,面对海外开发者的各种尖锐提问。

问答持续数小时,从460万美元训练成本传闻到K3何时发布,从开源策略到行业竞争,从技术路径到AGI时间表,杨植麟团队一口气回答了数十个问题。

460万美元传闻不实,真实成本难以量化

最受关注的问题莫过于传闻中的460万美元训练成本。面对这个让整个硅谷都震惊的数字,杨植麟直接回应:

"这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。"

这一回应打破了业界对K2 Thinking"超低成本"的猜测。尽管具体数字未公布,但从技术实现来看,该模型确实在成本控制上有所突破:

K2 Thinking采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍。

在硬件配置方面,杨植麟透露团队使用配备Infiniband的H800 GPU进行训练。"虽然不如美国的高端GPU,我们在数量上也不占优势,但我们把每张显卡的性能都榨取得淋漓尽致。"

据悉,K2 Thinking的API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5的四分之一,真正做到了性能与成本的完美平衡。

这种性价比优势,正在吸引越来越多的企业用户从闭源模型转向开源方案。

K2 Thinking过于“话痨”?专注Agent能力

面对众多开发者关于K2 Thinking"过于话唠"的质疑,团队给出了明确回应。

杨植麟表示:"当前版本中,我们更看重绝对性能而非token效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。"

这种设计理念反映了月之暗面的技术取舍:为了确保复杂任务的完成质量,可以适当牺牲token效率。K2 Thinking能够连续执行200-300次工具调用来解决复杂问题,在"思考-工具-思考-工具"的交替模式中保持稳定性。

开发过程中的最大挑战

在技术实现上,团队采用端到端智能体强化学习训练方式,使模型在数百个步骤的工具调用以及包括检索在内的中间步骤中表现更佳。这种训练方式的核心是让AI模仿人类解决问题的过程,在反复迭代中逐步接近最优解。

月之暗面联合创始人吴育昕在回答中透露,支持交错的"思考-工具-思考-工具"模式是开发过程中的主要挑战之一,"这在LLM中是一种相对较新的行为,需要大量工作才能正确实现。"

K3什么时候发布?

当有网友问及K3的发布时间时,杨植麟给出了一个颇具幽默感的回答:

"在Sam(山姆·奥特曼)的万亿级数据中心建成之前。"

有人调侃:“所以,永远等不到了,反正他永远也搞不定那个烂尾工程?开个玩笑啦~”

为什么先推纯文本模型?

对于多模态能力的发展,杨植麟表示:"训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。"

AGI有那个范儿了

在开源动机方面,杨植麟给出了颇具理想主义色彩的回答:"我们拥抱开源,因为我们相信AGI应该是一种导致团结而不是分裂的追求。"

K2 Thinking采用Modified MIT许可证,在保留标准MIT许可证大部分自由的基础上,添加了一项关键限制:当模型被用于超过一亿月活用户或2000万美元月收入的商业产品时,需要注明使用了Kimi K2模型。

当被问及AGI时间线时,杨植麟给出了相对谨慎的回答:"AGI这件事很难定义,但大家已经能感觉到那个范儿了,未来会有更多更强大的模型。"

是否会发布更大规模闭源模型?

对于是否会发布更大规模闭源模型的问题,杨植麟给出了一个耐人寻味的回答:"如果它变得太危险的话:)"

这既暗示了对模型安全性的考虑,也为未来的商业化策略留下了想象空间。

当前,K2 Thinking在发布后不到48小时内下载量已超过5万,成为Hugging Face最热门的开源模型。

与DeepSeek的技术路径分歧:OCR和KDA

面对不同技术路线的选择,月之暗面团队展现出了明确的技术偏好。对于DeepSeek近期备受关注的OCR路线,周昕宇表达了不同看法:

"我个人觉得这条路走得有点重了,我更倾向于继续在特征空间里下功夫,去找到更通用、并且与具体模态无关的方法,来提升模型效率。"

在未来发展方向上,团队透露KDA是他们最新的实验性架构,相关理念很可能会应用于K3中。KDA采用3:1的比例将KDA和MLA路线混合,在传统Transformer基础上让模型学会"抓重点信息",在性能、速度、显存占用方面实现优化。

杨植麟表示,团队已内部试验Kimi Linear新结构(架构的核心是KDA,一种表达能力更强的线性注意力模块),初步结果看起来有前景,并可进一步与稀疏化技术组合。


    24小时新闻排行榜更多>>
  1. 惊人画面!四川“红旗桥”轰然崩垮 合龙1月才竣工
  2. 美移民局推“国土卫士”招聘计划 申请破纪录
  3. 四川阿坝州红旗特大桥垮塌 腾起巨大烟尘
  4. 被问解放军攻台支持哪一方?薄毕瓜如此回应
  5. 中国003型航空母舰,将进入量产阶段
  6. 四川红旗桥垮塌:视频曝光 官方:山泥倾泻造成
  7. 分析:中国通缩迈入第三年 或已陷通缩螺旋
  8. 曝北京向这类公民征税
  9. 日本朝野一致谴责中国总领事薛剑 呼吁驱逐出境
  10. 内地“暴走团”杀入香港!沿路播大声音乐 途人侧目
  11. 百度发售AI眼镜:价格便宜 有各种AI黑科技颠覆想象
  12. 两派交织“绞索收紧” 马兴瑞高危、彭丽媛不安
  13. 不只换器官还换血?李连杰等明星回春的惊人秘密
  14. 四川大桥突坍塌场面骇人 完工至今仅10个月
  15. 就算MAGA“怀疑人生”,川普坚称需要60万中国学生
  16. 贝森特:两年摆脱稀土依赖 中国:想法天真属空谈
  17. 佩洛西即将退休 她女儿宣布竞选加州参议员
  18. 中国控美国以“国家级黑客”盗陈志比特币
  19. WSJ:中国正酝酿一项计划 阻止美军获取稀土磁铁
  20. 川普发红包 停摆期间坚守岗位 航管人员奖金每人1万
  21. 普京怎么了?右手诡异肿胀、血管爆起
  22. 逻辑推理:包养李春平的好莱坞女星究竟是谁?
  23. 全面替代,英伟达幻灭
  24. 妈妈去世 西安8岁女孩寒冬穿拖鞋流浪
  25. 曼哈顿地铁女子被撞身亡
  26. 风暴明日或登陆南加州
  27. 巴基斯坦首都发生恐攻:12死27伤
  28. 指明了方向?比利时组建“川普党”:他是终极象徵
  29. 武契奇:欧洲与俄罗斯必有一战
  30. 四五线城市抢着办演唱会,“县城中产”还买单吗?
  31. 少子化阴霾下:“卡”在体面线上的临聘教师
  32. 川普周三将在白宫宴请华尔街高层
  33. 男子凌晨吊挂高压电杆支架
  34. 为偿债 深铁集团再向万科“输血”16亿
  35. “双十一”行销套路重重 消费热情降温
  36. 中共官方通报云南“野人小孩”事件 网民质疑
  37. 全球空调需求到2050年恐为目前3倍
  38. 为何听到"农民可以拥有土地所有权",就感到义愤填膺?
  39. 江苏交警骑摩托表演撞飞儿童 无视伤者引批评
  40. 德国:不存在将维族人遣返中国的禁令
  41. 中共毛式“软杀”阴冷可怕 政治替罪羊刘少奇
  42. 北京审查压力蔓延至海外,纽约独立电影节被迫取消
  43. 白宫:经济增长率明年初将恢复到3%~4%
  44. 党内第一人刘少奇怎么就被活活整死了?
  45. 短剧出海3年变天:80%亏损,玩家赔钱赚吆喝?
  46. 小小冷却液,是如何重伤1700亿的电动车巨兽?
  47. 川普:希望两年内引进60万中国留学生
  48. 川普这波操作 猛捧中国怼盟友 连MAGA都看不下去了
  49. 日本国宝级演员仲代达矢去世 曾演"七武士" "乱"等经典
  50. 山西一发电厂征地建厂 供热承诺落空 村民抗议
  51. 川习会后,中国发新规全面防范制毒物资流出
  52. “小野人”风波:男童已习惯穿衣服 父母未参与邪教
  53. 退伍军人节 川普现身阿灵顿国家公墓
  54. 川普不认性侵诽谤女作家败诉 要求最高法院重审
  55. Burger King汉堡王3.5亿美元出售中国业务
  56. 日本政界大佬:高市首相极其危险
  57. 市府公布单户和双户家庭公寓地下室合法化新规
  58. 中共又推民间投资新规 分析:无人上当
  59. 打“第三者”耳光后,时隔8年原配再被刑拘
  60. 历时超3年,跨境网赌大佬佘智江将被引渡回中国