DeepSeek元旦新论文要开启架构新篇章

2026-01-01 01:25:36 · chineseheadlinenews.com · 来源: 华尔街日报

DeepSeek提出了一种名为 mHC (流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。该架构通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。

简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。

这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。

传统的残差连接(即 Transformer 中的 x + F (x) 结构)凭借“恒等映射”保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C。

近期,以 Hyper-Connections (HC) 为代表的研究,通过扩展残差流宽度和多样化连接模式,拓展了过去十年中广泛应用的残差连接范式。

虽然这些方法带来了显著的性能提升,但但也带来了两个严重问题:

数值不稳定性: 原始的 HC 中,连接矩阵是自由学习的,没有约束。这导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练。

系统开销大: 通道变宽意味着显存读写 (I/O) 和通信成本成倍增加,也就是所谓的“显存墙”问题。

从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销。

为了解决这些挑战,DeepSeek 的研究团队提出了 Manifold-Constrained Hyper-Connections (mHC,流形约束超连接)。

这是一个通用框架,它将 HC 的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

它的核心目的是:在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题。

团队利用 Sinkhorn-Knopp 算法将残差连接矩阵投影到 Birkhoff 多胞形(双随机矩阵)上。这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性(能量守恒)。为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的 DualPipe 通信计算重叠策略。

实证表明,mHC 不仅解决了稳定性问题,且在大规模训练中(如 27B 模型)表现出卓越的可扩展性。在 n=4 的扩展倍率下,仅增加了 6.7% 的训练时间开销,却换来了显著的性能提升。mHC 为基础模型的拓扑架构演进指明了方向。

图 1:残差连接范式示意图。 本图对比了以下三种结构设计: (a) 标准残差连接(Residual Connection); (b) Hyper-Connections (HC); (c) 我们提出的 Manifold-Constrained Hyper-Connections (mHC)。与无约束的 HC 不同,mHC 专注于优化残差连接空间,通过将矩阵投影到受约束的流形上,以确保稳定性。

具体方法介绍

流形约束超连接 (mHC)

借鉴恒等映射(Identity Mapping)原则,mHC 的核心前提是将残差映射Hlres约束在一个特定的流形上。

虽然原始的恒等映射是通过强制执行Hlres=1来确保稳定性,但它能从根本上阻止残差流内部的信息交换,而这种交换对于最大化多流架构的潜力至关重要。

因此,该 DeepSeek 团队提出将残差映射投影到一个流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力(expressivity)。

为此,他们的做法是将Hlres限制为双拟随机矩阵(Doubly Stochastic Matrix),即具有非负项且行和与列和均为 1 的矩阵。

形式上,令Mres表示双拟随机矩阵的流形(也称为 Birkhoff 多胞形),再将Hlres约束在PMres (Hlres)中,定义为:

其中 1_n 表示全 1 的 n 维向量。

为什么选择双拟随机性?因为其具有多项有利于大规模训练的理论属性:

范数保持:其谱范数有界且不超过 1(即∥Hlres∥2≤1 ),这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题。

复合封闭性:双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性。

几何解释:该集合构成了 Birkhoff 多胞形,是排列矩阵集的凸包。这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用。

此外,该团队还对输入映射 Hlpre 和输出映射Hlpost施加了非负约束,以防止因正负系数复合导致的信号抵消。

参数化与流形投影

本节将详述 mHC 中各映射的计算过程。

给定第 l 层的输入隐藏矩阵 x_l,先将其展平为向量

以保留完整的上下文信息。然后,按照 HC 的原始公式获取动态映射和静态映射:

最终的约束映射通过以下方式获得:

DeepSeek 在实验中采用 t_max=20 次迭代。

高效基础设施设计

DeepSeek 还为 mHC 量身定制了基础设施设计,使其在 n=4 时在大模型中的训练开销仅增加 6.7%:

算子融合 (Kernel Fusion):

重新调整 RMSNorm 的顺序以提高效率,并采用混合精度策略。

开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销。

在单个算子中实现 Sinkhorn-Knopp 迭代及其自定义反向传播。将 Hlpost和 Hlpre的应用与残差合并融合,显著减少了内存读写量

重计算 (Recomputing):

为了减轻 n 流设计带来的内存压力,DeepSeek 在前向传播后丢弃 mHC 算子的中间激活,并在反向传播时即时重新计算。

通过推导得出最优重计算块大小 L_r^*,以最小化总内存占用。

DualPipe 中的通信重叠:

扩展了 DualPipe 调度算法,以改善流水线并行阶段边界处的通信与计算重叠在专用高优先级计算流上执行 MLP 层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率。

实验

实验设置

研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接(HC)以及提出的流形约束超连接(mHC)进行了对比分析。

他们采用了受 DeepSeek-V3 启发的 MoE 架构,训练了四种不同的模型变体,以覆盖不同的评估体系。

具体而言,HC 和 mHC 的扩展率 n 均设置为 4,主要关注点是一个 27B 参数规模的模型。其训练数据集的大小与其参数量成正比,该模型用于展示系统层面的主要结果。在此基础上,他们通过引入使用成比例数据训练的较小的 3B 和 9B 模型来分析计算扩展性,从而观察不同计算规模下的性能趋势。此外,为了专门研究 Token 规模的影响,他们另外训练了一个独立的 3B 模型,该模型在一个固定的 1T Token 的语料库上进行训练。

主要结果

图 5:流形约束超连接 (mHC) 的训练稳定性。 该图展示了:(a) mHC 和 HC 相对于基线模型的训练损失绝对差值;(b) 三种方法在训练过程中的梯度范数。所有实验均基于 27B 参数规模的模型。实验结果表明,mHC 在损失函数和梯度范数两方面均表现出更优的稳定性。

研究团队首先考察 27B 模型的训练稳定性和收敛性。如图 5 (a) 所示,mHC 有效缓解了在 HC 中观察到的训练不稳定问题,与基线模型相比,最终损失降低了 0.021。图 5 (b) 中的梯度范数分析进一步证实了这种稳定性的提升:mHC 表现出明显优于 HC 的行为,保持了与基线模型相当的稳定轮廓。

表 4:27B 模型在系统级基准测试上的结果。 本表对比了基线模型、HC 以及 mHC 在 8 个不同的下游基准测试中的零样本和少样本性能表现。结果显示,mHC 始终优于基线模型,并在大多数基准测试中超越了 HC,证明了其在大规模预训练中的有效性。

表 4 展示了在多种下游基准测试中的性能表现。mHC 带来了全面的提升,一致性地优于基线模型,并在大多数任务上超过了 HC。值得注意的是,与 HC 相比,mHC 进一步增强了模型的推理能力,在 BBH 和 DROP 任务上分别实现了 2.1% 和 2.3% 的性能增益。

规模扩展实验

图 6:mHC 与基线模型的扩展特性对比。 (a) 计算扩展曲线:实线描绘了在不同计算预算下的性能差距。每个点代表模型大小与数据集大小的最优计算配置,涵盖了从 3B、9B 到 27B 参数规模的规模扩展过程。 (b) Token 扩展曲线:展示了 3B 模型在训练过程中的轨迹。每个点代表模型在不同训练 Token 数量下的性能表现。

为了评估该方法的扩展性,研究者报告了在不同规模下 mHC 相对于基线模型的损失改善情况。在图 6 (a) 中,他们绘制了涵盖 3B、9B 和 27B 参数规模的计算规模扩展曲线。其轨迹表明,即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减。

此外,他们在图 6 (b) 中考察了训练过程中的动态变化,展示了 3B 模型的 Token 扩展曲线。总的来看,这些发现验证了 mHC 在大规模场景下的有效性。这一结论在他们内部的大规模训练实验中得到了进一步的证实。


    24小时新闻排行榜更多>>
  1. 国军强势驱离海警船 打脸中共官媒“封锁说”
  2. 中共只有强制统一没有和平统一
  3. 美国女铁人被鲨鱼叼走一周后遗体寻获 曾为鲨鱼辩护
  4. 手机丢了别慌 先做这6件事防止资料外泄
  5. 英伟达正向台积电追加H200新订单
  6. 官媒:中国领导人为何在元旦而非春节发新年贺词?
  7. 中国狂买800万吨美国大豆 已达承诺量2/3
  8. 习近平被要求“安守本分”地位遭降维打击
  9. 菲警逮捕中国籍博彩业头目 涉嫌对员工实施酷刑
  10. 10天了还在追!油轮遭美军追击 在船身涂俄国旗
  11. 伊朗又起内忧:货币暴跌、三年来最大抗议
  12. 禁渔五年,长江变样了?
  13. 纽约时报:中国廉价太阳能如何改变了非洲
  14. 美审查19国移民入籍案 涉欺诈者恐被撤公民身份
  15. 2025:在时光的马蹄中,我们都是荡子
  16. 杨振宁:米尔斯和我的那点儿事儿
  17. 甘肃一镇政府拖欠蔬菜店近9万元 称无力支付
  18. 习近平发表二〇二六年新年贺词:党兴方能国强
  19. 2026中共垮台倒计时 帕克预言“冰川式崩溃”已启动
  20. 她凭一张靓照被导演相中,71岁却患上脑梗
  21. “跨年笔记”纸短情长 读懂古人藏在诗词里的顶级浪漫
  22. 彭丽媛文艺线失守?习家军影视圈马仔自首
  23. 乌克兰有人因在家放俄语歌被举报
  24. 俄国防部披露“普京官邸遭袭”事件更多细节
  25. 监管风暴,上百款仿制药 被“团灭”
  26. 中国甲流H3N2疫情续蔓延 专家析疫情走向
  27. 关于斯大林大清洗的官方报告
  28. 有涵养的人什么样?看他身上10点就够了
  29. “加拿大通灵师2026惊世预言”旧世界崩塌与新神性觉醒
  30. 普京官邸遇袭罗生门 乌克兰“自杀式袭击”还是俄罗斯的“苦肉计”
  31. 拜堂是一场敬畏天地的盟约 可惜90%的人只当过场
  32. 最后几个月朦胧将告别地球 人间大劫倒数?
  33. 澳警察罕见“持枪上岗”
  34. 致台湾同胞书
  35. 胡锡进的盘点:2025年让我印象最深的10件事
  36. 只有罗永浩还在靠嘴吃饭
  37. 住建部推动房企转型“好房子”集成商
  38. 亿万富豪跨年趴!贝索斯与·乔丹搭超级游艇登海岛
  39. 【直播】世界各城市迎2026年到来
  40. 【佳音时刻】中共体制缺陷 农村老人自杀率世界第一
  41. 马航MH370重启搜寻!调查船已抵达目标海域
  42. 中国小伙被骗至柬埔寨 单亲母跨国寻子
  43. 东部战区最新海报暗藏玄机
  44. 川普禁止爱泼斯坦进入海湖庄园水疗中心内幕
  45. 跨年夜日本东北近海发生6.1级地震 震感明显
  46. “世界上最胖的人”病逝 终年41岁 一度重达近600公斤
  47. 中国《治安管理处罚法》修订生效,私聊传密照违法
  48. "悼明"不重要,重要的是舆论场的狗哨政治已经成熟
  49. 2025改变钱袋子的5大事件
  50. 太空针塔新年烟花秀或被大雾笼罩
  51. 纽约华府将办盛大庆祝迎新年 开启建国250年庆典
  52. 美政府已颁发许可证 批准韩企向中国出口芯片设备
  53. 全球亿万富豪都上哪过年?
  54. 跨年夜甘肃发生3.4级地震 四川乐山地震无报道
  55. 除夕夜和元旦当天 美国哪些商店会营业?
  56. 卢卡申科警告普京有被暗杀风险 他当时正收拾行李
  57. 广台高速先行工程开工
  58. 朱元璋的脸与王昭君的泪
  59. 证监会调降基金认申购费及销售服务费
  60. 中国农村老人自杀率全球第一 中共还有脸黑美国