CHINESE  INSTITUTE  OF  COMMAND  AND  CONTROL

大模型进展专栏第二十二期 | DeepSeek大模型架构新突破:mHC以流形约束重塑残差连接,破解训练不稳定难题

发表时间:2026-02-27 11:19

在大语言模型向更大规模、更强能力发展的道路上,宏观架构的设计,尤其是如何更有效地在网络的深度维度传递和整合信息,正成为一个关键的研究焦点。作为Transformer架构的基石之一,残差连接的恒等映射设计虽然保证了训练的稳定性,但也固化了层间的信息流动模式。

近期,学术界提出了一种名为Hyper-Connections的架构,通过扩宽残差流并引入动态连接来增强模型表达能力,但其可能引发的训练不稳定性也成为制约其应用的新挑战。

为了探索解决这一难题的可能路径,DeepSeek-AI研究团队近期公开了一项名为《mHC: Manifold-Constrained Hyper-Connections》的预印本研究。该工作尝试将数学中的流形约束思想引入神经网络架构设计,旨在为增强的连接能力提供一个稳定、可控的数学空间。

本期大模型进展专栏“顶会顶刊分享”栏目,将为大家解读这项探索大模型架构训练稳定性的最新工作。需要说明的是,该论文为研究团队于2025年12月31日提交发布(2026年1月5日提交修改)的预印本(Preprint)研究成果,尚未经正式同行评议,属于学术交流的早期阶段。

论文题目:mHC: Manifold-Constrained Hyper-Connections

论文链接:https://arxiv.org/abs/2512.24880



大模型进展专栏


在大语言模型向更大规模、更强能力发展的道路上,宏观架构的设计,尤其是如何更有效地在网络的深度维度传递和整合信息,正成为一个关键的研究焦点。作为Transformer架构的基石之一,残差连接的恒等映射设计虽然保证了训练的稳定性,但也固化了层间的信息流动模式。

近期,学术界提出了一种名为Hyper-Connections的架构,通过扩宽残差流并引入动态连接来增强模型表达能力,但其可能引发的训练不稳定性也成为制约其应用的新挑战。

为了探索解决这一难题的可能路径,DeepSeek-AI研究团队近期公开了一项名为《mHC: Manifold-Constrained Hyper-Connections》的预印本研究。该工作尝试将数学中的流形约束思想引入神经网络架构设计,旨在为增强的连接能力提供一个稳定、可控的数学空间。

本期大模型进展专栏“顶会顶刊分享”栏目,将为大家解读这项探索大模型架构训练稳定性的最新工作。需要说明的是,该论文为研究团队于2025年12月31日提交发布(2026年1月5日提交修改)的预印本(Preprint)研究成果,尚未经正式同行评议,属于学术交流的早期阶段。

论文题目:mHC: Manifold-Constrained Hyper-Connections

论文链接:https://arxiv.org/abs/2512.24880



一、 研究动机:性能与稳定性的失衡


ResNet提出以来,残差连接及其蕴含的恒等映射原理,已成为训练超深度神经网络的基石。其经典公式为:

图片

它保证了信号和梯度可以无障碍地穿越数百甚至上千层网络,这是模型稳定收敛的前提。然而,这种固定的“加和”模式也限制了层间信息交互的复杂度。

为此,Zhu等学者(2024年)提出了Hyper-Connections架构。HC将单通道的残差流扩展为n个并行通道,并通过引入三个可学习的映射矩阵动态地控制信息的聚合、分发与混合。其单层传播公式为:

图片


HC的潜力很快被实验验证,但它的“阿喀琉斯之踵”也随之暴露:无约束的连接破坏了恒等映射。

在深度网络中,信号需要跨越多层传播。将HC公式递归展开,信号从浅层l到深层L的传播由复合映射主导:

图片


由于每个矩阵都无约束,它们的连乘积很可能变成一个无界的缩放因子,导致前向信号爆炸或反向梯度消失。

实验表明,在27B模型训练中,HC的梯度范数会出现剧烈震荡,某些层的信号增益幅度甚至高达3000倍,这使其难以扩展到更大规模。

使用管道(传递路径)和彩球(信息)进行比喻,ResNet如同一条固定流水线:彩色小球(特征)依次经过每个加工站(网络层),每个站点都会将加工后的小球与原始小球按固定比例(如1:1)混合。这种固定模式在处理复杂信息时,可能导致深层特征趋于相似、区分度下降,即“特征崩溃”。而HC则像一套可编程的混合流水线。它先将小球复制多份(扩展率n),送入多条并行管道。每条管道不仅对小球进行加工,还能通过一套可学习的连接配方(对应权重矩阵),动态调整:1)从各管道提取多少信息进行混合(宽度连接);2)将多少加工后的小球保留至下一层(深度连接)。在动态超连接(Dynamic Hyper-Connections, DHC)中,这套配方还能根据输入小球的特性实时微调。最后,所有管道的输出被汇总为最终结果。这种方式通过增加信息流动的路径与可控性,让网络能更灵活地平衡特征的保留与融合,从而缓解特征崩溃,提升模型表达能力与训练稳定性。(由AI绘图工具辅助生成的示意图,核心是展现多路径、可调权重的混合机制。)

图片



二、 核心创新:用流形约束重塑连接


mHC的解决方案深刻而优雅:它不去限制模型的表达能力,而是为表达能力的“活动空间”设定一个具有优良数学性质的边界。

其核心是将HC中无约束的

图片

矩阵,投影到一个特定的流形上——双随机矩阵(Doubly Stochastic Matrix)构成的Birkhoff多面体

一个n×n的矩阵被称为双随机的,当且仅当同时满足以下三个条件:1)所有元素非负;2)每行元素之和为1;3)每列元素之和为1。

这一约束带来了三重强大的理论保障:

第一,范数有界,抑制爆炸。双随机矩阵的谱范数满足

图片

这意味着HX运算不会放大输入向量X的范数,从根源上杜绝了前向信号爆炸。

第二,复合封闭,深度无忧。双随机矩阵的一个关键性质是:两个双随机矩阵的乘积依然是双随机矩阵。因此,无论网络多深,跨层的复合映射

图片

始终保持双随机性,稳定性质得以贯穿整个网络深度。

第三,凸组合解释,稳定流动。双随机矩阵对向量的变换,等价于对向量的各个分量做一次凸组合(加权平均)。这使得信息在多个通道间的混合过程如同一个平滑、守恒的“概率流”。

通过这一巧妙的约束,mHC在n=1时自然退化为标准残差连接,在n>1时则成为一个稳定可控的增强版。它用数学的严谨性,换取了工程上的可靠性。

图片


mHC在HC架构的基础上,引入了数学约束与结构化归纳偏差,实现了系统性的改进,具体对比如下:在连接权重方面,mHC将HC中完全自由可学的参数空间约束为双随机矩阵空间,即要求权重矩阵每行之和与每列之和均为1,且元素非负,从而在数学上保证了信息传输的均衡性。在信息流动层面,mHC通过上述约束避免了HC中可能出现的通道负载不均问题,确保了特征在前向传播过程中的稳定与平衡分配。在信息表示形式上,mHC通过流形投影操作,将隐藏状态组织为具有明确几何关系的结构(如低维流形上的规则排列),取代了HC中常见的非结构化分布式表示。这些机制共同提升了优化过程的鲁棒性,使得mHC的训练损失曲线更为平滑,收敛行为更稳定可靠,有效降低了训练动力学中的不确定性风险。因此,mHC在继承HC表征灵活性的同时,通过显式约束显著增强了模型的稳定性、可解释性与泛化能力。(由AI绘图工具辅助生成的示意图)

图片



三、 方法实现:算法与系统的协同


将优美的数学理论应用于千亿参数模型的训练,需要精密的算法设计和系统级优化。mHC在这方面的工程实现同样出色。

可微的流形投影通过Sinkhorn-Knopp迭代算法实现。该算法从初始正矩阵M(0)出发,通过交替的行列归一化进行迭代:

图片
图片



四、实验结果:稳定与性能的双重胜利


实验在从3B到27B的不同规模模型上展开,结果一致且令人信服地证明了mHC的卓越性。

训练稳定性实现革命性改善。在27B模型的关键训练曲线对比中,原始HC在约1.2万步时出现了剧烈的损失尖峰和梯度范数震荡。相比之下,mHC的训练曲线与使用标准残差连接的基线一样平滑稳定,同时其最终收敛到的损失值更低。

下游任务性能取得全面突破。在涵盖数学推理、知识问答、阅读理解等8个主流评测基准上,搭载mHC的27B模型实现了对基线模型和HC模型的全面超越。

特别在需要复杂多步推理的BBH和DROP任务上,mHC相比HC取得了2.1%和2.3%的显著提升。

卓越的可扩展性得到验证。跨模型规模的实验显示,mHC带来的性能优势在不同计算预算下都稳健存在,且未出现随规模扩大而衰减的迹象。



五、未来展望:约束下的创新范式


mHC的贡献远不止于一个更好的残差连接模块。它的成功具有深远的范式意义:

为架构创新提供“安全气囊”:mHC示范了如何通过引入恰当的数学约束,让大胆的架构创新能够在安全的边界内进行。这为解决其他“性能-稳定性”权衡问题提供了新思路。

复兴宏观拓扑结构设计:在注意力头、FFN维度等“微观”结构被充分探索后,mHC将研究目光重新引向层与层之间的连接拓扑这一更具根本性的“宏观”设计领域。

推动算法-系统协同设计:mHC从理论算法(流形投影)到底层系统(核融合、内存优化)的全链路深度优化,树立了“算法与系统协同进化”的典范。

从固定不变的恒等映射,到自由但危险的超连接,再到“戴着镣铐舞蹈”的流形约束超连接,这条技术演进路径清晰地揭示出深度学习架构设计的成熟:从追求功能的实现,到追求极致的表达,最终迈向追求约束下的稳健最优。

mHC通过将深刻的数学洞察与复杂的系统工程相结合,不仅解决了一个紧迫的实际问题,更以一件优雅的“作品”向我们展示:在通往更强大人工智能的道路上,赋予模型“自由”的同时,为其设定正确的“规则”,或许比单纯地放大规模更为重要。这项工作为未来基础模型的架构演进,点亮了一盏兼具理性与创造性光芒的指路明灯。


大模型进展专栏由中国指挥与控制学会主办,大模型与决策智能专委会承办。大模型专栏联系方式:lmdi123@163.com, 欢迎投稿!

文字:郝晓阳,潘晓春

编辑:梁星星,张钊,范长俊,邢天,闫云龙

审核:张国华