当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek梁文峰发表新论文

1个月前 (01-02)Deepseek最新资讯77

  1月1日,DeepSeek发表论文《Manifold-Constrained Hyper-Connections》,提出一种全新的模型连接结构 mHC(流形约束超连接),直击当前大模型训练领域中长期存在却难以攻克的核心问题:模型越大,训练越不稳定。

  目前主流的大模型,几乎都建立在“残差连接”之上。这种结构的好处是让信息在深层网络中更顺畅地传递,是 Transformer 能够成功的关键之一。

  但随着模型规模不断扩大,研究者们开始尝试更复杂的连接方式,比如 Hyper-Connections(超连接),希望让模型具备更强的表达能力。

  论文指出deepseek,这类结构虽然在理论上更灵活,但在实际训练中容易出现 梯度爆炸、信号失真、训练不稳定 等问题。在部分实验场景中,信号甚至会被放大上千倍,导致模型难以收敛,训练成本急剧上升。

  简单来说,mHC 并不是完全推翻原有结构,而是给超连接增设一道“约束”,将原本自由度极高的连接矩阵,限制在一个数学层面更加稳定的“流形空间”中。

  这一设计带来的效果十分显著:既保留了超连接的强大表达能力,又恢复了类似传统残差结构的训练稳定性,同时还能有效避免信号在层与层之间出现无限制放大的情况。用论文中的表述来讲,就是让模型在“表达能力”与“数值稳定性”之间,重新取得平衡。

  在 27B 参数规模的模型测试中,mHC 结构的表现堪称亮眼。在 BBH、DROP 等多个推理类基准任务中,其性能显著超越传统结构;整个训练过程稳定性拉满,未出现明显的梯度爆炸现象;额外增加的计算开销仅约 6.7%,完全处于工程可接受范围之内。

  论文还指出,在更大规模模型中,mHC的技术优势还会进一步放大,也意味着该结构对未来超大模型的研发具有较强的扩展潜力。

  在外界看来,mHC 并非“看一眼就能用”的功能更新,而是一项偏向底层架构、蕴含先进工程哲学的技术改进。

  在算力、数据逐渐逼近物理与成本极限的当下,如何让模型“跑得稳、跑得久”,已经成为比“堆参数”更重要的核心命题。DeepSeek 此次的技术尝试,或将成为下一阶段模型架构演进的重要方向之一。

  如果说过去几年,行业奋力攻克的是“能不能做大模型”,那么现在,研究者们开始认真思考的是:大模型还能不能继续成长,如何健康地成长。原文出处:DeepSeek梁文峰发表新论文,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek梁文峰发表新论文” 的相关文章

“天才少女”罗福莉首次在小米演讲,此前参与DeepSeek模型研发

“天才少女”罗福莉首次在小米演讲,此前参与DeepSeek模型研发

  12月17日,2025小米“人车家全生态”合作伙伴大会在北京举办。在这次大会上,MiMo大模型负责人罗福莉首次公开亮相。罗福莉称,Xiaomi MiMo-V2-Flash在大部分评测基...

DeepSeek预测:曼联vs阿森纳!红魔主场血拼枪手,B费vs厄德高谁能主宰?

DeepSeek预测:曼联vs阿森纳!红魔主场血拼枪手,B费vs厄德高谁能主宰?

  2025-26赛季英超首轮就送上重磅对决!曼联将在老特拉福德迎战阿森纳,两队上赛季分别排名第15和第2,但新赛季的首次交锋注定充满变数deepseek。红魔在新帅鲁本·阿莫林带领下重整...

DeepSeek使用走私Blackwell芯片训练?英伟达回应

DeepSeek使用走私Blackwell芯片训练?英伟达回应

  12月11日消息,据CNBC报道,针对有关中国人工智能初创公司DeepSeek使用走私的Blackwell芯片开发其即将推出的型号的报道,英伟达公司做出了回应。   ...

中国日报看山西|AI重塑在华外国游客旅行体验

中国日报看山西|AI重塑在华外国游客旅行体验

  人工智能(AI)正在深刻改变中国旅游的体验模式,为外国游客探索中国提供更智能、更具个性化的旅行选择,并扮演起“新向导”的角色。   26岁的刚果民主共和国游客高明(M...

“DeepSeek时刻”1年后,市场见证了“Claude冲击”

“DeepSeek时刻”1年后,市场见证了“Claude冲击”

  AI初创公司Anthropic本周凭借其企业级产品战略实现关键突破,引发市场对AI竞争格局的重新评估。其工具已在全球股市触发连锁反应,软件、法律、金融数据及地产等多个板块出现显著市值蒸...

DeepSeek预测:AC米兰VS拉齐奥!红黑军团主场碾压蓝鹰?普利西奇莱奥双星

DeepSeek预测:AC米兰VS拉齐奥!红黑军团主场碾压蓝鹰?普利西奇莱奥双星

  意甲第13轮焦点战,排名第2的AC米兰(25分)将在圣西罗迎战第8的拉齐奥(18分)deepseek。两队分差7分但仅相隔6个名次,红黑军团若胜则有望冲击榜首,蓝鹰则需为欧战资格奋力一...