鉅亨網新聞中心
科技巨頭 DeepSeek 在元旦投下「AI 底層架構」超級震撼彈,發布劃時代論文《流形約束超連結》(Manifold-Constrained Hyper-Connections, mHC),震動全球 AI 投資。
最關鍵的是:該論文的共同作者名單中,赫然可見 DeepSeek 執行長梁文鋒(Wenfeng Liang)親自掛名。這位極少在技術文件露面的 CEO「御駕親征」,明確指向 DeepSeek 本次創新目標——徹底終結由 AI 教父何愷明團隊於 2016 年提出的舊時代霸主:ResNet(深度殘差網路)架構。
AI 舊時代終結?挑戰何愷明「神作」的背後危機
ResNet 的核心「恆等映射」(Identity Mapping),被譽為深度學習領域的基石級神來一筆。它如同在複雜網路中建了一條高速「直達車道」,確保 ChatGPT、DeepSeek 等巨型模型得以穩定運行。
然而,隨著模型規模朝兆級參數狂奔,這條「單一通道」已成為 AI 進步的致命瓶頸!學術界雖曾祭出 HC(超連結)架構,試圖擴展為「多通道」解放潛能,卻引發更恐怖的穩定性危機。
在 HC 架構中,訊號傳輸猶如失速列車,數據顯示其增益峰值竟飆升至驚人的 3000 倍,造成「訊號大爆炸」!這使得模型損失值(Loss)隨時可能暴衝,宣告 HC 根本無法用於最需要穩定的頂級大規模模型。
「數學交警」如何拯救 AI 列車?
面對 AI 架構的「車禍現場」,DeepSeek 團隊選擇了更高維度的數學優雅解方。
mHC 的核心邏輯,就是替多通道架構加上嚴格的「流形約束」,猶如為網路訊號聘請了一位精通高深數學的「AI 交通警察」。
DeepSeek 的解方,是巧妙運用「雙隨機矩陣」(Doubly Stochastic Matrix)規則,搭配 Sinkhorn-Knopp 演算法,為訊號戴上「緊箍咒」。這強制實踐了嚴格的「能量守恆」:保證無論訊號如何混合,流入的總量必須精確等於流出的總量。
這項突破同時達成了 ResNet 時代無法想像的兩大目標:
穩定性從 3000 狂降至 1.6 成本僅增 6.7%
理論必須接受「市場」檢驗。mHC 的實測成果,直接指向未來 AI 軍備競賽的勝負手:
更驚人的是,DeepSeek 展現了極致的「摳門」工程實力。透過「運算子融合」、「重計算」和「通訊重疊」等一系列複雜優化,將多通道擴展帶來的額外訓練時間開銷,硬生生控制在僅有 6.7%。
DeepSeek 團隊在應用浪潮中,仍堅持「重鑄地基」。mHC 架構的問世,宣告了 AI 基礎架構迎來革命性升級,這將是 DeepSeek、GPT 等巨頭打造下一代超級 AI,並在市場上取得絕對競爭優勢的關鍵基石。
上一篇
下一篇
