menu-icon
anue logo
鉅亨傳承學院鉅亨號鉅亨買幣
search icon

美股

V4將亮相?DeepSeek發梁文鋒署名論文 提「條件記憶」 這次要將顯示記憶體價格打下來?

鉅亨網編譯陳韋廷

近日,DeepSeek AI 團隊在梁文鋒的帶領下發表了一項突破性研究,提出名為「條件記憶」的全新稀疏性維度,透過創新的 Engram 模組有效解決了 Transformer 模型在知識檢索方面的固有低效問題。該研究為大模型架構設計開啟了與混合專家模型 (MoE) 互補的新方向。

cover image of news article
V4將亮相?DeepSeek發梁文鋒署名論文 提「條件記憶」 這次要把顯示記憶體價格打下來?(圖:Shutterstock)

傳統 Transformer 模型在處理靜態知識檢索時有明顯缺陷。儘管 MoE 架構透過條件運算實現了參數的高效擴展,但模型仍缺乏原生的知識查找機制,必須透過複雜的動態運算來模擬簡單的靜態檢索過程。這種「用大砲打蚊子」的方式嚴重浪費了運算資源。


DeepSeek 團隊提出的 Engram 模組基於經典的 N-gram 結構進行現代化改造,透過分詞器壓縮、多頭哈希、上下文門控和多分支集成等技術,實現了時間複雜度的可擴展知識查找。此模組的工作流程分為檢索和整合兩個核心階段:首先透過哈希 N-grams 定位記憶條目,然後透過上下文感知門控機制將檢索到的資訊與當前上下文進行智慧融合。

研究中最關鍵的發現是揭示了稀疏性分配的 U 形縮放定律。團隊透過系統實驗發現,當將約 20%-25% 的稀疏參數預算分配給 Engram 記憶模組時,模型表現達到最佳狀態。這一規律證明了條件計算和條件記憶在結構上具有顯著的互補性。

基於上述定律,DeepSeek 研究團隊建構了 270 億參數的 Engram 模型。在總參數量與計算量完全相同的條件下,模型在多項基準測試中全面超越了純 MoE 基準。

令人印象深刻的是,效能提升不僅體現在知識密集型任務上,在通用推理、程式碼產生和數學解題等領域表現更為突出,例如在 BBH 任務中提升 5.0 分,HumanEval 程式碼任務提升 3.0 分,MATH 數學任務提升 2.4 分。

機理分析表明,Engram 透過接管早期層的靜態模式重建任務,有效「加深」了網路結構,為複雜推理釋放了更多計算資源。同時,它將局部依賴關係的處理委託給查找操作,從而解放了注意力機制,使其能更專注於全局上下文,顯著提升了長文本處理能力。

在系統效率方面,Engram 的確定性查找機制支援在推理時從低速主機記憶體預取數據,幾乎不產生額外開銷。

實驗顯示,將千億級參數的 Engram 層卸載到主機內存,所帶來的吞吐量懲罰峰值僅 2.8%,有效突破了 GPU 瓶頸。

這項研究的意義在於,它為大模型稀疏化設計提供了全新的思路,證明了條件記憶應成為下一代稀疏大模型不可或缺的建模原語。透過將靜態知識檢索從動態運算中智慧分離,Engram 不僅提升了模型效能,更在系統效率方面實現了重要突破,為建立更強大、更有效率的智慧系統奠定了堅實基礎。

DeepSeek 團隊表示,這項研究成果將為大模型的未來發展提供重要參考,特別是在資源受限環境下的部署應用展現了巨大潛力。隨著後續研究的深入,條件記憶技術有望在更多場景中發揮關鍵作用。


section icon

鉅亨講座

看更多
  • 講座
  • 公告

    Empty
    Empty