DeepSeek開源第二天:送上降本增效神器 晶片需求預計大增
鉅亨網新聞中心 2025-02-25 19:22

DeepSeek 開源第二天,他們一大早在官推上發佈消息,開源 DeepEP。
DeepEP 是一個專為混合專家 (MoE) 模型訓練和推理設計的開源 EP(專家並行) 通訊庫。此舉迅速在 AI 社群引起廣泛關注,不到一小時,DeepEP 在 GitHub 上的 Star 數就已破千。DeepSeek 選擇先在 GitHub 上線,然後再在官推發布消息,顯示了其對開源社群的重視。
DeepEP 的設計目標是解決 MoE 模型在 GPU 之間通訊的效率問題。MoE 模型通過匯集不同的專家來處理不同的任務,類似於班級大掃除時的值日團隊,每個同學負責不同的工作。然而,現實中協作過程可能不暢通,導致效率低下。DeepEP 旨在提供一個高效且智慧的分工計畫,優化 MoE 模型中資料路由和輸出的整合過程,從而提升整體效能。
強調技術革新
據報導,DeepEP 的誕生源自 DeepSeek-V3 論文提出的「群組限制門控算法」,這項技術如同智慧調度中心,能動態分配 GPU 資源,徹底解決傳統 MoE 模型常見的「專家協作卡頓」問題。在單機多卡環境下,DeepEP 通過 NVLink 技術實現每秒 158GB 的傳輸頻寬,速度媲美記憶體直連;跨機多卡場景則基於 RDMA 網路架構,將傳輸效率提升至傳統方案的 3 倍。其首創的「非對稱域頻寬轉發」架構,更無縫銜接 NVLink 與 RDMA 通道,讓數據流動如同在單一設備內部運行。
針對生產環境需求,DeepEP 設計雙核心運作模式:訓練與推理預填充階段的高吞吐核心可單批次處理 4096 個 token,而推理解碼專用的低延遲核心,在 128 token 情境下將延遲壓縮至 192 微秒。原生支援的 FP8 精度運算不僅減少 50% 顯存佔用,更實現吞吐量翻倍突破。測試數據顯示,在配備 H800 晶片的伺服器上,256 專家模型的跨機通信仍能維持每秒 40GB 頻寬,延遲控制在 360 微秒以內。「這相當於把 GPU 的『待機浪費』從 40% 壓縮到 5% 以下。」矽谷 AI 基礎設施專家評論道,此效能改寫了行業標竿。
專家指出,DeepEP 支持低精度操作 (包括 FP8),與 DeepSeek-V3 論文中詳述的技術一致。此版本直接應對了在節點內和節點間環境中擴展 MoE 架構的挑戰。
DeepEP 的核心特性
DeepSeek 在官推中介紹了 DeepEP 的主要特性:
高效且優化的全對全通信:DeepEP 提供高吞吐量和低延遲的全對全 GPU 內核,簡化訓練和推理過程中的資料交換。
NVLink 和 RDMA 的節點內和節點間支持:DeepEP 通過 NVLink 和 RDMA 支持節點內和節點間的通信,適用於現代高性能計算環境。
用於訓練和推理預填充的高吞吐量內核:DeepEP 包含用於訓練和推理預填充的高吞吐量內核,適用於處理大量資料的場景。
用於推理解碼的低延遲內核:針對延遲敏感的推理解碼任務,DeepEP 提供使用純 RDMA 的低延遲內核,以最大限度地減少延遲。
原生 FP8 調度支持:DeepEP 原生支持 FP8 調度,適用於包括 FP8 在內的低精度計算.
靈活的 GPU 資源控制,用於計算通信重疊:DeepEP 允許靈活的 GPU 資源控制,實現計算通信重疊,從而提高資源利用率。
DeepEP 的性能表現
DeepSeek 團隊在 H800 GPU 上對 DeepEP 進行了測試,結果顯示其具有卓越的性能。在普通內核上,於 H800 上測試常規內核,每台設備都連接到 CX7 InfiniBand 400 Gb/s RDMA 網卡,遵循 DeepSeek-V3/R1 預訓練設定,使用 BF16 格式進行合併。
低延遲內核上,在 H800 上測試低延遲內核,每台 H800 都連接到 CX7 InfiniBand 400 Gb/s RDMA 網卡,遵循 DeepSeek-V3/R1 的典型生產環境設定,每批 128 個 Tokens,7168 個隱藏層單元,BFDFP。
測試結果表明,DeepEP 能夠在高負載下均勻分配網路流量,提高穩健性。
DeepEP 的應用場景
DeepEP 的設計使其能夠廣泛應用於各種 AI 場景:
- 自然語言處理:DeepEP 適用於自然語言處理任務,如翻譯、摘要生成和問答系統,可以顯著提升這些模型的訓練和推理效率。
- 程式碼產生:DeepEP 的高效通訊可以加速程式碼產生模型的開發和部署,特別是在處理複雜程式設計任務時。
- 推薦系統:在推薦系統中,MoE 可以讓不同專家處理不同使用者偏好,DeepEP 的最佳化可以提高系統在分散式環境中的效能,適用於電商平台或媒體串流服務。
DeepEP 對 AI 晶片需求的影響
DeepSeek 的 DeepEP 等模型的推出,可能會增加對高效能 AI 晶片的需求。據《路透》報導,DeepSeek 推出低成本人工智能模型後,顯著推高了模型使用的輝達人工智能晶片在中國市場的需求。多家互聯網巨頭對同款 H20 晶片的訂單激增。
同時,中國醫療保健、教育等領域規模較小的企業也開始採購備有 DeepSeek 人工智能模型和輝達 H20 晶片的伺服器。
報導指出,雖然美國政府探討進一步收緊對中國出口晶片的限制,可能導致晶片訂單激增,但知情人士認為,DeepSeek 才是促使訂單增加的主要原因。
- 最新遺產稅怎麼算?傳承必知重點有哪些?
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇