一文看懂DeepSeek開源周第四天亮點:並行計算優化三劍客
鉅亨網編譯陳韋廷 綜合報導 2025-02-27 14:40

DeepSeek 今 (27) 日又有大動作,推出並行計算優化三劍客 DualPipe、EPLB 以及 profile-data,其中一口氣開源兩項堪稱「AI 訓練加速神器」的技術,當中還有創辦人梁文鋒親自參與的 DualPipe 專案。專家認為,這對於動輒需要數百萬美元、耗時數月的大模型訓練來說是一劑「強心針」。
DualPipe 的核心思想是讓前向計算和反向傳播同時進行,並且在數據傳輸的同時就開始下一步計算。根據技術報告,DeepSeek-V3 預訓練僅需 278.8 萬 H800 GPU 小時,成本約 557.6 萬美元。這一成本遠低於同規模模型的預期,部分歸功於 DualPipe 的高效性。
相較於 OpenAI 的 GPT-4o 或 Anthropic 的 Claude 3.5 Sonnet,DeepSeek-V3 在代碼、數學和多語言任務上表現出色,而訓練資源卻少了很多。
至於 EPLB,專家則認為像是 AI 界的「春運指揮中心」, EPLB 是用於優化大型語言模型在專家並行 (EP) 架構中的訓練效率。透過動態調整專家(MoE 模型中的子網路)的分配來平衡 GPU 之間的工作量,同時減少跨節點通信開銷,就像春節火車票系統,系統實時監控哪些列車爆滿,哪些有空位,然後動態調整,把乘客分流到不同車次,確保每趟車都坐滿但不超載。
在 EP 中,不同的專家模型會被分配到不同 GPU 上,但專家模型的負載可能會隨著輸入數據變化而波動,導致 GPU 負載不均,影響整體效率,而 EPLB 就是來解決這個問題的。
EPLB 專案提供了詳細的 Interface and Example,讓你輕鬆理解如何使用函數,根據專家權重、副本數、組數、節點數和 GPU 數,計算出最優的專家複製和放置方案,另外還有生動的 placement plan 圖示。
上述兩大 AI 訓練加速神器之所以重要,專家認為是因為 DualPipe 讓數據像高鐵一樣雙向同時流動,還能「車上辦公」,訓練速度提升 30%,且確保每台電腦都忙得恰到好處,資源利用率提升 20% 以上。
profile-data 則揭秘了 V3/R1 並行策略,該專案提供了 Training、Prefilling 和 Decoding 三種場景的性能數據,通過這些性能數據可清晰地看到 DeepSeek-AI 是如何精細地優化計算和通信的,學習他們是如何在 low-level 實現上提升效率。
簡單來說,DualPipe 介紹了如何掌握高效流水線並行的核心技術,提升模型訓練速度,EPLB 則顯示如何為專家並行 (EP) 模型做負載均衡,提升 GPU 利用率,而 profile-data 則讓外界深入瞭解 DeepSeek-V3 的並行策略,學習頂尖團隊的優化經驗。
- 2025掌握債券投資契機主動 + 靈活
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇