美股

一文看懂DeepSeek開源周第四天亮點：並行計算優化三劍客

鉅亨網編譯陳韋廷綜合報導2025-02-27 14:40

DeepSeek 今 (27) 日又有大動作，推出並行計算優化三劍客 DualPipe、EPLB 以及 profile-data，其中一口氣開源兩項堪稱「AI 訓練加速神器」的技術，當中還有創辦人梁文鋒親自參與的 DualPipe 專案。專家認為，這對於動輒需要數百萬美元、耗時數月的大模型訓練來說是一劑「強心針」。

cover image of news article — 一文看懂DeepSeek開源周第四天亮點：並行計算優化三劍客

DualPipe 的核心思想是讓前向計算和反向傳播同時進行，並且在數據傳輸的同時就開始下一步計算。根據技術報告，DeepSeek-V3 預訓練僅需 278.8 萬 H800 GPU 小時，成本約 557.6 萬美元。這一成本遠低於同規模模型的預期，部分歸功於 DualPipe 的高效性。

‌

相較於 OpenAI 的 GPT-4o 或 Anthropic 的 Claude 3.5 Sonnet，DeepSeek-V3 在代碼、數學和多語言任務上表現出色，而訓練資源卻少了很多。

至於 EPLB，專家則認為像是 AI 界的「春運指揮中心」， EPLB 是用於優化大型語言模型在專家並行 (EP) 架構中的訓練效率。透過動態調整專家（MoE 模型中的子網路）的分配來平衡 GPU 之間的工作量，同時減少跨節點通信開銷，就像春節火車票系統，系統實時監控哪些列車爆滿，哪些有空位，然後動態調整，把乘客分流到不同車次，確保每趟車都坐滿但不超載。

在 EP 中，不同的專家模型會被分配到不同 GPU 上，但專家模型的負載可能會隨著輸入數據變化而波動，導致 GPU 負載不均，影響整體效率，而 EPLB 就是來解決這個問題的。

EPLB 專案提供了詳細的 Interface and Example，讓你輕鬆理解如何使用函數，根據專家權重、副本數、組數、節點數和 GPU 數，計算出最優的專家複製和放置方案，另外還有生動的 placement plan 圖示。

上述兩大 AI 訓練加速神器之所以重要，專家認為是因為 DualPipe 讓數據像高鐵一樣雙向同時流動，還能「車上辦公」，訓練速度提升 30%，且確保每台電腦都忙得恰到好處，資源利用率提升 20% 以上。

profile-data 則揭秘了 V3/R1 並行策略，該專案提供了 Training、Prefilling 和 Decoding 三種場景的性能數據，通過這些性能數據可清晰地看到 DeepSeek-AI 是如何精細地優化計算和通信的，學習他們是如何在 low-level 實現上提升效率。

簡單來說，DualPipe 介紹了如何掌握高效流水線並行的核心技術，提升模型訓練速度，EPLB 則顯示如何為專家並行 (EP) 模型做負載均衡，提升 GPU 利用率，而 profile-data 則讓外界深入瞭解 DeepSeek-V3 的並行策略，學習頂尖團隊的優化經驗。

避險需求上升解析美元、日圓的波動規律
掌握全球財經資訊點我下載APP

‌

文章標籤

DeepSeek 開源周 DualPipe EPLB 大模型 profile-data

延伸閱讀

鉅亨講座

看更多

講座
公告