menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

美股

DeepSeek開源第五彈:全新並行文件系統3FS代碼庫 PB級別數據也能輕鬆處理

鉅亨網新聞中心 2025-02-28 11:40

cover image of news article
(圖:REUTERS/TPG)

DeepSeek 在其開源週的最後一天,隆重推出了兩款顛覆性的資料處理工具:Fire-Flyer File System (3FS) 和 Smallpond。這兩款工具以其卓越的效能和極高的吞吐量,能夠輕鬆處理 PB 級的數據,標誌著數據處理技術的一個新里程碑。

3FS 被譽為「所有 DeepSeek 資料存取的動力引擎」,是一款高效能分散式檔案系統。它充分利用現代 SSD 固態硬碟和 RDMA(遠端直接記憶體存取)網路的強大頻寬,為 AI 工作負載提供了卓越的儲存基礎設施。在由 180 個節點組成的叢集上,3FS 實現了 6.6 TiB/s 的聚合讀取吞吐量,此效能在業界首屈一指。此外,在 25 節點的叢集中,GraySort 基準測試中達到了 3.66 TiB/min 的吞吐量,而每個客戶端節點在 KVCache 查詢中也實現了超過 40 GiB/s 的峰值吞吐量。


3FS 的架構設計採用了解耦架構,結合數千個 SSD 的吞吐量與數百個儲存節點的網路頻寬,使應用程式能夠以與資料位置無關的方式存取儲存資源。這種設計不僅提高了系統的靈活性,還增強了資料存取的效率。同時,透過實現具有分配查詢的鍊式複製(CRAQ),3FS 保證了資料的強一致性,簡化了應用程式程式碼並使其更易於理解。

在接口方面,3FS 採用無狀態元資料服務,並由事務性鍵值存儲(如 FoundationDB)支持,提供了通用的文件接口,開發者無需學習新的存儲 API。其多樣化的工作負載支援能力,使其能夠高效處理各種 AI 工作負載,包括訓練資料預處理、資料集載入、檢查點保存和重新載入、嵌入向量搜尋、V3/R1 推理中的 KVCache 查詢等。

與 3FS 相輔相成的是 Smallpond,這是一個建構在 DuckDB 和 3FS 之上的輕量級資料處理框架,旨在簡化在 3FS 上進行資料處理的流程。 Smallpond 提供簡潔的 API 和易懂的工作流程,方便使用者快速上手。由 Duck​​DB 驅動的 Smallpond,能夠有效率地處理大規模資料集,具備 PB 級資料可擴充性,使用者可以在無須長時間運行服務的情況下,輕鬆完成資料處理任務。

Smallpond 的主要特點包括輕量級和易用性,提供了簡單的操作,無需長時間運行的服務即可完成資料處理任務。此外,Smallpond 還提供了快速入門指南,使用者可以輕鬆下載範例資料並開始使用 DuckDB SQL 進行資料處理。

值得注意的是,Smallpond 框架巧妙地利用了 3FS 作為其底層儲存引擎,充分發揮 3FS 的高效能和可擴展特性。使用者可以使用 Smallpond 輕鬆地在 3FS 上進行資料處理,例如執行 SQL 查詢、資料轉換和分析等操作。 GraySort 基準測試的結果也展示了 Smallpond 如何利用 3FS 的強大效能來處理大規模資料集的排序任務。

DeepSeek 的這次發布不僅展示了其在數據處理領域的創新能力,也為未來的 AI 應用提供了強有力的支持。用戶可以透過以下連結了解更多:3FS 的 GitHub 和 Smallpond 的 GitHub。這一系列的新工具無疑將推動數據處理技術的發展,並協助各行各業在數位轉型中更進一步。

3FS 與 Smallpond 的特點對比表
特點 3FS (Fire-Flyer File System) Smallpond
類型 高性能分佈式文件系統 輕量級數據處理框架
性能 實現 6.6 TiB/s 的聚合讀取吞吐量 由 DuckDB 驅動,提供卓越的數據處理性能
吞吐量 在 25 節點集群上,GraySort 基準測試達到 3.66 TiB/min 支持 PB 級別數據處理
節點支持 適用於由 180 個節點組成的集群 利用 3FS 作為底層存儲引擎
一致性 強一致性,通過鏈式複製(CRAQ)實現 依賴 3FS 的強一致性
接口 提供通用文件接口,無需學習新的存儲 API 簡潔的 API,易於理解
工作負載支持 支持多種 AI 工作負載,如訓練數據預處理、數據集加載等 簡化數據處理流程,支持 SQL 查詢和數據轉換
操作簡便性 採用無狀態元數據服務,支持高效的數據訪問 無需長時間運行服務即可完成數據處理任務
用戶友好性 適合開發者,提供標準接口 提供快速入門指南,方便用戶上手

總結

  • 3FS 專注於提供高性能的存儲解決方案,適合大規模數據訪問和 AI 工作負載。
  • Smallpond 則旨在簡化數據處理流程,利用 3FS 的性能為用戶提供高效的數據處理體驗。

Empty