menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

A股港股

DeepSeek開源周震撼業界:多項科技創新引領AI普惠新時代

鉅亨網新聞中心 2025-03-03 18:50

cover image of news article
DeepSeek開源周震撼業界:多項科技創新引領AI普惠新時代(圖:shutterstock)

DeepSeek 上周展開為期 5 天的程式碼開源周,開源內容包括 FlashMLA、DeepEP、DeepGEMM 等程式碼庫,以及優化並行策略 DualPipe、EPLB,訓練和推理框架分析數據,以及 Fire-Flyer 文件系統 (3FS)。 這些開源內容有助於降低 AI 大模型的開發門檻,同時透過優化算力資源,提升算力效率。

據騰訊科技引用業內專家發文稱,透過發表核心技術創新成果,DeepSeek 團隊成功突破生成式 AI 在成本、效率與可近性上的多重瓶頸,為業界樹立了科技普惠的新標竿。


報導稱,這一系列開源措施不僅推動了大模型技術從實驗室走向千家萬戶,更被業界視為中國 AI 企業實踐開放共享精神的里程碑。

技術革新:從「算力黑洞」到「高效能引擎」

目前,以 Transformer 模型為核心的生成式 AI 雖展現出驚人潛力,但其高昂的研發與部署成本仍令中小企業與個人用戶望而卻步。 DeepSeek 團隊透過深度最佳化演算法與工程架構,交出了一份極具突破性的技術答卷:

1. FlashMLA:語言解析的「超級加速器」

針對自然語言處理中 Attention 機制的運算量與記憶體佔用問題,DeepSeek 推出 FlashMLA 技術。此方案透過壓縮稀疏矩陣中的零元素與非關鍵數值,大幅降低 GPU 記憶體消耗,並針對 NVIDIA H800 GPU 進行指令級最佳化。實測顯示,H800 單卡 FP8 算力從 300T FLOPS 躍升至 580T FLOPS,記憶體頻寬利用率突破理論極限的 90%,為長文字處理效率帶來質的飛躍。

2. DeepGEMM:重新定義矩陣乘法

作為 AI 計算的底層基石,矩陣乘法 (GEMM) 的效能直接影響模型訓練速度。 DeepSeek 團隊摒棄傳統數學庫依賴,直接透過底層機器指令實現 DeepGEMM,在 Hopper 系列 GPU 的 Tensor Core 上實現 8-bit 浮點數計算。儘管精度略低於 16-bit,但其運算速度與 8-bit 持平,且相容性更強。這項突破被業界視為對 NVIDIA CUDA 生態的技術挑戰,或將重塑 AI 晶片與開發工具的競爭格局。

3. EPLB & DualPipe:工業級效率管理方案

借鏡泰勒制與福特管線的生產哲學,DeepSeek 推出 EPLB(專家模型負載平衡) 與 DualPipe(管線並行最佳化)。前者透過動態分配專家模型資源、減少跨 GPU 通訊延遲,後者則將前向運算與反向驗證環節交叉執行,消除「管線氣泡」。實驗顯示,這兩種技術可將多模態任務推理效率提升超 40%,顯著降低算力閒置率。

4. DeepEP:打破 GPU 通訊壁壘

針對分散式訓練中的 AllReduce 瓶頸,DeepSeek 研發 DeepEP 系統。此技術透過中繼節點合併通訊資料、動態調整 SM 核心分工,成功將 H800 GPU 叢集的通訊開銷降低 60%。其創新性在於直接對硬體編程,繞過 NVIDIA NCCL 庫限制,實現了跨網卡、跨硬體的無縫協作。

5. 3FS:儲存系統的「吞吐革命」

為解決大規模訓練中的資料儲存難題,DeepSeek 推出自研分散式檔案系統 3FS。基於 RDMA 網路與 NVMe 協定的深度協同,3FS 在 180 個儲存節點上實現 6.6TiB/s 的吞吐效能,接近理論極限的 80%。其高可用性與一致性設計,為超大規模模型訓練提供了可靠支撐。

普惠願景:讓 AI 科技「飛入尋常百姓家」

專家認為,DeepSeek 開源周的技術成果,本質上是一場以「降本增效」為核心的生產力革命。自 DeepSeek R1 發布後,在無任何廣告投放的情況下,7 天內便實現了 1 億用戶增長,成為全球增速最快的 AI 應用。

DeepSeek 的出現也對中國其他 AI 大模型產品造成了巨大衝擊。例如,據 QuestMobile 顯示,Kimi 在 1 月 20 日至 1 月 26 日的周活躍用戶規模環比增長不足 28%,而同期 DeepSeek 環比增長超 750%,同時 Kimi 的市場討論熱度也大幅降低. 

全球方面,以 OpenAI、Google、xAI 等為代表的科技公司在 AI 大模型領域仍保持較強勁的實力。xAI 在 2 月 18 日發布 Grok 3(全球首個在十萬卡集群上訓練的大模型),引入圖像分析和問答等高級功能,計算能力比上一代提高了十倍,大幅提升了生成速度、推理能力和多模態處理能力。同時,Grok 3 宣布免費開放,進一步降低技術門檻,加速 AI 在各行各業的普及。

2 月 28 日,OpenAI 正式發布其最新一代基礎模型 GPT-4.5(內部代號為 Orion,非推理模型),號稱是迄今為止數據規模最大、知識最為豐富的聊天模型。該模型價格極為昂貴,GPT-4.5 每百萬 token 的輸入價格為 75 美元、輸出價格為 150 美元,是其主力模型 GPT-4o 的 30 倍,是競爭對手 Claude 3.7 Sonnet 的 25 倍。

在高昂的成本背後,GPT-4.5 的性能卻是優勢與劣勢並存。在事實性問答 (SimpleQA) 基準測試中,GPT-4.5 優於 GPT-4o 及 o1、o3-mini 模型,同時出現幻覺的頻率也顯著降低,這使得聊天機器人更加「靠譜」。但在學術推理測試類 (如 AIME) 方面,GPT-4.5 的表現不及 o3-mini,也不及競爭對手 Claude 3.7 Sonnet、DeepSeek R1。這表明,單純擴大模型,也許並不能帶來全面性能的顯著提升。


Empty