menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon


美股

R2模型5月前推出?DeepSeek開源第三彈「300行DeepGEMM代碼」 網友憂輝達股價

鉅亨網編譯陳韋廷 綜合報導

cover image of news article
R2模型5月前推出?DeepSeek開源第三彈「300行DeepGEMM代碼」 網友憂輝達股價

本星期是中國 AI 新創公司 DeepSeek 的開源周,DeepSeek 則在第三天,發佈了 DeepGEMM,是一個支援稠密和 MoE 模型的 FP8 GEMM(通用矩陣乘法) 計算庫,僅憑 300 行代碼就超過專家優化的內核,可為 V3/R1 的訓練和推理提供強大支援,更令人興奮的是,DeepSeek-R2 有望在 5 月前提前發佈。 

中國 AI 媒體《新智元》報導,DeepGEMM 庫具有五大特徵,分別是在 Hopper GPU 上實現高達 1350+ FP8 TFLOPS 的算力、極輕量級依賴且代碼清晰易懂、完全即時編譯、核心邏輯僅約 300 行代碼,卻在大多數矩陣規模下超越專家級優化內核以及同時支援密集佈局和兩種 MoE 架構。



對於僅憑 300 行代碼就超過專家優化的內核,開發者驚嘆道:「不是 DeepSeek 真的破解了 GPU 運算的天機,要麼我們就是見證了有史以來最高級的編譯器黑科技。」還有開發者說:「DeepGEMM 聽起來簡直是數學界的超級英雄,比飛快的電腦還快。它改變了我們使用 FP8 GEMM 庫的方式,簡單、快速、開源。 這就是 AI 計算的未來!」

DeepGEMM 採用了全 Just-In-Time 編譯 技術,所有 kernel 都在運行時動態編譯,無需在安裝時進行任何預編譯,這意味著可即裝即用 DeepGEMM,省去大量的配置和編譯時間,使得開發者更專注於模型開發和實驗。JIT 設計也帶來額外的優勢,可根據不同的 GEMM 形狀、block size 等參數進行動態最佳化,始終選擇最佳的 kernel 配置,保證在各種場景下都能發揮最佳效能。

目前,DeepGEMM 僅支援 NVIDIA Hopper 張量核心。為解決 FP8 張量核心在累加計算時的精度問題,DeepGEMM 採用了基於 CUDA 核心的兩級累加(提升)技術。雖然 DeepGEMM 借鑒 CUTLASS 和 CuTe 的一些概念,但避免過度依賴它們的範本或代數系統。

相反地,DeepGEMM 追求設計簡潔,僅包含一個核心內核函數,代碼量僅約 300 行,這使其成為學習 Hopper FP8 矩陣乘法和優化技術的理想入門資源。

儘管採用輕量級設計,DeepGEMM 在處理各種矩陣形狀時的性能都能夠達到甚至超越經專家調優的庫。

與此同時,《路透社》引述消息人士報導指出,原定 5 月初發佈的 DeepSeek-R2 將提前。知情人士透露,DeepSeek 決策層希望大幅加快這一進程。不過,截至目前,相關人士並未透露 DeepSeek 的 R2 模型的具體發佈日期,這也讓業界對其充滿了好奇與期待。

從技術層面來看,這一全新的 R2 模型被寄予厚望,料將具備更強大的能力,尤其是在代碼生成方面,有望生成更優質、高效的代碼。

此外,R2 模型預計還將能使用英語以外的多種語言進行推理,這一特性將顯著提升其在多語言環境下的應用潛力。

業內人士預測,DeepSeek-R2 的發佈將是 AI 行業的一個關鍵時刻。目前 DeepSeek 在創建高成本效益模型上的成功,已經打破該領域少數主導玩家的壟斷。

另據《智東西》報導,DeepGEMM 一發佈後,DeepSeek 的推文評論區好評如潮,甚至有人為輝達 (NVDA-US) 股價擔心,還有人熱情誇讚新代碼庫和 DeepSeek 工程師。

DeepSeek 也分享了清楚指南,使用 DeepGEMM 需要 Hopper 架構 GPU、必須支援 sm_90a,要求是 Python 3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6 或更新版本。DeepSeek 強烈推薦 CUDA 12.8 或更高的版本以獲得最佳性能。



Empty