從晶片到生態!寒武紀全面反擊 NeuWare對CUDA發起性能反超 輝達生態壟斷要結束了?
鉅亨網編譯陳韋廷
在 AI 競爭從「算力堆砌」轉向「生態致勝」新周期時,寒武紀 (688256-CN) 正以全端技術實力證明自己是真正的行業主導者,不僅要造得出高性能晶片,更要構建能釋放算力價值的軟體生態與全鏈路解決方案。

《新智元》報導,寒武紀成立之初便鎖定「為 AI 大爆發提供底層支撐」的使命,不止於硬體算力,更要讓算力「好用、易用、耐用」。多年深耕後,這家以智慧晶片起家的科技公司,已悄悄建置起從自研晶片架構到高效能軟體平台的全端體系,將運算架構、編譯最佳化與演算法調度深度融合,讓每一份算力釋放最大效能。寒武紀的核心武器便是基礎軟體平台 Cambricon NeuWare。
NeuWare 的誕生,直擊 AI 開發者的痛點。不同硬體、不同場景的開發門檻高、遷移難。透過統一的基礎軟體平台,寒武紀實現了跨晶片、跨應用場景的無縫銜接,NeuWare 已全面相容於社群最新 PyTorch 版本與 Triton 算子開發語言,支援使用者模型與自訂算子快速遷移,而針對大模型訓練推理的叢集運作難題,平台進一步豐富工具鏈,從部署、除錯到調優,為大模型業務提供全週期底座。
寒武紀技術人員解釋,「NeuWare 的價值,在於降低 AI 應用的開發門檻」,並指開發者無需深究底層硬體差異,即可快速調動晶片算力,「就像給不同型號的發動機配了通用油箱,油門一踩就能跑」。
目前,大模型正重塑智慧經濟,而「搜尋、廣告、推薦」三大場景被視為大模型落地的「黃金戰場」。這裡不僅需要極致的算力支撐,更考驗系統的穩定性、即時性與擴展性。寒武紀在這一領域已完成大規模技術與產品驗證,交出了一份亮眼答案。
訓練端,寒武紀支援 DeepSeek V3/V3.1、Qwen2.5/Qwen3、GLM4.5 等主流 MoE 模型訓練,新增 Qwen/DeepSeek 系列網路的 FP8 訓練支持,精度符合預期。針對大模型推理,團隊探索 W4A4、MX-FP8 等新型資料類型,支援 Sparse Attention 等高效機制,適配 Qwen-Omni 多模態、Hunyuan3D 生成模型等前緣架構。
值得一提的是,與 DeepSeek V3.2-Exp 模型的合作中,寒武紀實現「發布即適配」,同步開源程式碼,展現了對技術趨勢的敏銳響應。
在效能最佳化上,寒武紀透過深度生態合作,持續攻長序列解碼、超低延時等場景。vLLM 推理引擎支援混合精度量化、通算並行、PD 分離部署,結合 Torch.compile 優化主機瓶頸,實現全方位加速;專項優化的 Kernel 吞吐可達每秒數十萬任務,延遲水平對標國際。
寒武紀的競爭力,藏在「軟硬一體」的細節裡,基礎軟體平台的每一層組件,都在為算力釋放「保駕護航」,支持豐富的設備切分使用場景。
驅動與運行時庫:支撐業務數月不停機的穩定性,透過細粒度並行技術、多路 DSA 非同步調度,Kernel 吞吐達業界領先;支援 visible cluster、sMLU 等彈性切分,適配容器化部署需求。
編譯器與調試工具:BANG C 語言擴展適配 MLU 架構,結合 LTO、PGO 等優化技術,讓矩陣乘法等算子效率追平產業頂尖;Triton 編譯器優化軟體、指令調 Matmul、Flash Attention 類算子性能顯著提升;CNPerf-GUI 智能調度工具,可載空配空工具。
算子庫與通訊庫:針對「搜尋、廣告、推薦」三大場景、大模型場景優化大規模 Embedding 稀疏訪存、GEMM 矩陣乘,支援低精度量化;通訊庫新增 HDR/DBT 演算法,優化 Allreduce 與 Alltoall 操作,類 IBGDA 介面降低專家並行通訊延遲。
叢集工具:CntrainKit-Accu 實現萬卡訓練精度秒溯源,CntrainKit-Monitor 提供毫秒級任務健康視覺化,CNCE 平台支援十萬卡叢集智慧運維,CNAnalyzeInsight 秒級分析 GB 級日誌。
從訓練到推理,從單機到萬卡,寒武紀建構了涵蓋全場景的工具。
對開發者而言,寒武紀的吸引力不僅在於技術硬核,更在於「友善」。平台深度適配 PyTorch 生態,支援 2.1 至 2.8 全版本,相容於 DDP、FSDP 等關鍵功能;Torch compile 加速比追平 GPU,GPU Migration 工具實現零成本遷移;PyTorch Lightning 等社區生態同步跟進,社區版本發布後 2 週內即可完成 MLU 適配。
一位使用 NeuWare 的開發者說,「從模型遷移到調優,寒武紀的工具鏈幾乎覆蓋了所有環節」,並稱「以前適配新晶片要改代碼、調參數,現在像搭積木一樣簡單」。
十年磨一劍,寒武紀已形成「晶片 - 軟體 - 工具 - 生態」的循環。晶片提供算力基底,軟體釋放算力價值,工具降低使用門檻,生態擴大用戶基數。這種「應用促進優化、優化推動應用」的良性循環,讓寒武紀在 AI 大模型、「搜尋、廣告、推薦」三大場景、多模態生成等前沿場景中持續驗證、快速進化。
當業界仍在討論「算力過剩」,寒武紀已給出新答案,也就是算力的終極價值不在於峰值性能有多高,而在於能否被高效、便捷地轉化為實際生產力。
從「提供算力」到「定義算力使用方式」,寒武紀正用全端實力,重新書寫 AI 競爭的規則。
- 11/19 帶你看見日本商社投資新契機
- 掌握全球財經資訊點我下載APP
延伸閱讀
- 講座
- 公告
上一篇
下一篇