menu-icon
anue logo
鉅亨傳承學院鉅亨號鉅亨買幣
search icon

科技

「DeepSeek時刻」1周年:下一代旗艦Model1現蹤、中國開源AI進入爆發期

鉅亨網新聞中心

自 2025 年 1 月杭州 AI 公司 DeepSeek(深度求索) 發布 DeepSeek-R1 模型以來,全球 AI 產業經歷了翻天覆地的變化。在 Hugging Face 發布的《「DeepSeek 時刻」一周年記》部落格中,DeepSeek-R1 成為該平台上獲讚最多的模型。

cover image of news article
「DeepSeek時刻」1周年(圖:shutterstock)

這篇部落文指出,DeepSeek 不僅讓中國開源社群從追隨者轉變為引領者,更透過技術外溢效應重新定義了全球開源生態系的競爭格局。


與此同時,DeepSeek 的下一代旗艦模型代號「Model1」也悄然現身,預示著新一輪技術革命的到來。

打破三大壁壘:R1 如何改寫開源史

在 R1 問世之前,中國 AI 產業仍以閉源模型為主,開源模型多限於研究社群或特定利基場景。文章指出,R1 的核心貢獻不在於其當下是否最強,而是在於它降低了三大關鍵壁壘:技術、採用以及心理壁壘。

首先,技術壁壘被大幅削弱。DeepSeek 公開分享了 R1 的推理路徑與訓練方法,將曾被鎖在 API 後的高階推理能力轉化為可下載、可微調的工程資產。這讓全球團隊不再需要從零開始訓練巨大模型,推理能力變成了一種可重複使用的模組。其次,R1 採用 MIT 授權協議,消除了採用壁壘,讓企業能直接將其投入生產線,將競爭焦點從「模型分數」轉向「如何降低成本並集成到實際系統」。最後,R1 帶來了心理層面的轉變,證明即使在算力受限的環境下,透過開源與快速迭代仍能取得突破,這極大地提振了中國 AI 社群的信心。

中國開源生態系的崛起

過去一年,中國 AI 生態展現了強大的自我複製與擴張能力。根據 Hugging Face 數據,2025 年中國公司的開源模型發布量呈爆炸式增長。百度從 2024 年的零發布激增至 2025 年的超過 100 個項目,字節跳動與騰訊的發布量也增長了 8 到 9 倍。此外,月之暗面 (Moonshot AI) 推出的 Kimi K2 被視為另一個「DeepSeek 時刻」,象徵著更多新玩家加入戰場。

有趣的是,中國 AI 巨頭如 智譜 AI、阿里巴巴 Qwen 與騰訊 之間,展現了一種罕見的協作形態。文章分析,這並非基於協議的正式聯盟,而是在技術、經濟與監管壓力下的「受限對齊」。由於同樣面臨算力與合規限制,這些公司在相似的工程路徑上競爭,反而促使生態系更快速地壯大,使得中國開發的模型在 Hugging Face 上的下載量甚至超越了美國。

全球反響:西方社群的追趕與依賴

DeepSeek 的影響力早已跨越國界。在東南亞與非洲市場,由於 R1 的低成本與多語言支持,其被企業廣泛採用。即便在西方,雖然許多組織尋求非中國開發的商業替代方案,但仍有大量研究基於 DeepSeek 進行開發。例如,2025 年 11 月美國發布的領先開源模型 Cogito v2.1,本質上便是基於 DeepSeek-V3 進行微調的產物。

為了應對這一趨勢,美國發起了「美國真正開源模型 (ATOM)」計畫,旨在奪回開源領域的領導地位,這顯示出 DeepSeek 已經成為全球開源研發的關鍵基準點。

未來展望:代號「Model1」的推出

在 R1 一週年之際,DeepSeek 被發現在其 FlashMLA 代碼庫中頻繁更新,並出現了名為「Model1」的神秘模型。技術專家分析指出,這極有可能是下一代旗艦模型 DeepSeek-V4 的開發代號。

根據程式碼洩漏的細節,Model1 展現了幾項重大技術演進:

1. 回歸 512 維標準架構:為了更好地適配 NVIDIA 的 Blackwell (SM100) 算力架構,Model1 調整了 MLA 結構的維度,以追求更高的運算效率。

2. 硬體深度優化:程式碼中出現了針對 Blackwell GPU 的專門優化指令集,在尚未完全優化的狀態下,稀疏 MLA 算子在 B200 上的性能已達 350 TFlops。

3. 引進「Token-level Sparse MLA」與新機制:為了應對極長上下文場景,Model1 將採用稀疏化推理來降低顯存壓力,並引入了 VVPA(數值向量位置感知) 與 Engram 機制,這被視為 DeepSeek 在 KV 壓縮與分散式存儲上的新突破。


section icon

鉅亨講座

看更多
  • 講座
  • 公告

    Empty
    Empty