menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon


美股

摩根士丹利順先曝光DeepSeek R2!參數翻倍、價格低97%、不用輝達

鉅亨網新聞中心


摩根士丹利 (MS-US) 近日發布一份研究報告,提前揭露中國人工智慧(AI)新創公司 DeepSeek 即將推出的最新大語言模型 R2。儘管篇幅不長,報告內容卻資訊量很多,引起 AI 圈關注。

cover image of news article
摩根士丹利發布最新關於DeepSeek R2的報告。(圖:Shutterstock)

根據報告,DeepSeek R2 模型總參數高達 1.2 兆,是前一代 R1 的兩倍以上。活躍參數(active parameters)也從 370 億提升至 780 億,使模型在推理過程中調用更多「腦細胞」,大幅提升語言理解與輸出品質。


這一設計理念與 Google (GOOGL-US) Gemini、Anthropic Claude 等頂級模型策略一致,主打更深層、更準確的 AI 思考能力。

DeepSeek R2 不僅更強,還更便宜。報告指出,R2 每百萬個字符(Token)輸入僅需 0.07 美元,輸出字符成本則降至 0.27 美元,相較於 OpenAI GPT-4o 的 2.50 美元輸入與 10.00 美元輸出,價格整體便宜約 97%。

如此大幅成本優勢,對 AI 開發者、SaaS 平台與企業使用者都是極具吸引力的替代選擇。

此外,R2 在三大技術面也有顯著提升:

  • 多語言與程式碼生成能力優化:尤其針對英文以外語言進行強化,並強化程式語言理解與輸出。
  • 採用高效混合專家 MoE(Mixture of Experts)架構:透過動態啟用子網路提升推理效率與節省運算成本。
  • 多模態能力強化:視覺處理與圖像理解表現優於前代,有望在 AI 助理、圖文生成等領域展現更高價值。

報告同時指出,DeepSeek 已逐步擺脫對輝達 (NVDA-US) H100 晶片依賴,轉而採用華為昇騰 910B 晶片集群進行訓練與推理作業,被視為中國 AI 供應鏈自主化的重大突破,有望降低對美國晶片技術的依賴,強化本土算力供應鏈。

目前,DeepSeek 的模型產品線包含三大核心系列:

  • V 系列:泛用型大語言模型,涵蓋推理、效率與 AI Agent 應用;
  • R 系列:主打數理推理、多步邏輯與工具鏈整合,R2 即屬該系列;
  • Prover-V2:針對數學任務高度優化的模型,專為精準計算與證明設計。

雖然摩根士丹利說 R2 快來了,但以 DeepSeek 一貫的節奏推測,真正的 R2 估計還得再等等。

從過去看,DeepSeek 的模型更新節奏比較固定,每兩個月會有一個小版本更新,接著進行一個大版本換代。

以通用模型 V1 為例,V1 是在 2023 年 11 月發布,V2 的發佈時間是 2024 年 5 月,而 V3 的發佈時間則到了 2024 年 12 月。依照這個節奏,2025 年 6、7 月份,DeepSeek 會有一個比較大的版本更新。

值得一提的是,DeepSeek 於 5 月 29 日悄然推出強化版 R1-0528。雖然架構沒動,但這個版本引入了強化學習訓練(RLHF),推理深度明顯加強。

該版本在多項 AI 基準測試中大幅進步:

  • AIME 2024 數學競賽:+21 分
  • LiveCodeBench 程式生成:+15 分
  • GPQA Diamond 科學推理:+10 分
  • Humanity"s Last Exam 知識推理:+6 分

強化後的邏輯、程式設計與互動能力獲得開發者與用戶的正面評價,也讓外界猜測這或許是 R2 的前導版本或測試平台。



Empty