menu-icon
anue logo
鉅亨傳承學院鉅亨號鉅亨買幣
search icon

美股

V4前哨戰?DeepSeek神祕新模型Model 1曝光 主打高效推理

鉅亨網新聞中心

就在 DeepSeek-R1 模型發布滿一周年之際,開發者社群在 DeepSeek 官方 GitHub 倉庫的程式碼更新中發現了驚人線索:一個名為「Model 1」的神祕大模型標識符頻繁出現。業界推測,這極有可能是 DeepSeek 研發中的下一代高效推理模型,甚至與即將於農曆新年期間推出的旗艦模型「DeepSeek-V4」密切相關。

cover image of news article
V4前哨戰?DeepSeek神祕新模型Model 1曝光 主打高效推理。(圖:shutterstock)

根據開發者分析,DeepSeek 最近更新了一系列與「FlashMLA」相關的底層程式碼。在 114 個涉及文件中,有 28 處明確提及了未知的「MODEL1」。


值得注意的是,該標識符在程式碼結構中與現有的「DeepSeek-V3.2」(內部代號 V32)並駕齊驅,顯示其並非現有模型的變體,而是具備獨立架構的新序列。

主打高效推理與長序列優化

從流出的程式碼情境來看,Model 1 展現了多項針對性能優化的技術革新:

  • 極致的運算效率:新架構在鍵值(KV)快取佈局、稀疏性處理方式以及 FP8 資料格式解碼支援上進行了深度調整。
  • 低記憶體佔用:初步分析顯示,Model 1 的記憶體佔用量可能遠低於 V3.2,這使其非常適合邊緣設備(Edge AI)或對營運成本極為敏感的商業場景。
  • 長序列專家:技術人士指出,Model 1 針對 16K 以上的長序列進行了優化,預計在長文檔理解、複雜程式碼分析等長上下文任務中將有卓越表現。

V4 旗艦模型的前哨戰?

結合先前 ITPro 的報導,DeepSeek 計劃於今年 2 月中旬(農曆新年期間)發布旗艦模型 DeepSeek-V4。V4 預計將搭載全新的技術架構,大幅提升編寫程式碼的能力。

市場普遍認為,Model 1 可能是 V4 的技術代號,或者是與之並行的高效版本。DeepSeek 研究團隊先前發布的兩篇關鍵論文,關於「優化殘差連接(mHC)」訓練法,以及受生物學啟發的「AI 記憶模組(Engram)」,極有可能已整合進 Model 1 的開發流程中。

隨著 2 月中旬的臨近,DeepSeek 頻繁的代碼更新無疑證實了新模型的存在。究竟 Model 1 會以「DeepSeek-V4」的身分震撼登場,還是作為一款獨立的高效推理工具發布,全球開發者與企業用戶正拭目以待。


section icon

鉅亨講座

看更多
  • 講座
  • 公告

    Empty
    Empty