menu-icon
anue logo
鉅亨傳承學院鉅亨號鉅亨買幣
search icon

A股港股

DeepSeek新模型技術曝光!用「視覺原語」思考 效能超越GPT-5、Claude

鉅亨網新聞中心

DeepSeek 於週四(30 日)發布多模態技術報告《用視覺原語思考》(Thinking with Visual Primitives),詳細揭露其最新識圖模式背後的技術架構。

cover image of news article
DeepSeek新模型技術曝光。(圖:Shutterstock)

DeepSeek 識圖模式模型參數規模達 2840 億、啟動參數 130 億,基座模型為 DeepSeek-V4-Flash,正式名稱尚未對外公布,權重將於未來整合進 DeepSeek 基礎模型一併發布。


長期以來,業界提升視覺模型推理能力的焦點,幾乎都集中於讓模型「看得更清楚」,透過更高解析度的圖像切分與動態分塊,確保模型不遺漏圖中細節。

然而,DeepSeek 多模態團隊指出,即便將感知能力做到極致,模型在複雜視覺推理任務中仍然容易失效。

其中的根本原因在於,自然語言在描述連續視覺空間時,天然存在「指代鴻溝」:當模型在思維鏈中寫下「左邊那個東西」,在擁擠場景中,它事實上會無法精確鎖定所指對象,一旦涉及密集計數、多步空間推理或拓撲導航等任務,邏輯便因指代不清而逐漸崩潰。

對此,DeepSeek 多模態團隊提出的解方是:讓模型在思考時「邊想邊指」,以點座標與邊界框作為思維鏈條上的最小認知單元,將人類習以為常的視覺原語,內化為模型的推理習慣。

在架構層面,此模型由 DeepSeek-ViT 負責將圖像轉換為視覺特徵,文字分詞器處理使用者語言指令,兩者輸入至基座模型進行推理融合,最終輸出包含自然語言與視覺原語(如座標框、區域標記)的聯合回應。

DeepSeek 多模態團隊負責人陳小康分享的示意動圖清楚呈現:模型推理時會直接在圖中「框出」當前正在思考的目標,並在後續推理步驟中持續引用這些視覺錨點,以空間座標驅動下一步判斷,大幅提升視覺推理準確性。

為了讓模型真正學會「指」,DeepSeek 多模態團隊建立了貫穿預訓練、冷啟動與強化學習的完整訓練流程。

預訓練階段,團隊從網路爬取近 10 萬個目標偵測相關資料來源,經過語義與幾何品質篩選後,保留逾 3 萬個高品質來源、共超過 4000 萬筆精準樣本,讓模型先掌握基礎定位能力。

冷啟動階段,團隊針對計數、空間推理、迷宮導航與路徑追蹤四類任務,合成了附有精確思考軌跡監督的訓練資料。以計數任務為例,模型被明確訓練為:先批量框選所有候選對象,再逐一校驗累加。

在迷宮任務中,模型每一步探索都須輸出點座標標記當前位置,一旦撞牆,後續推理自動失效,強迫模型學會回溯。

強化學習階段則採用稠密獎勵機制,以迷宮任務為例,獎勵分解為探索進度、撞牆懲罰、路徑有效性與探索完整性等多個維度,確保模型無法單靠猜答案取得高分,必須認真對待每一個視覺原語操作。

此外,團隊分別訓練了框定位與點指向兩個專家模型,再透過線上策略蒸餾融合為統一模型,有效避免兩種異構原語在訓練中相互干擾。

高效的視覺編碼架構是此模型另一大亮點。以一張 756×756 解析度的圖像為例,經 Vision Transformer 切分後原本產生 2916 個 patch token,再經過 ViT 端 3×3 空間壓縮,以及基座模型自帶的壓縮稀疏注意力機制兩階段處理後,最終在 KV 快取中僅保留 81 個視覺條目,整體壓縮比高達 7056 倍。

相較之下,目前主流多模態大模型處理同一張圖像往往需要數百乃至數千個視覺 token。這種「提煉好的索引」設計,使模型在展開複雜空間推理時,得以直接以精簡的視覺錨點進行思考,從工程層面降低無關像素對推理鏈路的干擾,同時大幅提升推理效率。

在一系列高難度視覺問答任務的基準測試中,這款模型的表現超越了 GPT-5、Claude Sonnet 4.6、Gemini 3 Flash、Qwen3-VL 等當前主流多模態模型。

不過,DeepSeek 多模態團隊也在報告中坦承目前的技術局限:模型在複雜拓撲推理任務上的跨場景泛化能力尚不完善,且思考過程中視覺原語的激活,目前仍需依賴顯式觸發詞,尚未實現完全的自發調用。

團隊表示,這套框架為多模態社群指出了通往「系統二」層級多模態智慧的可行路徑:不依賴一味堆高圖像解析度,而是透過空間座標錨定抽象思維,讓模型真正像人類一樣「邊指邊想」。


section icon

鉅亨講座

看更多
  • 講座
  • 公告

    Empty
    Empty