鉅亨網新聞中心
「即使安裝 100 萬台 NVIDIA GPU,實際工作時間也只有 10%,」被稱為 HBM 之父的韓國科學技術院 (KAIST) 教授金正浩在最近一次採訪中說道。其餘 90% 時間,GPU 都在等待記憶體中的數據到來,基本上是在閒置。
原因很簡單。每次 AI 輸出一個單詞的答案時,都需要從 HBM 讀取數據並重新寫入,而這個讀寫時間幾乎佔用了全部時間。
即使優化算法,GPU 也很難超過 30% 的利用率。因此金教授強調 AI 能力最終由記憶體決定,AI 本質上就是記憶體。
局勢變化的信號也很明顯。隨著從訓練時代轉向推理時代,記憶體需求爆炸式增長,從 HBM4 開始不再是標準產品,而是提前與客戶約定數量的定制化生產。
這是一個買方不再主導、賣方決定價格的市場,甲乙關係完全顛倒。這也是三星電子與 SK 海力士合計營業利潤預計達到 500 萬億~ 600 萬億韓元並非空穴來風的原因。
黃仁勳頻繁出入韓國、坐立不安,正是因為他比任何人都清楚這一點。GPU 的增長已經停滯,AI 運算的下一步進化掌握在記憶體手中。HBM 只是起點,下一階段還可能出現 HBF、HBS 和 3D 計算系統。
HBM 為何成為 AI 時代無法繞開的基礎設施?
HBM 的本質是把多層 DRAM 垂直堆疊,並通過 TSV 硅通孔和超寬接口連接 AI 加速器。傳統記憶體主要提高頻率,HBM 則通過增加並行通道,把狹窄道路擴展成多車道高速公路。
傳統記憶體(如 DDR、GDDR)就像是單條車道的高速路,雖然可以通過提高車速(頻率)來增加運量,但車速總有物理極限。當 AI 大模型(LLM)爆發後,計算晶片(GPU/TPU)的算力呈指數級增長,每秒能處理的數據量極其恐怖。
這就導致了一個致命的瓶頸:內存牆 Memory Wall。大模型在推理或訓練時,GPU 需要頻繁、反復地讀取數百億參數的模型權重和海量的 KV Cache 鍵值緩存。如果記憶體傳輸速度跟不上,GPU 算力再強也只能拍著桌子乾等數據。
傳統的 DDR 記憶體插在主板上,距離 GPU 太遠,信號傳輸有延遲且功耗極高;而 GDDR 雖然速度快,但受限於晶片周邊面積,無法堆疊太多顆粒,容量和帶寬很快就會觸及天花板。
早期 HBM 接口寬度達到 1024 位,HBM4 擴展到 2048 個 I/O。SK 海力士披露其 HBM4 帶寬達到上一代的 2.54 倍,功耗效率提高超過 40%。NVIDIA H200 則配備 141GB HBM3E,記憶體帶寬達到 4.8TB/s。
GPU 性能提升已經越來越依賴記憶體容量和帶寬同步升級。
在逐 token 推理階段,系統需要反復讀取模型權重,並更新和訪問 KV Cache。模型越大、上下文越長、併發用戶越多,需要搬運的數據就越多。
計算單元雖然能夠快速完成矩陣運算,卻可能長時間等待下一批數據到達。
AI 即記憶體不是說計算晶片失去價值,而是系統瓶頸已從單純的浮點運算能力,轉向計算、帶寬、容量和互連之間的平衡。
只擴大 GPU 面積而不提高記憶體供給能力,新增算力很難被充分利用。所以 HBM 逐漸成為 AI 的核心戰略資產。
記憶體廠商議價權正在上升
訓練階段需要極高算力,但任務通常集中在少數大型集群;推理階段則要面對海量用戶、長上下文、多模態輸入和持續運行的 AI 智慧體。
隨著 AI 從模型開發走向商業部署,推理對記憶體容量、帶寬和能耗的要求可能更具持續性。
這一變化正在推動 HBM 從標準化產品轉向定制化系統部件。HBM4 開始引入更複雜的邏輯基底晶片,記憶體控制、接口和部分計算功能可以根據 NVIDIA、Google、Microsoft、AMD 等客戶的加速器架構共同設計。
記憶體廠商不再只是生產通用顆粒,而是在研發初期就參與系統定義。定制化意味著更長的認證週期、更高的切換成本和更早的產能鎖定。
客戶需要提前確定規格和交付時間,供應商則根據長期協議安排晶圓、封裝和設備投資。標準化採購正在轉向雙方共同承擔研發和產能風險。
但「甲乙方完全逆轉」仍是過度概括。NVIDIA 和雲廠商掌握系統架構、軟件生態與最終訂單,仍有強大議價能力。
三星、SK 海力士和美光則通過技術、良率和有限產能獲得更高話語權。真正發生的變化,是記憶體從可替換零部件變成影響整個平台上市節奏的關鍵部件。
HBM 之後 HBF 與 HBS 將構建分層記憶體體系
HBM 解決了速度問題,卻仍受容量、成本和封裝面積限制。隨著模型參數、KV Cache 和多模態數據繼續增長,把全部數據長期放在昂貴的 DRAM 中並不經濟,HBF 由此成為下一條技術路線。
HBF 可以理解為以高並行方式堆疊 NAND Flash,在接近 HBM 的物理形態下提供更大容量。
Sandisk 提出在相近成本下實現 HBM 約 8 至 16 倍的容量,並計劃在 2026 年下半年提供首批樣品、2027 年初推動搭載 HBF 的推理設備送樣。
HBF 速度低於 HBM,但容量更大、單位成本更低,適合保存模型權重等讀取型數據。
未來可能形成分層結構:HBM 承擔「熱數據」,HBF 存放「冷數據」,普通 SSD 和網絡記憶體位於更下層。
數據根據訪問頻率在不同層級之間移動。HBF 不是替代 HBM,而是為推理時代增加新的容量層。
金正浩進一步提出 HBS 即 High Bandwidth SRAM。SRAM 延遲更低,但成本高、密度低,傳統上只能作為片上緩存。
若未來能夠實現晶圓級、多層堆疊,HBS 可能成為距離計算單元最近的超高速記憶體。不過,HBS 目前仍屬於前沿概念,距離標準化和商業量產尚遠,良率、功耗和散熱都是現實障礙。
未來贏家不只是 GPU 公司
傳統的 AI 服務器拆開看,主板就像是一個平面的「科技園區」:GPU 坐落在市中心,HBM 記憶體像幾棟高樓圍在旁邊,而 NAND 閃存和 SRAM 則散落在更遠的外圍。數據在這之間穿梭,依然要走漫長、耗能的「地表公路」。
如果 HBM、HBF 和 HBS 逐步成熟,未來 AI 晶片可能不再是「GPU 旁邊放幾顆記憶體」而是邏輯晶片、DRAM、NAND 和 SRAM 共同組成的 3D 系統。
GPU 或 CPU 負責計算,HBM 提供高速帶寬,HBF 提供大容量,HBS 承擔超低延遲緩存,電力和冷卻則貫穿整個封裝。
這會重新分配半導體產業的價值。NVIDIA 的計算架構和 CUDA 生態仍然構成強大壁壘,GPU 性能也沒有停止增長,但系統性能越來越取決於記憶體、先進封裝、互連、供電和散熱。AI 服務器的價值將從 GPU 裸片擴散至 HBM、邏輯基底、硅中介層、液冷和電源系統。
三星與 SK 海力士的優勢在於同時擁有 DRAM、NAND、HBM 和先進封裝能力,但這一組合併非韓國企業獨有,美光同樣覆蓋 DRAM、NAND 和 HBM。
韓國真正領先的是 HBM 量產經驗、客戶認證和製造生態。與此同時,長鑫記憶體等中國企業也在推進高端 DRAM 和 HBM 研發,技術代差、良率和客戶驗證仍將決定追趕速度。
市場把三星與 SK 海力士未來合計營業利潤外推至數百萬億韓元的說法,顯然是超級週期過於激進情景,而不是公司指引或一致預期。
定制 HBM 確實提高了訂單可見度和利潤率,但擴產、客戶集中、地緣政治與技術迭代仍可能改變結果。
傳統的算力軍備競賽已經走入死衚衕。下一輪 AI 架構的爭奪表面上是看誰能做好供電與散熱,但其底層邏輯依然是所有這一切,都是在為「讓數據更快、更省電地抵達記憶體」而服務。
誰能率先打破「內存牆」誰才能真正釋放大模型的全部潛力。目前來看 AI 計算的下一代架構終究還是要由記憶體 DRAM 來定義。
上一篇
下一篇
