美股

未來贏家不只GPU商？HBM之父金正浩：AI本質就是記憶體

鉅亨網新聞中心2026-07-02 09:30

「即使安裝 100 萬台 NVIDIA GPU，實際工作時間也只有 10%，」被稱為 HBM 之父的韓國科學技術院 (KAIST) 教授金正浩在最近一次採訪中說道。其餘 90% 時間，GPU 都在等待記憶體中的數據到來，基本上是在閒置。

cover image of news article — HBM之父金正浩：AI本質就是記憶體(圖：Shutterstock)

原因很簡單。每次 AI 輸出一個單詞的答案時，都需要從 HBM 讀取數據並重新寫入，而這個讀寫時間幾乎佔用了全部時間。

‌

即使優化算法，GPU 也很難超過 30% 的利用率。因此金教授強調 AI 能力最終由記憶體決定，AI 本質上就是記憶體。

局勢變化的信號也很明顯。隨著從訓練時代轉向推理時代，記憶體需求爆炸式增長，從 HBM4 開始不再是標準產品，而是提前與客戶約定數量的定制化生產。

這是一個買方不再主導、賣方決定價格的市場，甲乙關係完全顛倒。這也是三星電子與 SK 海力士合計營業利潤預計達到 500 萬億~ 600 萬億韓元並非空穴來風的原因。

黃仁勳頻繁出入韓國、坐立不安，正是因為他比任何人都清楚這一點。GPU 的增長已經停滯，AI 運算的下一步進化掌握在記憶體手中。HBM 只是起點，下一階段還可能出現 HBF、HBS 和 3D 計算系統。

HBM 為何成為 AI 時代無法繞開的基礎設施？

HBM 的本質是把多層 DRAM 垂直堆疊，並通過 TSV 硅通孔和超寬接口連接 AI 加速器。傳統記憶體主要提高頻率，HBM 則通過增加並行通道，把狹窄道路擴展成多車道高速公路。

傳統記憶體（如 DDR、GDDR）就像是單條車道的高速路，雖然可以通過提高車速（頻率）來增加運量，但車速總有物理極限。當 AI 大模型（LLM）爆發後，計算晶片（GPU/TPU）的算力呈指數級增長，每秒能處理的數據量極其恐怖。

這就導致了一個致命的瓶頸：內存牆 Memory Wall。大模型在推理或訓練時，GPU 需要頻繁、反復地讀取數百億參數的模型權重和海量的 KV Cache 鍵值緩存。如果記憶體傳輸速度跟不上，GPU 算力再強也只能拍著桌子乾等數據。

傳統的 DDR 記憶體插在主板上，距離 GPU 太遠，信號傳輸有延遲且功耗極高；而 GDDR 雖然速度快，但受限於晶片周邊面積，無法堆疊太多顆粒，容量和帶寬很快就會觸及天花板。

早期 HBM 接口寬度達到 1024 位，HBM4 擴展到 2048 個 I/O。SK 海力士披露其 HBM4 帶寬達到上一代的 2.54 倍，功耗效率提高超過 40%。NVIDIA H200 則配備 141GB HBM3E，記憶體帶寬達到 4.8TB/s。

GPU 性能提升已經越來越依賴記憶體容量和帶寬同步升級。

在逐 token 推理階段，系統需要反復讀取模型權重，並更新和訪問 KV Cache。模型越大、上下文越長、併發用戶越多，需要搬運的數據就越多。

計算單元雖然能夠快速完成矩陣運算，卻可能長時間等待下一批數據到達。

AI 即記憶體不是說計算晶片失去價值，而是系統瓶頸已從單純的浮點運算能力，轉向計算、帶寬、容量和互連之間的平衡。

只擴大 GPU 面積而不提高記憶體供給能力，新增算力很難被充分利用。所以 HBM 逐漸成為 AI 的核心戰略資產。

記憶體廠商議價權正在上升

訓練階段需要極高算力，但任務通常集中在少數大型集群；推理階段則要面對海量用戶、長上下文、多模態輸入和持續運行的 AI 智慧體。

隨著 AI 從模型開發走向商業部署，推理對記憶體容量、帶寬和能耗的要求可能更具持續性。

這一變化正在推動 HBM 從標準化產品轉向定制化系統部件。HBM4 開始引入更複雜的邏輯基底晶片，記憶體控制、接口和部分計算功能可以根據 NVIDIA、Google、Microsoft、AMD 等客戶的加速器架構共同設計。

記憶體廠商不再只是生產通用顆粒，而是在研發初期就參與系統定義。定制化意味著更長的認證週期、更高的切換成本和更早的產能鎖定。

客戶需要提前確定規格和交付時間，供應商則根據長期協議安排晶圓、封裝和設備投資。標準化採購正在轉向雙方共同承擔研發和產能風險。

但「甲乙方完全逆轉」仍是過度概括。NVIDIA 和雲廠商掌握系統架構、軟件生態與最終訂單，仍有強大議價能力。

三星、SK 海力士和美光則通過技術、良率和有限產能獲得更高話語權。真正發生的變化，是記憶體從可替換零部件變成影響整個平台上市節奏的關鍵部件。

HBM 之後 HBF 與 HBS 將構建分層記憶體體系

HBM 解決了速度問題，卻仍受容量、成本和封裝面積限制。隨著模型參數、KV Cache 和多模態數據繼續增長，把全部數據長期放在昂貴的 DRAM 中並不經濟，HBF 由此成為下一條技術路線。

HBF 可以理解為以高並行方式堆疊 NAND Flash，在接近 HBM 的物理形態下提供更大容量。

Sandisk 提出在相近成本下實現 HBM 約 8 至 16 倍的容量，並計劃在 2026 年下半年提供首批樣品、2027 年初推動搭載 HBF 的推理設備送樣。

HBF 速度低於 HBM，但容量更大、單位成本更低，適合保存模型權重等讀取型數據。

未來可能形成分層結構：HBM 承擔「熱數據」，HBF 存放「冷數據」，普通 SSD 和網絡記憶體位於更下層。

數據根據訪問頻率在不同層級之間移動。HBF 不是替代 HBM，而是為推理時代增加新的容量層。

金正浩進一步提出 HBS 即 High Bandwidth SRAM。SRAM 延遲更低，但成本高、密度低，傳統上只能作為片上緩存。

若未來能夠實現晶圓級、多層堆疊，HBS 可能成為距離計算單元最近的超高速記憶體。不過，HBS 目前仍屬於前沿概念，距離標準化和商業量產尚遠，良率、功耗和散熱都是現實障礙。

未來贏家不只是 GPU 公司

傳統的 AI 服務器拆開看，主板就像是一個平面的「科技園區」：GPU 坐落在市中心，HBM 記憶體像幾棟高樓圍在旁邊，而 NAND 閃存和 SRAM 則散落在更遠的外圍。數據在這之間穿梭，依然要走漫長、耗能的「地表公路」。

如果 HBM、HBF 和 HBS 逐步成熟，未來 AI 晶片可能不再是「GPU 旁邊放幾顆記憶體」而是邏輯晶片、DRAM、NAND 和 SRAM 共同組成的 3D 系統。

GPU 或 CPU 負責計算，HBM 提供高速帶寬，HBF 提供大容量，HBS 承擔超低延遲緩存，電力和冷卻則貫穿整個封裝。

這會重新分配半導體產業的價值。NVIDIA 的計算架構和 CUDA 生態仍然構成強大壁壘，GPU 性能也沒有停止增長，但系統性能越來越取決於記憶體、先進封裝、互連、供電和散熱。AI 服務器的價值將從 GPU 裸片擴散至 HBM、邏輯基底、硅中介層、液冷和電源系統。

三星與 SK 海力士的優勢在於同時擁有 DRAM、NAND、HBM 和先進封裝能力，但這一組合併非韓國企業獨有，美光同樣覆蓋 DRAM、NAND 和 HBM。

韓國真正領先的是 HBM 量產經驗、客戶認證和製造生態。與此同時，長鑫記憶體等中國企業也在推進高端 DRAM 和 HBM 研發，技術代差、良率和客戶驗證仍將決定追趕速度。

市場把三星與 SK 海力士未來合計營業利潤外推至數百萬億韓元的說法，顯然是超級週期過於激進情景，而不是公司指引或一致預期。

定制 HBM 確實提高了訂單可見度和利潤率，但擴產、客戶集中、地緣政治與技術迭代仍可能改變結果。

傳統的算力軍備競賽已經走入死衚衕。下一輪 AI 架構的爭奪表面上是看誰能做好供電與散熱，但其底層邏輯依然是所有這一切，都是在為「讓數據更快、更省電地抵達記憶體」而服務。

誰能率先打破「內存牆」誰才能真正釋放大模型的全部潛力。目前來看 AI 計算的下一代架構終究還是要由記憶體 DRAM 來定義。

‌

文章標籤

記憶體 AI gpu dram 金正浩

延伸閱讀

鉅亨講座

看更多

講座
公告

未來贏家不只GPU商？HBM之父金正浩：AI本質就是記憶體

文章標籤

相關行情

延伸閱讀

鉅亨講座

‌

‌

‌

‌