SRAM將取代HBM?輝達黃仁勳:靈活性才是解決之道
鉅亨網新聞中心
近期,輝達 (NVDA-US) 戰略性收購人工智慧(AI)推理新秀 Groq,不僅讓語言處理單位(LPU)背後的靜態隨機存取記憶體(SRAM)技術走向前台,也引發了業界對「SRAM 是否會取代 HBM」的熱烈討論。

在 CES 2026 會場上,針對相關問題,輝達執行長黃仁勳表示:「如果一切都能裝進 SRAM,那確實不需要 HBM,然而。」
SRAM 是現今速度最快的儲存介質之一,直接整合於 CPU/GPU 核心旁邊,不需要像動態隨機存取記憶體(DRAM)那樣定期刷新電力,數據持久穩定。
形象來說,SRAM 就像是你的「口袋」,伸手可得(奈秒級),但容量有限、空間極小(幾百 MB)。
高頻寬記憶體(HBM)本質仍是 DRAM,但經過 3D 堆疊與超寬接口封裝於 GPU / 加速器旁,重點在頻寬而非延遲。
它就像家中的「大型倉庫」,容量大(數十 GB)、搬運門很寬(高頻寬),但存取需要更多時間。
為何 HBM 面臨挑戰?
過去十年間,AI 晶片的重點一直放在「訓練」階段。
當前的大型模型參數通常以百億、甚至千億計,其運算需求極高,且資料可以高度重用與批次處理。在這種情況下,晶片設計最看重的是容量,其次才是頻寬,而延遲則相對不敏感。
這正好是 HBM 的優勢所在:大容量、3D 堆疊設計和極高的順序頻寬,使其與 GPU 的大規模並行運算天然契合。因此,HBM 幾乎成為 AI 訓練晶片的標配。
然而,一旦 AI 進入「推理」階段,也就是模型在真實世界中即時應用,情況就完全不同了。在需要快速反應的場景,如人機互動或即時控制,延遲成為關鍵因素。
根據 Groq 的技術資料,傳統 GPU 架構(如輝達 A100/H100)仍高度依賴 HBM。雖然 HBM 擁有驚人的頻寬,但作為垂直堆疊的 DRAM,在存取模型權重時仍會產生數百奈秒的延遲。
在 Batch Size = 1 的情境下,也就是單次請求即時處理時,GPU 必須頻繁從 HBM 載入權重,這會導致運算停滯,性能大幅下降。
這其中涉及到記憶體架構天生的「瓶頸」:在傳統 GPU 中,當處理單元讀取本地快取時,系統需要執行複雜的快取填充與回寫流程。
這些處理單元隸屬於流式多處理器核心,而所有核心都會同時爭用 DRAM 控制器。以一個例子來說,80 個核心同時執行 32 個單指令多線程(SIMT),總計 2560 條線程要爭取 16 個 HBM2e 偽通道的資源。
這種競爭造成了長時間等待,以及重排序、延遲波動與性能不可預測的問題,進而影響整個系統的穩定性。
為了掩蓋這種延遲,傳統 GPU 架構通常會增加批次大小,將多個請求累積起來一次處理。
在訓練中這種做法行之有效,但對於推理而言卻會增加顯著的等待時間。這也解釋了為什麼在 ChatGPT 或 Gemini 等即時生成應用中,文字輸出往往呈現斷續感,而非像真人對話般流暢即時。
SRAM 作為主記憶體的合理性
SRAM 並非 AI 的新發明,它早已存在,只是長期被用作快取而非主記憶體。
過去,CPU 的 L1、L2、L3 快取全是 SRAM,GPU 的寄存器檔案與本地快取也使用 SRAM,而 NPU 或 DSP 系統中,也僅配置少量 SRAM。
沒有人長期將 SRAM 作為主記憶體,原因非常直接:面積大、成本高,而且其縮放速度遠不如邏輯電路。
業界甚至認為 SRAM 的縮放已經接近極限。例如,在台積電 (2330-TW) 5nm 到 3nm 製程演進中,計算單元縮小約 1.6 倍,但 SRAM 單元面積僅減少約 5%,導致單顆晶片中 SRAM 所佔比例不斷增加,成本也隨之上升。
Groq 則採取了截然不同的策略:既然 SRAM 縮放有限,那就不把它當作昂貴快取,而是充分利用其在先進製程下極快的切換速度和穩定性。
Groq 目前主要使用台積電 14nm 和 7nm 製程,技術成熟可靠;未來計畫邁向 4nm 或更先進的 GAA 架構,即便 SRAM 面積縮小仍有限,但讀寫穩定性反而更高。
在技術層面上,SRAM 相比 DRAM 的訪問延遲不是「略快」,而是「快一個數量級」。典型 HBM/DRAM 延遲約 100ns,而 SRAM 僅需 1ns。當模型權重直接駐留在 SRAM 中,不再需要快取猜測、預取或等待,延遲瓶頸便從物理層面被根本打破。
Groq 的 LPU 核心創新在於完全拋棄 HBM,改用數百 MB 的片上 SRAM 存放模型權重,將記憶體整合於處理器內部,使訪問延遲僅為 HBM 的一小部分。
官方資料顯示,其片上頻寬可高達 80TB/s。
架構優勢:低延遲與高並行
GroqChip 採用異構或「直線」執行線程設計,資料流在水平方向與垂直方向完全流水化,指令與運算交錯執行,充分利用資料局部性。
計算與記憶體訪問被解耦,大量讀寫操作可同時進行,實現單步完成計算與通信,提供低延遲、高效能以及可預測精準度。
此外,GroqChip 支援多層次並行:指令級、記憶體級與資料級,並結合同步計算與通訊技術。
軟體端透過大規模並行編譯器,能充分利用各種並發,讓晶片在 Batch 1(單次請求)下即可高效運行。
相比傳統 GPU 需要累積 256 個批次才能處理完一批資料,Groq 在 Batch 1 即可立即處理輸入,既縮短等待時間,也提升結果精度。
SRAM 的隱性優勢:穩定性決定成敗
SRAM 的真正優勢在於「確定性」,即每次訪問速度一致。
對於延遲不確定的系統,即便平均效能高,也可能造成災難性後果:影像或影片播放卡頓只會令人不爽,但自動駕駛系統若延遲不穩,可能導致事故發生。
在工業控制、自動駕駛、金融風險管理、核聚變研究與能源調度等需要即時反應的場景中,「確定性」往往比「平均效能」更為重要。
這也是為什麼 Groq 在 Argonne 國家實驗室和金融業基準測試中特別強調確定性機器學習(deterministic ML)。
在阿貢國家實驗室的托卡馬克核聚變反應堆預測任務中,Groq 的架構能在 0.6 毫秒內完成 19.3 萬次推理,性能比輝達 A100 高出 600 倍以上,展示了傳統 GPU 架構難以達成的即時精準能力。
黃仁勳談 CPX 與 SRAM:靈活性才是關鍵
在 CES 2026 大會期間,當被問及輝達未來將 SRAM 與內部 CPX 技術結合,是否能顯著控制 HBM 的使用量,並提升利潤率時,黃仁勳回應說,首先要理解各種技術的優勢,情況並非單純。
輝達已經掌握 CPX 技術,並透過收購 Groq 獲得推理所需的 SRAM 訪問能力。
公司一個月前發表論文,指出利用 CPX 技術可以降低對 HBM 的依賴,甚至在特定場景下以 GDDR7 替代 HBM。
黃仁勳指出,CPX 在單位成本的預填充效能上表現更佳。理論上,如果所有模型資料都能完全放入 SRAM,確實可減少 HBM 的使用,但問題是 SRAM 容量有限且成本高昂。
一個千億參數的超大型模型(如 Llama 3)若全部駐留 SRAM,可能需要數百甚至上千顆 Groq 晶片,其成本與能耗都將極為驚人。
黃仁勳強調,「靈活性才是解決之道。」面對不斷演進的混合專家模型(MoE)、多模態模型,甚至狀態空間模型,資料中心的最佳架構應能靈活切換不同壓力點,如 NVLink、HBM 或計算單元,以實現總擁有成本的最優化。
他指出,輝達收購 Groq 並不意味著全面轉向 SRAM,而是為了補齊「極低延遲推理」的技術空白。資料中心的核心限制是電力,而非空間。
針對單一工作負載的極致優化固然可能,但若這類優化僅適用於 10% 的任務,剩餘電力就會被浪費。因此,靈活調配資源才能讓整個中心效能最大化。
黃仁勳舉例說,透過更新 DeepSeek 模型,可以即時提升資料中心中所有 GPU 的表現,更新模型庫也能改善整體效率。
他表示,如果資料中心同時存在多種零散架構,雖然各自針對不同需求最優化,但整體 TCO 卻不一定明顯提升。
黃仁勳總結說,CPX 的確帶來效能優勢,但過度依賴某種硬體也可能降低資料中心的整體靈活性。
延伸閱讀
- 輝達收購Groq SRAM取代HBM?記憶體大變革 群聯 南亞科 華邦電怎麼看?
- 製造瓶頸是關鍵!美光重磅預警:AI需求吞噬過半產能 記憶體恐一路短缺到2028年
- 2025年全球半導體營收大增逾兩成 排名大洗牌:輝達稱霸、英特爾衰退
- SK海力士砸19兆韓元建高階封裝廠搶攻AI記憶體需求潮
- 講座
- 公告
上一篇
下一篇