金色財經
作者:Crazyox;來源:X,@crazyox
在過去三年的生成式 AI 狂熱中,全球科技界陷入了一種由 GPU 供給率和算力浮點數(FLOPS)構成的「算力敘事壟斷」。
所有人都在盯着 NVIDIA 的發布會,將 H100、B200 以及未來的 Rubin 視為通往 AGI 的唯一聖杯。
然而,一個極其危險的行業認知偏差正在發生:市場誤將「計算的速度」當成了「智能的全部」。
當大語言模型(LLM)從單純的「無狀態問答(Stateless QA)」演進為具備長程規劃、工具調用和自主決策能力的「有狀態智能體(Stateful Agent)」時,硬體底層的權力重心正在發生一場結構性移轉。
Agentic AI 的核心瓶頸與終極壁壘,從來不是算力,而是記憶。
這不僅是一場軟體應用層的範式遷移,更是一場對整個 IT 基礎設施硬體層級的顛覆性清洗。
儲存,正在從計算的「冷家電」,躍升為智能的「中樞神經」。
從第一性原理(First Principles)出發,人類乃至宇宙中一切形式的「智能」,其終極追求只有兩件事:無限的計算能力(腦子轉得快)與無限的儲存能力(記性足夠好)。
在物理世界中,計算本質上是能量對空間的改變速度(時鐘頻率、吞吐量),而儲存則是能量在時間維度上的留存狀態(熵減的維持)。
在人類社會中,評價一個人的智力水平,我們看重的是「博聞強識」與「反應敏銳」的統一。
沒有博聞強識的底座,反應敏銳只是無源之水。
機器智能正在嚴絲合縫地沿着這條路徑演進。
但在當前的馮·諾依曼架構下,計算與儲存之間存在著一道致命的「儲存牆(Memory Wall)」。
隨著 Agentic AI 的到來,傳統的中央處理器(CPU)角色已經被完全邊緣化。它早就不再承擔核心的計算邏輯,而是退化為一個「協理員」。
新型的智能硬體層級正在按照對「智能的貢獻度」重新洗牌:
在這個新秩序中,儲存(Memory)被推到了絕對的第一優先級。
因為算力決定了智能體思考的單點爆發力,而儲存的容量與帶寬,決定了智能體認知的邊界、深度以及生命周期的長度。
市場目前對儲存的理解,大多停留在 HBM(High Bandwidth Memory)的短缺和英偉達顯存的高昂造價上。
但這只是冰山露在海面上的尖角。
從技術底層來看,大模型的推理過程分為兩個截然不同的階段:Prefill(預填充階段) 和 Decode(解碼逐字生成階段)。
Prefill 階段是 Compute-bound(計算受限)的,它需要大吞吐量的 GPU 算力來一次性處理輸入的 Prompt。
Decode 階段則是典型的 Memory-bound(內存帶寬受限)任務。
大模型每生成一個 Token(一個字或詞),都需要將整套模型的權重(Weights)以及之前所有對話產生的 KV Cache(鍵值緩存) 從顯存里完整地「搬運」一遍。
這導致了一個極其荒謬的現象:計算核心(Tensor Core)大部分時間都在「空轉」等待數據的送達。
帶寬不夠,再高昂、再先進的 GPU 也不過是擺設。
這就是為什麼 NVIDIA 每一代晶片的升級,算力增長往往是線性的,而 HBM 的帶寬和容量增長卻是指數級的。
HBM 的本質,是高昂的顯存堆疊技術為了苟延殘喘地追趕計算核心速度,而妥協出的「肉搏式」硬體方案。
但這只是市場已經講爛了的故事,更深處的範式革命,發生在 GPU 集群之外。
我們天天聽各大模型廠商兜售「100萬、200萬甚至無限的上下文窗口(Context Window)」。
普通投資者和非技術背景的行業觀察者普遍認為,這些長上下文是在動輒數萬張 GPU 組成的 AI 算力集群中被實時拼湊和處理的。
這是一個巨大的行業誤解。
GPU 陣列的顯存極其昂貴且空間有限,它只負責最核心的「矩陣乘法」矩陣計算。
那高達 1M 甚至數兆的超長上下文,其真正的物理組裝地點、清洗工坊與狀態維持網路,是在跑 Agentic 系統的傳統通用服務器里(由 CPU + 超大 DRAM 構成)。
當我們拆解一個全自動的 Agentic 智能體系統時,這些傳統服務器的 DRAM(動態內存)里正在發生着一場不為人知的數據風暴:
1. 動態狀態機(Dynamic State Machine)的實時維持
Agent 不是單次觸發的問答機器人,它是一個持續運行的「狀態機」。
它需要實時將用戶的長期記憶(基於向量數據庫的冷數據,從 NAND 喚醒)、短期記憶(當前對話的上下文,熱數據)源源不斷地加載到 DRAM 中。
2. 系統規範(System Prompts)與元認知(Meta-Cognition)的注入
一個複雜的 Agent 往往包含數十個不同角色的子智能體(Sub-agents)。
每個子智能體都有長達數萬字的系統行為規範、防禦提示詞、合規邊界。
這些元認知數據必須常駐內存,以便隨時被主系統調用。
3. 工具鏈與技能庫(Skills & Tools Descriptions)的編排
Agent 在執行任務時(如「幫我分析過去三年的財報並生成圖表」),需要調用無數的外部 API、Python 解釋器或 SQL 數據庫。
這些工具的參數格式、調用邏輯、中間執行狀態,全部積壓在內存中。
4. 極端上下文的「內存壓縮與蒸餾」
當交互輪次讓 Token 數沖向 1M 的極限時,Agent 系統不能直接把這 1M 數據扔給 GPU(會導致顯存溢出或延遲爆炸)。
Agentic 服務器必須在 DRAM 中利用算法對上下文進行動態的注意力蒸餾(Attention Distillation)、語義剪枝(Semantic Pruning) 和 實時總結(Real-time Summarization)。
這一系列複雜的、高頻的、帶有強邏輯判斷的數據流轉,100% 跑在 Agentic 服務器的 DRAM 里。
GPU 只是那個負責在最後關頭「提筆寫字」的流水線工人,而傳統服務器里由超大 DRAM 構成的空間,才是運籌帷幄的「幕僚團」和「檔案館」。
為了理解這場儲存革命的恐怖體量,我們必須將其與過去的網路/行動網路時代進行縱向對比。
在過去的 Web 2.0 時代(無論是谷歌的搜尋、抖音的推薦,還是淘寶的廣告系統),核心邏輯是「無狀態的短文本交互」。
你點擊一個影音,系統向服務器發送一個幾 KB 的請求(Request),服務器返回一個推薦列表(Response)。
網路服務器幾乎不需要處理和維持用戶的實時上下文。
數據中心只需要在後台數據庫里留存非常稀疏的用戶標籤(如:男性、25歲、喜歡數碼)。這個數據量極其微小。
Agentic 系統處理的數據量,是傳統網路系統的 20 倍,甚至 100 倍以上。
因為 Agent 處理的是「全意識流(Full Stream of Consciousness)」。
當你在和一個個人的 AI Agent 協同工作時,它不僅要記住你剛剛說的那句話,還要實時調用你整個操作系統的文件、你的日程表、你過去一年的郵件往來,甚至你的語氣偏好。
每一次 Agent 的思考流(Thought Stream),都是一次多源數據的空間交匯。這種對內存空間的強占有性,是人類 IT 史上從未出現過的「吞噬怪」。
華爾街和分析師們喜歡聽宏大的故事,但工業界的供應鏈從來不撒謊,它們用真金白銀的設備採購指標投出了選票。
在傳統的雲端運算數據中心裡,一台通用服務器的配置比例(CPU 核心數與內存容量的配比)長期維持在:
$$\text{1 CPU Core} : \text{4 GB DRAM}$$
這是一個維持了十幾年、被認為最符合經濟效益的黃金比例。
然而,過去一年的供應鏈訂單顯示,為了適配 Agentic AI 系統的全量鋪開,這個比例已經發生了結構性斷裂,直接躍升至:
$$\text{1 CPU Core} : \text{16 GB DRAM}$$
並且,這個數字正在向 1 : 32 甚至 1 : 64 狂飆。
但這僅僅是硬體配比的單點變化,真正的鏈式反應發生在並發服務能力(Concurrency Capacity) 的塌陷上。
在 Agentic 狀態下,因為單個用戶所占用的上下文、記憶體和工具鏈數據過於龐大,單顆 CPU 能夠同時服務的用戶數(QPS),暴跌到傳統網路時代的幾分之一甚至十幾分之一。
這是一個驚人的商業算力黑洞。
這意味著,當整個全球 IT 基礎設施徹底從 Web 2.0 切換到 Agentic AI 驅動的生態時,我們要維持和過去一樣的用戶並發量,全球數據中心所需的硬體總量將發生異變:
CPU 數量: 並非如市場所說的被 GPU 完全取代,而是作為儲存調度器,其數量將迎來幾倍至十幾倍的反彈增長。
DRAM(內存)總量: 將迎來幾十倍乃至上百倍的指數級需求暴增。
當全行業都在用「儲存晶片是周期行業(Cyclical Industry)」的傳統眼光來審視三星、SK 海力士和美光的財務報表時,他們正在犯下時代的錯誤。
拉長時間軸看,萬物皆有周期。
但當技術範式發生躍遷時,新需求的爆發會徹底拉長周期的波峰,將一個原本 2 年一震盪的「短庫存周期」,硬生生撐成一個長達數十年、震耳欲聾的「超級結構性周期(Super Structural Cycle)」。
當前的時間節點具備兩個極端的剪刀差特徵:
人群滲透率極低: 全球真正用上原生 Agent 系統的活躍用戶,比例甚至不足 1%。
使用深度極淺: 絕大多數用戶對 AI 的使用還停留在「幫我潤色一段話」的 Stateless 階段,真正讓 Agent 7x24 小時掛機搞定複雜工作流的深度應用才剛剛抬頭。
在未來至少 5 年內,我們根本看不到這一輪由 Agentic AI 驅動的儲存需求周期的頂部。
軟體範式的改變(從無狀態問答到長程有狀態智能體),必然逼迫硬體範式發生同頻共振(從計算中心論走向儲存中心論)。
誰真正讀懂了 AI 智能體的底層運行邏輯,誰就會明白:這一輪的儲存暴漲,不是硅周期的回暖,而是一次人類資訊技術架構的推倒重來。
算力決定了 AI 能跑多快,但儲存,最終決定了 AI 能走多遠。
來源:金色財經
發佈者對本文章的內容承擔全部責任
在投資加密貨幣前,請務必深入研究,理解相關風險,並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。
暢行幣圈交易全攻略,專家駐群實戰交流
▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群)
不管是新手發問,還是老手交流,只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!
上一篇
下一篇