美股

挑戰輝達霸權 Cerebras憑什麼成AI晶片最強黑馬？

鉅亨網新聞中心2026-05-15 04:30

AI 推理晶片新創 Cerebras Systems 於 5 月 14 日正式登陸納斯達克，IPO 估值達 488 億美元，較 8 個月前約 81 億美元估值暴增逾 6 倍，並傳出超額認購超過 20 倍，成為今年全球估值規模最大的 IPO 之一。

市場之所以對 Cerebras 抱持高度期待，核心原因在於 AI 產業正快速從「訓練時代」邁向「推理時代」，而傳統 GPU 架構在推理場景中的效率瓶頸逐漸浮現。

‌

輝達 (NVDA-US) 執行長黃仁勳今年於 GTC 2026 大會上坦言，「AI 推理拐點已至」。根據德勤統計，2023 年企業 AI 算力支出仍以訓練為主，占比約 60%，推理僅 40%；但兩年後，推理占比預計將提高至 85%。

創投機構 Andreessen Horowitz(a16z) 研究指出，2025 年推理模型消耗的 token 占比，已從過去接近零快速攀升至整體 AI 算力需求的一半以上，顯示 AI 模型升級正持續放大推理算力需求。

不過，GPU 在推理任務上存在結構性限制。大型語言模型 (LLM) 推理主要分為 Prefill(預填充)與 Decode(解碼)兩階段。GPU 擅長前者的大規模平行運算，但 Decode 屬於序列式生成，每個 token 皆需等待前一個 token 完成，同時反覆讀取模型權重與 KV Cache 資料，造成龐大的資料搬運負擔。

以 700 億參數模型為例，其模型權重約達 140GB，加上持續增長的 KV Cache，GPU 運算過程往往受限於記憶體頻寬，而非純粹算力。業界將此問題稱為「記憶體牆 (Memory Wall)」。

數據顯示，AI 算力每兩年約提升 3 倍，但 HBM 記憶體頻寬僅增加 1.6 倍。若拉長至 10 年觀察，算力增幅高達 1000 倍，頻寬卻僅提升 10 倍，導致 GPU 大量時間消耗於資料搬運而非實際運算。

HuggingFace 分析甚至指出，輝達 B200 GPU 在 batch 等於 1 的推理場景下，Tensor Core 閒置率超過 99%。

即便如此，推理仍是輝達最核心收入來源。黃仁勳曾公開表示，輝達資料中心業務約 65% 收入來自推理應用。市場認為，這也解釋了為何輝達近期積極布局低延遲推理架構，甚至傳出斥資約 200 億美元收購 Groq 相關技術。

在此背景下，Cerebras 以「晶圓級運算」架構切入市場，試圖顛覆傳統 GPU 設計。

其核心產品 WSE-3(Wafer Scale Engine 3) 直接將整片 300mm 矽晶圓做成單一處理器，而非傳統切割成多顆 GPU。WSE-3 內建 90 萬個 AI 核心、44GB 片上 SRAM，官方宣稱頻寬達 21PB/s，相較輝達 B200 約 8TB/s 頻寬高出 2625 倍。

這種設計使資料交換無須跨晶片傳輸，大幅降低延遲。根據官方測試，在 Llama 3.3 70B 模型推理中，Cerebras 每秒 token 輸出達 2140，相較最佳 GPU 方案約 120，高出近 18 倍；即使在 Llama 4 Maverick 400B 模型上，也達 2500 對 1000，性能超過 2 倍。

不過，晶圓級架構長年被視為「幾乎不可能實現」的技術方向，主要卡在三大工程難題。

首先是光刻限制。傳統光刻單次曝光最大尺寸約 26mm×33mm，遠小於整片晶圓。Cerebras 與台積電 (TSM-US) 合作開發「劃線橋接」技術，透過延伸金屬沉積路徑，讓整片晶圓形成統一運算網路。

其次是超大晶片良率問題。Cerebras 將單一 AI 核心面積縮小至 0.05 平方毫米，約僅為 H100 SM 核心面積的 1%，即使局部缺陷，也僅影響極小區域，並透過 1% 至 1.5% 備援核心提高容錯能力。

第三則是供電與散熱。WSE-3 功耗高達 23kW，需要超過 2 萬安培電流。Cerebras 採用上方垂直供電與底部水冷散熱設計，將整片晶圓溫差控制在 20℃內。

在技術想像空間與 AI 推理熱潮推升下，Cerebras 估值一路飆升。根據 S-1 文件，公司估值從 81 億美元升至 230 億美元，最終 IPO 估值達 488 億美元。

此外，OpenAI 也與 Cerebras 簽署超過百億美元的多年合作協議，而亞馬遜 (AMZN-US) 旗下 AWS 亦選擇導入 Cerebras 作為 Bedrock 推理加速層之一。

然而，高估值背後也伴隨明顯風險。

根據 S-1 文件，Cerebras IPO 估值約相當於 2025 年預估營收 5.1 億美元的 95 倍本益比，而輝達目前約為 25 倍，意味市場給予 Cerebras 近 4 倍於輝達的估值溢價。

但獲利能力方面，Cerebras 仍遠落後於輝達。輝達毛利率約 75% 至 80%，Cerebras 僅 39%。公司 2025 年 GAAP 淨利約 2.378 億美元，但其中包含 3.63 億美元非現金會計收益；若以 Non-GAAP 計算，實際仍虧損 7570 萬美元。

此外，公司營收高度集中。2025 年約 86% 收入來自阿聯酋兩家機構，其中 MBZUAI 占 62%，G42 占 24%，而美國市場收入反而年減 34%。

OpenAI 雖簽下百億美元合作，但其角色同時也是客戶、債權人、潛在股東與早期投資者。文件顯示，246 億美元訂單積壓中，僅 15% 將於 2026 至 2027 年認列，其餘 43% 須等到 2028 至 2029 年。若 Cerebras 無法如期交付產能，OpenAI 有權終止合約並要求償還貸款。

更重要的是，OpenAI 並未將所有推理布局押注於 Cerebras。去年 10 月，OpenAI 也與超微 (AMD-US) 簽署 6GW 部署協議。AWS 雖與 Cerebras 合作，但主要推理架構仍以自研 Trainium 3 為核心。

市場人士指出，目前各大科技公司普遍採取多路線並行策略，尚無任何一家將 Cerebras 視為唯一主力方案。

此外，業界也質疑其測試數據可能受「推測解碼」技術加持。該技術由小模型預測 token、大模型驗證，可額外提升約 3 倍速度，代表純硬體優勢未必如數據顯示般巨大。

更大的限制則來自 44GB 片上記憶體容量。隨著 AI Agent 與長上下文應用快速發展，未來模型對記憶體需求將遠超 44GB。分析指出，Cerebras 在短上下文場景下速度驚人，但一旦超出片上記憶體範圍，性能與成本優勢便會快速下降。

整體而言，市場目前對 Cerebras 的期待，更多來自「稀缺 AI 基礎設施」的資本敘事，而非已被完全驗證的商業模式。

未來 Cerebras 能否真正挑戰輝達地位，關鍵仍在於兩點：OpenAI 等大型合約能否順利落地，以及晶圓級架構能否突破記憶體與應用場景限制。

若無法持續擴大商業化應用，這場 AI 推理革命背後的高估值敘事，也可能面臨泡沫化風險。

‌