鉅亨網編譯余曉惠
彭博引述知情人士說法報導,SpaceX(SPCX-US)在使用位於田納西州孟菲斯 (Memphis) 的 Colossus 1 資料中心訓練與運作 Grok 人工智慧 (AI) 模型時遭遇技術挑戰,因此決定將該設施的全部算力出租給 Anthropic 。
根據知情人士,馬斯克的公司原本計劃由三座資料中心園區組成的大型運算叢集,為最先進 AI 模型提供龐大算力進行訓練。然而,Colossus 1 與另外兩座相距超過 10 英里的園區連接時出現延遲問題,加上網路基礎設施老舊,使問題更加嚴重。
通常要訓練規模更大、能力更強的 AI 模型,需要極高速的資料傳輸連線。如果不同設施之間使用較舊或頻寬不足的網路連結,就可能產生延遲,進而拖慢整個資料中心叢集的運作效率。
知情人士指出,與其持續投入資源解決這些限制,SpaceX 認為將該設施出租給其他企業、創造新的營收來源,能夠發揮更高價值。
SpaceX 今年稍早完成對 xAI 的收購案,並在史上最大規模 IPO 路演期間,將資料中心建設列為向投資人推銷的重要賣點之一。
目前 Anthropic 與 Alphabet(GOOGL-US) 旗下 Google,都已和 SpaceX 簽署運算服務協議,未來數年合約價值可望達數百億美元,有助這家火箭製造商轉型為 AI 基礎設施供應商。
然而,Colossus 1 用途轉變,反映出馬斯克快速打造龐大 AI 資料中心版圖的過程中所面臨的困難與高昂成本。馬斯克曾多次強調,首座 Colossus 資料中心僅用 122 天便完成建設,不僅超越公司原先預估,也遠快於業界平均速度。
除了延遲問題外,知情人士表示,Colossus 1 與其他設施整合時還受到硬體規格差異影響。
Colossus 1 內部混合部署多個世代的輝達 (NVDA-US)AI 晶片,包括 Hopper 與 Blackwell 系統,以及部分較舊的 AI 加速器。而 Colossus 2 與 Colossus 3 則主要採用較一致的 Blackwell 架構打造。
在大型資料中心叢集中,運算工作會分散至多台機器執行,這些設備必須維持同步運作。如果其中一座設施使用較舊晶片,就可能出現瓶頸,迫使效能更高的加速器必須等待較慢設備完成運算,最後將使整體叢集效能比較接近最慢硬體的水準,而非最快設備的能力。
若能出租 Colossus 1 全部算力,SpaceX 得以將未被充分利用的基礎設施轉化為收益,同時保留更新的資料中心專供 AI 研發使用。
SpaceX 財務長 Bret Johnsen 近期表示,該公司並未放棄內部 AI 服務計畫,包括 Grok 在內的產品仍將持續推進。
馬斯克也曾說,SpaceX 保留提前終止與 Anthropic 運算合作協議的權利,只要事先提供充分通知即可。他當時說:「如果算力供應變得非常緊張,我曾說過未來某個時候我們可能會把它回收以使用。」
(本文不開放合作夥伴轉載)
上一篇
下一篇
