區塊鏈

a16z：AI時代為何需要大模型持續學習

金色財經2026-04-23 11:00

作者：Malika Aubakirova，Matt Bornstein；來源：a16z；編譯：Shaw，金色財經

在克里斯托弗・諾蘭的電影《記憶碎片》中，倫納德・謝爾比活在一個破碎的當下。在遭遇創傷性腦損傷後，他患上了順行性遺忘症，無法形成新的記憶。每隔幾分鐘，他的世界就會重置，讓他困在永恆的此刻，與剛剛發生的一切脫節，也無法確定接下來會發生什麼。為了活下去，他把提示文身刺在身上、拍下拍立得照片，用這些外部道具來記住大腦無法留存的資訊。

大語言模型（LLM）也活在類似的永恆當下。它們在訓練中獲得海量知識，並被固化在參數裡，卻無法形成新記憶—— 無法根據新的經歷更新自身參數。為了彌補這一缺陷，我們為它們搭建了各種輔助框架：把對話歷史當作短期便簽，把檢索系統當作外部筆記本，把系統提示當作指導性文身。但模型本身從未真正將新資訊內化。

越來越多的研究者認為，這遠遠不夠。語境學習（ICL）對於答案或答案片段已存在於世界某處的問題是足夠的。但對於需要真正原創性發現的問題（如全新的數學問題）、對抗性場景（如網路安全），或是難以用語言表述的隱性知識，有充分的理由表明：模型需要一種在部署後，能將知識與經驗直接更新到自身參數中的能力。

‌

語境學習是短暫易逝的。真正的學習需要資訊壓縮。如果不能讓模型持續進行壓縮式學習，我們可能會永遠困在《記憶碎片》式的永恆當下。反之，如果我們能讓模型學會構建自己的記憶架構，而不是依賴定製化外部工具，或許就能打開全新的規模化升級維度。

這一研究領域被稱為持續學習。儘管這一概念並非全新（可追溯至McCloskey和Cohen 1989年的研究），但我們認為，它是當前人工智慧領域最重要的研究方向之一。過去兩三年間，模型能力實現了驚人增長，而模型「已知」與「可知」之間的差距也愈發明顯。因此，本文希望分享我們與該領域頂尖研究者交流所得的見解，釐清持續學習的不同技術路徑，並在創業生態中推動這一議題的發展。

先談談語境

在論證參數化學習（即通過更新模型權重實現的學習）之前，必須承認：語境學習確實有效，而且有充分理由相信它會持續占據優勢。

Transformer 本質上是對序列進行條件化的下一個詞預測模型。只要輸入合適的序列，無需改動權重，就能展現出驚人的豐富行為。這也是語境管理、提示詞工程、指令微調與小樣本學習如此強大的原因。智能蘊藏在靜態參數中，而模型的外在表現會隨著輸入窗口內容的變化而劇烈改變。

Cursor 近期關於自主編程智能體規模化的深度分析就很好地說明了這一點：「系統的大量表現，歸根結底取決於我們如何為智能體設計提示詞。框架和模型固然重要，但提示詞更為關鍵。」

模型權重是固定的。讓系統真正運轉起來的，是對語境的精細編排：該包含哪些資訊、何時進行總結、如何在數小時的自主運行中保持連貫狀態。

OpenClaw 就是另一個絕佳案例。它之所以脫穎而出，並非依靠特殊的模型權限（底層模型對所有人都是開放的），而是因為它能高效地將語境與工具轉化為可運行的狀態：追蹤你的操作、結構化中間產物、決定哪些內容需要重新注入提示詞，並對過往工作保留持久記憶。OpenClaw 將智能體框架設計提升成了一門獨立的專業技術。

提示詞剛出現時，許多研究者都懷疑「僅靠提示詞」能否成為正式的交互方式，當時它看起來更像一種投機取巧的技巧。但這種方式天然適配 Transformer 架構，無需重新訓練，還能隨著模型性能提升自動擴展。因此，模型越強大，提示詞的效果就越好。「簡陋但原生」的交互方式往往能勝出，因為它們直接與底層系統協同，而非與之對抗。到目前為止，大語言模型領域正是如此。

狀態空間模型：超強版語境能力

隨著主流工作流程從直接調用大語言模型轉向智能體循環，語境學習模式的壓力正不斷增大。以往，語境被完全占滿的情況相對少見，通常只有在讓模型執行一長串獨立任務時才會出現，且應用層可以通過簡單方式刪減或壓縮對話歷史。但在智能體場景下，單個任務就可能占用大量可用語境空間。智能體循環中的每一步都依賴上一輪傳遞的語境，往往在運行 20 至 100 步後就會失效 —— 因為語境耗盡、邏輯連貫性下降，最終無法收斂。

因此，各大主流人工智慧實驗室如今正投入大量資源（如大規模訓練任務），研發具備超大語境窗口的模型。這是一種順理成章的思路，因為它基於已驗證有效的語境學習，且完美契合行業向推理算力轉型的大趨勢。最常見的架構是將固定記憶層與普通注意力頭交替搭配，也就是狀態空間模型及各類線性注意力變體（為簡便起見，我們統稱為 SSM）。在處理長語境時，SSM 的擴展特性從根本上優於傳統注意力機制。

其目標是幫助智能體在更長的循環中保持邏輯連貫，將有效步數從約 20 步提升至約 20000 步，同時不損失傳統 Transformer 所具備的廣泛技能與知識。如果這一思路可行，將是長時運行智能體的重大突破。你甚至可以把這種方式視作一種持續學習：雖然沒有更新模型權重，但引入了一個幾乎不需要重置的外部記憶層。

因此，這些非參數化方法是真實存在且效果強勁的。任何對持續學習的評估都必須從這裡開始。問題不在於當前基於語境的系統是否有效 —— 它們確實有效。而在於我們是否已經觸達天花板，以及新方法能否帶我們走得更遠。

語境的侷限：文件櫃謬誤

「AGI 與預訓練所發生的情況是，從某種意義上說，它們超額完成了目標…… 人類並非 AGI。誠然，人類有基礎技能體系，但卻缺乏海量知識。相反，我們依靠的是持續學習。假如我造出一個超級聰明的 15 歲少年，他其實所知甚少。他是個優秀的學生，充滿求知慾。你可以告訴他：『去做程序員，去當醫生。』模型部署本身就需要一段學習、試錯的過程。這是一個漸進過程，而不是直接交付一個成品。」—— 伊利亞・蘇茨克維

想象一個擁有無限儲存空間的系統：世界上最大的文件櫃，每條事實都被完美索引，可瞬間檢索。它能查到任何資訊。但它學會了嗎？

並沒有。它從未被要求進行資訊壓縮。

這是我們核心論點的關鍵，也借鑑了伊利亞・蘇茨克維曾提出的觀點：大語言模型的本質，就是壓縮算法。在訓練階段，它們將網路壓縮進參數中。這種壓縮是有損的，而這恰恰是其強大之處。壓縮迫使模型發現結構、實現泛化、構建可跨語境遷移的表征。只會死記硬背訓練樣本的模型，遠不如能提煉底層規律的模型。有損壓縮本身，就是學習。

諷刺之處在於：正是這套讓大語言模型在訓練中變得強大的機制（將原始數據壓縮為緊湊、可遷移的表征），我們卻在模型部署後拒絕讓它們繼續使用。我們在模型發布時就停止了壓縮，轉而用外部記憶取而代之。當然，大多數智能體框架會以某種定製方式對語境進行壓縮。但從「慘痛教訓」來看，難道不應該讓模型自身直接、大規模地學會這種壓縮嗎？

Yu Sun 分享了一個數學例子來說明這場爭論。以費馬大定理為例：350 多年來，沒有數學家能證明它 —— 並非因為缺乏相關文獻，而是因為解法極具創新性。既有數學體系與最終答案之間的概念鴻溝實在過於巨大。20 世紀 90 年代，英國數學家安德魯・懷爾斯在近乎與世隔絕地研究七年後，最終攻克了這一難題，他不得不創造出強大的新方法來完成證明。他的論證成功架起了數學兩大分支 —— 橢圓曲線與模形式之間的橋樑。儘管美國數學家肯・里貝特此前的研究已證明，只要證明這一關聯就能解決費馬大定理，但在懷爾斯之前，無人擁有構建這座橋樑的理論工具。俄羅斯數學家格里戈里・佩雷爾曼對龐加萊猜想的證明也是同理。

核心問題在於：這些例子是否證明大語言模型缺失了某種能力 —— 一種更新先驗認知、進行真正創造性思考的能力？還是說，這些例子恰恰證明了相反的結論：人類所有知識都只是可供訓練與重組的數據，而懷爾斯與佩雷爾曼的成就，只是大語言模型在更大規模下所能實現的效果？

這是一個需要實證檢驗的問題，目前尚無定論。但我們已經明確，有許多類問題是當前語境學習無法解決的，而參數化學習卻可能發揮作用。例如：

此外，語境學習僅限於可用語言表達的內容，而模型權重可以編碼那些無法通過提示詞用文字傳遞的概念。有些模式維度過高、過於隱性、結構性過深，無法容納在語境裡。例如，醫學影像中區分良性病灶與腫瘤的視覺紋理，或是定義說話人獨特節奏的音頻微波動，這些模式很難被拆解成精確的文字描述。語言只能近似表達它們。無論提示詞多長，都無法傳遞這類知識 —— 這類知識只能存在於權重之中。它們存在於學習表征的隱空間裡，而非文字中。無論語境窗口擴展到多大，總會有無法用文本描述、只能儲存在參數裡的知識。

這或許可以解釋，為什麼像 ChatGPT 記憶這類明確的「機器人記住你」的功能，往往會讓用戶感到不適，而非驚喜。用戶其實並不想要單純的回憶，他們想要的是能力。一個內化了你的行為模式的模型，可以泛化應對新場景；而一個只會調取你過往記錄的模型則做不到。「這是你之前對這封郵件的回覆」（逐字複述）與「我足夠了解你的思路，能預判你需要什麼」之間的差別，就是檢索與學習的本質區別。

持續學習入門

持續學習有多種實現路徑，核心分界不在於「有無記憶功能」，而在於：壓縮發生在何處。相關方法大致可分為三類，形成一個連續譜系：

無壓縮（純檢索，權重凍結）
完全內部壓縮（權重級學習，模型真正變聰明）
一個重要的中間方案：模塊化方案

語境

在語境這一端，研究團隊會構建更智能的檢索流程、智能體框架與提示詞編排系統。這是目前最成熟的方向：基礎設施已得到驗證，部署流程也清晰可控。其侷限性在於深度，也就是語境長度。

這裡有一個值得關注的新興拓展方向：多智能體架構，將其作為語境本身的擴展策略。如果單個模型受限於 128K 令牌的窗口，那麼一組協同運作的智能體集群 —— 每個智能體持有自身語境、專攻問題的一個細分部分並互通結果 —— 可以整體近似實現無限大的工作記憶。每個智能體在自身窗口內完成語境學習，再由系統進行結果聚合。Karpathy 近期的自主研究項目以及 Cursor 構建網頁瀏覽器的案例，都屬於這類早期實踐。這是一種純非參數化方法（不改變權重），卻極大提升了基於語境的系統所能達到的上限。

模塊化

在模塊化方向，團隊會搭建可掛載的知識模塊（壓縮鍵值緩存、適配器層、外部儲存庫等），在無需重新訓練的情況下，讓通用模型具備專項能力。一個 80 億參數的模型搭配合適的模塊，就能在特定任務上達到 1090 億參數模型的效果，且僅占用極少的內存。該方案的吸引力在於，它能兼容現有的 Transformer 架構。

權重更新

在權重更新方向，研究人員正在探索真正的參數化學習，例如僅更新相關部分參數的稀疏記憶層、通過反饋持續優化模型的強化學習循環，以及在推理階段將語境壓縮進權重的測試時訓練等。這些是最深入的方案，也是部署難度最高的，但它們能真正讓模型完全內化新資訊或新技能。

目前已有多種參數化更新機制，以下是幾個代表性研究方向：

權重層面的研究領域包含多條並行的技術路線。正則化與權重空間方法是歷史最悠久的方向：彈性權重固化會根據參數對先前任務的重要性，對參數變動施加懲罰；權重插值法則在參數空間中對新舊權重組合進行融合，不過這兩種方法在大規模應用時往往穩定性不足。測試時訓練由 Sun 等人於 2020 年率先提出，此後發展為多種基礎架構模塊（TTT 層、端到端 TTT、TTT-Discover 等），其思路截然不同：在測試數據上執行梯度下降，在關鍵節點將新資訊壓縮進模型參數。元學習則探索能否訓練出具備學習能力的模型，從適合小樣本場景的 MAML 參數初始化方法，到 Behrouz 等人 2025 年提出的嵌套學習，後者將模型設計為多層級優化結構，在不同時間尺度運行，受生物記憶鞏固機制啟發，設置了快速適配模塊與慢速更新模塊。

知識蒸餾通過讓學生模型擬合凍結的教師模型權重，來保留舊任務知識。LoRD 通過對模型與回放緩衝區同時剪枝，讓這一過程實現高效持續運行。自蒸餾則反轉了信號來源，使用模型自身基於專家條件生成的輸出作為訓練信號，避免了連續微調中常見的災難性遺忘問題。遞歸自我進化思路與之相似：STaR 通過模型自生成的推理邏輯實現能力迭代；AlphaEvolve 發現了數十年來未被改進的算法優化方向；Silver 與 Sutton 提出的「經驗時代」則將智能體的學習建立在持續不斷的經驗流之上。

這些研究方向正逐步融合。TTT-Discover 已經將測試時訓練與強化學習驅動的探索相結合；HOPE 架構在單一模型中嵌套了快慢雙學習循環；SDFT 把蒸餾轉化為自我提升的基礎單元。不同技術路線的邊界日漸模糊 —— 下一代持續學習系統很可能會融合多種策略，用正則化保證穩定性，用元學習加速學習，用自我提升實現能力複利。越來越多的初創團隊正圍繞這一技術體系的不同層面展開布局。

持續學習領域初創生態

非參數化路線是目前最為大眾熟知的方向。智能體框架廠商（Letta、mem0、Subconscious）搭建編排層與輔助架構，管理輸入語境窗口的內容；外部儲存與檢索增強生成（RAG）基礎設施（如 Pinecone、xmemory）提供檢索底層支持。數據本身已經存在，核心挑戰在於如何在合適的時機為模型篩選並提供精準的數據片段。隨著語境窗口不斷擴大，這類公司的設計空間也隨之拓展，尤其是框架領域，一批新創公司正湧現，用於管理日趨複雜的語境策略。

參數化路線則發展階段更早、技術路線更多元。相關公司嘗試實現各類部署後壓縮方案，讓模型在權重中內化新資訊。根據模型發布後的學習方式，這些路徑可分為幾個明確的方向。

局部壓縮：無需重訓練的學習。部分團隊開發可掛載的知識模塊（壓縮鍵值緩存、適配器層、外部記憶庫），在不改動核心權重的前提下，為通用模型賦予專項能力。其核心理念是：在可控的穩定性與可塑性平衡下實現有意義的資訊壓縮，而非僅做檢索，因為學習過程被隔離，而非分散在整個參數空間。一個 80 億參數的模型搭配合適模塊，就能在特定任務上達到遠更大模型的效果。該路線的優勢在於可組合性：模塊可直接適配現有 Transformer 架構，能獨立替換或更新，且實驗成本遠低於重新訓練。

強化學習與反饋循環：從信號中學習。另一些團隊認為，部署後學習最豐富的信號本就存在於部署流程中 —— 用戶修正、任務成敗、真實場景的獎勵反饋等。核心思路是，模型應將每一次交互都視為潛在的訓練信號，而非僅當作推理請求。這與人類在工作中提升能力的模式高度相似：實踐、獲得反饋、內化有效經驗。工程難點在於，如何將稀疏、嘈雜甚至帶有對抗性的反饋轉化為穩定的權重更新，避免災難性遺忘；而一旦模型能真正從部署中學習，其價值會隨時間不斷累積，這是純語境系統無法實現的。

以數據為中心的路徑：從優質信號中學習。一個相關但獨立的方向認為，瓶頸並非學習算法，而是訓練數據與配套系統。這類團隊專注於篩選、生成或合成高質量數據，驅動持續更新：其核心前提是，若模型能獲取高質量、結構化的學習信號，只需更少梯度步驟即可實現有效提升。這與反饋循環路線的公司理念相通，但更側重上游問題：不僅關注模型能否學習，更關注學習內容與學習程度。

全新架構：從設計層面實現學習。最激進的路線認為，Transformer 架構本身就是瓶頸，持續學習需要底層完全不同的計算單元 —— 具備連續時間動態特性與內置記憶機制的架構。其核心理念是結構性的：若要打造持續學習系統，就應將學習機制內置在基礎架構中。

各大主流實驗室也都在這些方向上積極布局。一部分在探索更優的語境管理與思維鏈推理方案，另一部分則在試驗外部記憶模塊或離線計算（睡眠期計算）流程。還有多家未公開的初創公司正在研發全新架構。該領域目前仍處於早期階段，尚無任何一種方法占據絕對優勢；而且從應用場景的多樣性來看，未來也不太可能出現一家獨大的局面。

簡單粗暴的權重更新為何行不通

在生產環境中直接更新模型參數，會引發一連串連鎖式的失效問題，這些問題至今仍未在大規模場景下得到解決。

這些工程問題已有大量文獻記載。災難性遺忘意味著，模型對新數據的學習敏感度足夠高時，會破壞已有的表徵結構 —— 這就是穩定性 — 可塑性困境。時序解耦問題則表現為：不變規則與可變狀態被壓縮進同一組權重中，更新其中一方就會破壞另一方。邏輯整合失效是因為事實更新無法傳導至其衍生結論：改動僅侷限於詞元序列局部，而非語義概念層面。此外，知識消除至今無法實現：不存在可微的減法運算，因此虛假或有害知識無法被精準剔除。

但還有另一類問題較少受到關注。當前訓練與部署相分離的模式，不僅是工程上的便利安排，更是安全、可審計性與治理的邊界。一旦打破這一界限，多項機制會同時失效。安全對齊可能出現不可預測的退化：即便只在良性數據上進行小範圍微調，也可能產生大範圍的對齊偏差行為。持續更新會製造數據投毒面—— 一種緩慢、持久地存在於權重中的提示詞注入攻擊。可審計性不復存在，因為持續更新的模型是一個行動目標，無法進行版本管理、回歸測試或一次性認證。當用戶交互被壓縮進參數時，隱私風險會加劇：敏感資訊被嵌入表征中，遠比檢索式語境更難過濾。

這些都是懸而未決的問題，而非本質上的不可能。解決這些問題，與攻克核心架構難題一樣，都是持續學習研究議程的重要組成部分。

從《記憶碎片》到真正的記憶

在《記憶碎片》中，倫納德的悲劇並非他無法正常生活：他足智多謀，在每一個場景中甚至堪稱聰慧。他的悲劇在於永遠無法實現能力複利。所有經歷都停留在外部 —— 一張拍立得、一處文身、一行別人寫下的筆記。他可以檢索，卻無法壓縮新知識。

當倫納德在自己構築的迷宮中前行時，真相與信念的界限開始模糊。他的病症不僅剝奪了記憶，還迫使他不斷重構意義，使他在自己的故事裡同時成為調查者與不可靠的敘述者。

如今的人工智慧也受限於同樣的困境。我們已經構建出能力極強的檢索系統：更長的語境窗口、更智能的框架、協同運作的多智能體集群，而且它們確實有效！但檢索不等於學習。一個能查閱任何事實的系統，並未被要求去發現結構，也沒有被要求實現泛化。正是那種讓訓練如此強大的有損壓縮機制 —— 將原始數據轉化為可遷移表征的能力 —— 在模型部署的那一刻被我們關閉了。

未來的發展路徑或許不是單一突破，而是一套分層系統。語境學習仍將是適配的第一道防線：它原生、經過驗證且仍在持續優化。模塊化機制可以承擔個性化與領域專業化的中間任務。但面對原創發現、對抗性適應、無法用語言表達的隱性知識這類難題，我們可能需要模型在訓練後仍能將經驗壓縮進參數。這意味著要在稀疏架構、元學習目標與自我提升循環上取得進展。這或許還要求我們重新定義「模型」的內涵：不再是一組固定權重，而是一個不斷進化的系統，包含記憶、更新算法，以及從自身經驗中抽象規律的能力。

文件櫃只會越來越大。但再大的文件櫃，也終究只是文件櫃。真正的突破，是讓模型在部署後繼續做那件讓它在訓練中變得強大的事：壓縮、抽象、學習。我們正站在關鍵節點，即將從失憶般的模型，邁向擁有一絲經驗感知的智能體。否則，我們將永遠困在屬於自己的《記憶碎片》之中。

來源：金色財經

發佈者對本文章的內容承擔全部責任
在投資加密貨幣前，請務必深入研究，理解相關風險，並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。

暢行幣圈交易全攻略，專家駐群實戰交流

▌立即加入鉅亨買幣實戰交流 LINE 社群（點此入群）
不管是新手發問，還是老手交流，只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資，都歡迎入群討論學習！

▶ 前往鉅亨買幣找交易所優惠

‌