金色財經
作者:Malika Aubakirova,Matt Bornstein;來源:a16z;編譯:Shaw,金色財經
在克里斯托弗・諾蘭的電影《記憶碎片》中,倫納德・謝爾比活在一個破碎的當下。在遭遇創傷性腦損傷後,他患上了順行性遺忘症,無法形成新的記憶。每隔幾分鐘,他的世界就會重置,讓他困在永恆的此刻,與剛剛發生的一切脫節,也無法確定接下來會發生什麼。為了活下去,他把提示文身刺在身上、拍下拍立得照片,用這些外部道具來記住大腦無法留存的資訊。
大語言模型(LLM)也活在類似的永恆當下。它們在訓練中獲得海量知識,並被固化在參數裡,卻無法形成新記憶—— 無法根據新的經歷更新自身參數。為了彌補這一缺陷,我們為它們搭建了各種輔助框架:把對話歷史當作短期便簽,把檢索系統當作外部筆記本,把系統提示當作指導性文身。但模型本身從未真正將新資訊內化。
越來越多的研究者認為,這遠遠不夠。語境學習(ICL)對於答案或答案片段已存在於世界某處的問題是足夠的。但對於需要真正原創性發現的問題(如全新的數學問題)、對抗性場景(如網路安全),或是難以用語言表述的隱性知識,有充分的理由表明:模型需要一種在部署後,能將知識與經驗直接更新到自身參數中的能力。
語境學習是短暫易逝的。真正的學習需要資訊壓縮。如果不能讓模型持續進行壓縮式學習,我們可能會永遠困在《記憶碎片》式的永恆當下。反之,如果我們能讓模型學會構建自己的記憶架構,而不是依賴定製化外部工具,或許就能打開全新的規模化升級維度。
這一研究領域被稱為持續學習。儘管這一概念並非全新(可追溯至McCloskey和Cohen 1989年的研究),但我們認為,它是當前人工智慧領域最重要的研究方向之一。過去兩三年間,模型能力實現了驚人增長,而模型 「已知」 與 「可知」 之間的差距也愈發明顯。因此,本文希望分享我們與該領域頂尖研究者交流所得的見解,釐清持續學習的不同技術路徑,並在創業生態中推動這一議題的發展。
在論證參數化學習(即通過更新模型權重實現的學習)之前,必須承認:語境學習確實有效,而且有充分理由相信它會持續占據優勢。
Transformer 本質上是對序列進行條件化的下一個詞預測模型。只要輸入合適的序列,無需改動權重,就能展現出驚人的豐富行為。這也是語境管理、提示詞工程、指令微調與小樣本學習如此強大的原因。智能蘊藏在靜態參數中,而模型的外在表現會隨著輸入窗口內容的變化而劇烈改變。
Cursor 近期關於自主編程智能體規模化的深度分析就很好地說明了這一點:「系統的大量表現,歸根結底取決於我們如何為智能體設計提示詞。框架和模型固然重要,但提示詞更為關鍵。」
模型權重是固定的。讓系統真正運轉起來的,是對語境的精細編排:該包含哪些資訊、何時進行總結、如何在數小時的自主運行中保持連貫狀態。
OpenClaw 就是另一個絕佳案例。它之所以脫穎而出,並非依靠特殊的模型權限(底層模型對所有人都是開放的),而是因為它能高效地將語境與工具轉化為可運行的狀態:追蹤你的操作、結構化中間產物、決定哪些內容需要重新注入提示詞,並對過往工作保留持久記憶。OpenClaw 將智能體框架設計提升成了一門獨立的專業技術。
提示詞剛出現時,許多研究者都懷疑 「僅靠提示詞」 能否成為正式的交互方式,當時它看起來更像一種投機取巧的技巧。但這種方式天然適配 Transformer 架構,無需重新訓練,還能隨著模型性能提升自動擴展。因此,模型越強大,提示詞的效果就越好。「簡陋但原生」 的交互方式往往能勝出,因為它們直接與底層系統協同,而非與之對抗。到目前為止,大語言模型領域正是如此。
隨著主流工作流程從直接調用大語言模型轉向智能體循環,語境學習模式的壓力正不斷增大。以往,語境被完全占滿的情況相對少見,通常只有在讓模型執行一長串獨立任務時才會出現,且應用層可以通過簡單方式刪減或壓縮對話歷史。但在智能體場景下,單個任務就可能占用大量可用語境空間。智能體循環中的每一步都依賴上一輪傳遞的語境,往往在運行 20 至 100 步後就會失效 —— 因為語境耗盡、邏輯連貫性下降,最終無法收斂。
因此,各大主流人工智慧實驗室如今正投入大量資源(如大規模訓練任務),研發具備超大語境窗口的模型。這是一種順理成章的思路,因為它基於已驗證有效的語境學習,且完美契合行業向推理算力轉型的大趨勢。最常見的架構是將固定記憶層與普通注意力頭交替搭配,也就是狀態空間模型及各類線性注意力變體(為簡便起見,我們統稱為 SSM)。在處理長語境時,SSM 的擴展特性從根本上優於傳統注意力機制。
其目標是幫助智能體在更長的循環中保持邏輯連貫,將有效步數從約 20 步提升至約 20000 步,同時不損失傳統 Transformer 所具備的廣泛技能與知識。如果這一思路可行,將是長時運行智能體的重大突破。你甚至可以把這種方式視作一種持續學習:雖然沒有更新模型權重,但引入了一個幾乎不需要重置的外部記憶層。
因此,這些非參數化方法是真實存在且效果強勁的。任何對持續學習的評估都必須從這裡開始。問題不在於當前基於語境的系統是否有效 —— 它們確實有效。而在於我們是否已經觸達天花板,以及新方法能否帶我們走得更遠。
「AGI 與預訓練所發生的情況是,從某種意義上說,它們超額完成了目標…… 人類並非 AGI。誠然,人類有基礎技能體系,但卻缺乏海量知識。相反,我們依靠的是持續學習。假如我造出一個超級聰明的 15 歲少年,他其實所知甚少。他是個優秀的學生,充滿求知慾。你可以告訴他:『去做程序員,去當醫生。』模型部署本身就需要一段學習、試錯的過程。這是一個漸進過程,而不是直接交付一個成品。」—— 伊利亞・蘇茨克維
想象一個擁有無限儲存空間的系統:世界上最大的文件櫃,每條事實都被完美索引,可瞬間檢索。它能查到任何資訊。但它學會了嗎?
並沒有。它從未被要求進行資訊壓縮。
這是我們核心論點的關鍵,也借鑑了伊利亞・蘇茨克維曾提出的觀點:大語言模型的本質,就是壓縮算法。在訓練階段,它們將網路壓縮進參數中。這種壓縮是有損的,而這恰恰是其強大之處。壓縮迫使模型發現結構、實現泛化、構建可跨語境遷移的表征。只會死記硬背訓練樣本的模型,遠不如能提煉底層規律的模型。有損壓縮本身,就是學習。
諷刺之處在於:正是這套讓大語言模型在訓練中變得強大的機制(將原始數據壓縮為緊湊、可遷移的表征),我們卻在模型部署後拒絕讓它們繼續使用。我們在模型發布時就停止了壓縮,轉而用外部記憶取而代之。當然,大多數智能體框架會以某種定製方式對語境進行壓縮。但從 「慘痛教訓」 來看,難道不應該讓模型自身直接、大規模地學會這種壓縮嗎?
Yu Sun 分享了一個數學例子來說明這場爭論。以費馬大定理為例:350 多年來,沒有數學家能證明它 —— 並非因為缺乏相關文獻,而是因為解法極具創新性。既有數學體系與最終答案之間的概念鴻溝實在過於巨大。20 世紀 90 年代,英國數學家安德魯・懷爾斯在近乎與世隔絕地研究七年後,最終攻克了這一難題,他不得不創造出強大的新方法來完成證明。他的論證成功架起了數學兩大分支 —— 橢圓曲線與模形式之間的橋樑。儘管美國數學家肯・里貝特此前的研究已證明,只要證明這一關聯就能解決費馬大定理,但在懷爾斯之前,無人擁有構建這座橋樑的理論工具。俄羅斯數學家格里戈里・佩雷爾曼對龐加萊猜想的證明也是同理。
核心問題在於:這些例子是否證明大語言模型缺失了某種能力 —— 一種更新先驗認知、進行真正創造性思考的能力?還是說,這些例子恰恰證明了相反的結論:人類所有知識都只是可供訓練與重組的數據,而懷爾斯與佩雷爾曼的成就,只是大語言模型在更大規模下所能實現的效果?
這是一個需要實證檢驗的問題,目前尚無定論。但我們已經明確,有許多類問題是當前語境學習無法解決的,而參數化學習卻可能發揮作用。例如:
此外,語境學習僅限於可用語言表達的內容,而模型權重可以編碼那些無法通過提示詞用文字傳遞的概念。有些模式維度過高、過於隱性、結構性過深,無法容納在語境裡。例如,醫學影像中區分良性病灶與腫瘤的視覺紋理,或是定義說話人獨特節奏的音頻微波動,這些模式很難被拆解成精確的文字描述。語言只能近似表達它們。無論提示詞多長,都無法傳遞這類知識 —— 這類知識只能存在於權重之中。它們存在於學習表征的隱空間裡,而非文字中。無論語境窗口擴展到多大,總會有無法用文本描述、只能儲存在參數裡的知識。
這或許可以解釋,為什麼像 ChatGPT 記憶這類明確的 「機器人記住你」 的功能,往往會讓用戶感到不適,而非驚喜。用戶其實並不想要單純的回憶,他們想要的是能力。一個內化了你的行為模式的模型,可以泛化應對新場景;而一個只會調取你過往記錄的模型則做不到。「這是你之前對這封郵件的回覆」(逐字複述)與 「我足夠了解你的思路,能預判你需要什麼」 之間的差別,就是檢索與學習的本質區別。
持續學習有多種實現路徑,核心分界不在於 「有無記憶功能」,而在於:壓縮發生在何處。相關方法大致可分為三類,形成一個連續譜系:
無壓縮(純檢索,權重凍結)
完全內部壓縮(權重級學習,模型真正變聰明)
一個重要的中間方案:模塊化方案
在語境這一端,研究團隊會構建更智能的檢索流程、智能體框架與提示詞編排系統。這是目前最成熟的方向:基礎設施已得到驗證,部署流程也清晰可控。其侷限性在於深度,也就是語境長度。
這裡有一個值得關注的新興拓展方向:多智能體架構,將其作為語境本身的擴展策略。如果單個模型受限於 128K 令牌的窗口,那麼一組協同運作的智能體集群 —— 每個智能體持有自身語境、專攻問題的一個細分部分並互通結果 —— 可以整體近似實現無限大的工作記憶。每個智能體在自身窗口內完成語境學習,再由系統進行結果聚合。Karpathy 近期的自主研究項目以及 Cursor 構建網頁瀏覽器的案例,都屬於這類早期實踐。這是一種純非參數化方法(不改變權重),卻極大提升了基於語境的系統所能達到的上限。
在模塊化方向,團隊會搭建可掛載的知識模塊(壓縮鍵值緩存、適配器層、外部儲存庫等),在無需重新訓練的情況下,讓通用模型具備專項能力。一個 80 億參數的模型搭配合適的模塊,就能在特定任務上達到 1090 億參數模型的效果,且僅占用極少的內存。該方案的吸引力在於,它能兼容現有的 Transformer 架構。
在權重更新方向,研究人員正在探索真正的參數化學習,例如僅更新相關部分參數的稀疏記憶層、通過反饋持續優化模型的強化學習循環,以及在推理階段將語境壓縮進權重的測試時訓練等。這些是最深入的方案,也是部署難度最高的,但它們能真正讓模型完全內化新資訊或新技能。
目前已有多種參數化更新機制,以下是幾個代表性研究方向:
權重層面的研究領域包含多條並行的技術路線。正則化與權重空間方法是歷史最悠久的方向:彈性權重固化會根據參數對先前任務的重要性,對參數變動施加懲罰;權重插值法則在參數空間中對新舊權重組合進行融合,不過這兩種方法在大規模應用時往往穩定性不足。測試時訓練由 Sun 等人於 2020 年率先提出,此後發展為多種基礎架構模塊(TTT 層、端到端 TTT、TTT-Discover 等),其思路截然不同:在測試數據上執行梯度下降,在關鍵節點將新資訊壓縮進模型參數。元學習則探索能否訓練出具備學習能力的模型,從適合小樣本場景的 MAML 參數初始化方法,到 Behrouz 等人 2025 年提出的嵌套學習,後者將模型設計為多層級優化結構,在不同時間尺度運行,受生物記憶鞏固機制啟發,設置了快速適配模塊與慢速更新模塊。
知識蒸餾通過讓學生模型擬合凍結的教師模型權重,來保留舊任務知識。LoRD 通過對模型與回放緩衝區同時剪枝,讓這一過程實現高效持續運行。自蒸餾則反轉了信號來源,使用模型自身基於專家條件生成的輸出作為訓練信號,避免了連續微調中常見的災難性遺忘問題。遞歸自我進化思路與之相似:STaR 通過模型自生成的推理邏輯實現能力迭代;AlphaEvolve 發現了數十年來未被改進的算法優化方向;Silver 與 Sutton 提出的「經驗時代」則將智能體的學習建立在持續不斷的經驗流之上。
這些研究方向正逐步融合。TTT-Discover 已經將測試時訓練與強化學習驅動的探索相結合;HOPE 架構在單一模型中嵌套了快慢雙學習循環;SDFT 把蒸餾轉化為自我提升的基礎單元。不同技術路線的邊界日漸模糊 —— 下一代持續學習系統很可能會融合多種策略,用正則化保證穩定性,用元學習加速學習,用自我提升實現能力複利。越來越多的初創團隊正圍繞這一技術體系的不同層面展開布局。
非參數化路線是目前最為大眾熟知的方向。智能體框架廠商(Letta、mem0、Subconscious)搭建編排層與輔助架構,管理輸入語境窗口的內容;外部儲存與檢索增強生成(RAG)基礎設施(如 Pinecone、xmemory)提供檢索底層支持。數據本身已經存在,核心挑戰在於如何在合適的時機為模型篩選並提供精準的數據片段。隨著語境窗口不斷擴大,這類公司的設計空間也隨之拓展,尤其是框架領域,一批新創公司正湧現,用於管理日趨複雜的語境策略。
參數化路線則發展階段更早、技術路線更多元。相關公司嘗試實現各類部署後壓縮方案,讓模型在權重中內化新資訊。根據模型發布後的學習方式,這些路徑可分為幾個明確的方向。
局部壓縮:無需重訓練的學習。部分團隊開發可掛載的知識模塊(壓縮鍵值緩存、適配器層、外部記憶庫),在不改動核心權重的前提下,為通用模型賦予專項能力。其核心理念是:在可控的穩定性與可塑性平衡下實現有意義的資訊壓縮,而非僅做檢索,因為學習過程被隔離,而非分散在整個參數空間。一個 80 億參數的模型搭配合適模塊,就能在特定任務上達到遠更大模型的效果。該路線的優勢在於可組合性:模塊可直接適配現有 Transformer 架構,能獨立替換或更新,且實驗成本遠低於重新訓練。
強化學習與反饋循環:從信號中學習。另一些團隊認為,部署後學習最豐富的信號本就存在於部署流程中 —— 用戶修正、任務成敗、真實場景的獎勵反饋等。核心思路是,模型應將每一次交互都視為潛在的訓練信號,而非僅當作推理請求。這與人類在工作中提升能力的模式高度相似:實踐、獲得反饋、內化有效經驗。工程難點在於,如何將稀疏、嘈雜甚至帶有對抗性的反饋轉化為穩定的權重更新,避免災難性遺忘;而一旦模型能真正從部署中學習,其價值會隨時間不斷累積,這是純語境系統無法實現的。
以數據為中心的路徑:從優質信號中學習。一個相關但獨立的方向認為,瓶頸並非學習算法,而是訓練數據與配套系統。這類團隊專注於篩選、生成或合成高質量數據,驅動持續更新:其核心前提是,若模型能獲取高質量、結構化的學習信號,只需更少梯度步驟即可實現有效提升。這與反饋循環路線的公司理念相通,但更側重上游問題:不僅關注模型能否學習,更關注學習內容與學習程度。
全新架構:從設計層面實現學習。最激進的路線認為,Transformer 架構本身就是瓶頸,持續學習需要底層完全不同的計算單元 —— 具備連續時間動態特性與內置記憶機制的架構。其核心理念是結構性的:若要打造持續學習系統,就應將學習機制內置在基礎架構中。
各大主流實驗室也都在這些方向上積極布局。一部分在探索更優的語境管理與思維鏈推理方案,另一部分則在試驗外部記憶模塊或離線計算(睡眠期計算)流程。還有多家未公開的初創公司正在研發全新架構。該領域目前仍處於早期階段,尚無任何一種方法占據絕對優勢;而且從應用場景的多樣性來看,未來也不太可能出現一家獨大的局面。
在生產環境中直接更新模型參數,會引發一連串連鎖式的失效問題,這些問題至今仍未在大規模場景下得到解決。
這些工程問題已有大量文獻記載。災難性遺忘意味著,模型對新數據的學習敏感度足夠高時,會破壞已有的表徵結構 —— 這就是穩定性 — 可塑性困境。時序解耦問題則表現為:不變規則與可變狀態被壓縮進同一組權重中,更新其中一方就會破壞另一方。邏輯整合失效是因為事實更新無法傳導至其衍生結論:改動僅侷限於詞元序列局部,而非語義概念層面。此外,知識消除至今無法實現:不存在可微的減法運算,因此虛假或有害知識無法被精準剔除。
但還有另一類問題較少受到關注。當前訓練與部署相分離的模式,不僅是工程上的便利安排,更是安全、可審計性與治理的邊界。一旦打破這一界限,多項機制會同時失效。安全對齊可能出現不可預測的退化:即便只在良性數據上進行小範圍微調,也可能產生大範圍的對齊偏差行為。持續更新會製造數據投毒面—— 一種緩慢、持久地存在於權重中的提示詞注入攻擊。可審計性不復存在,因為持續更新的模型是一個行動目標,無法進行版本管理、回歸測試或一次性認證。當用戶交互被壓縮進參數時,隱私風險會加劇:敏感資訊被嵌入表征中,遠比檢索式語境更難過濾。
這些都是懸而未決的問題,而非本質上的不可能。解決這些問題,與攻克核心架構難題一樣,都是持續學習研究議程的重要組成部分。
在《記憶碎片》中,倫納德的悲劇並非他無法正常生活:他足智多謀,在每一個場景中甚至堪稱聰慧。他的悲劇在於永遠無法實現能力複利。所有經歷都停留在外部 —— 一張拍立得、一處文身、一行別人寫下的筆記。他可以檢索,卻無法壓縮新知識。
當倫納德在自己構築的迷宮中前行時,真相與信念的界限開始模糊。他的病症不僅剝奪了記憶,還迫使他不斷重構意義,使他在自己的故事裡同時成為調查者與不可靠的敘述者。
如今的人工智慧也受限於同樣的困境。我們已經構建出能力極強的檢索系統:更長的語境窗口、更智能的框架、協同運作的多智能體集群,而且它們確實有效!但檢索不等於學習。一個能查閱任何事實的系統,並未被要求去發現結構,也沒有被要求實現泛化。正是那種讓訓練如此強大的有損壓縮機制 —— 將原始數據轉化為可遷移表征的能力 —— 在模型部署的那一刻被我們關閉了。
未來的發展路徑或許不是單一突破,而是一套分層系統。語境學習仍將是適配的第一道防線:它原生、經過驗證且仍在持續優化。模塊化機制可以承擔個性化與領域專業化的中間任務。但面對原創發現、對抗性適應、無法用語言表達的隱性知識這類難題,我們可能需要模型在訓練後仍能將經驗壓縮進參數。這意味著要在稀疏架構、元學習目標與自我提升循環上取得進展。這或許還要求我們重新定義 「模型」 的內涵:不再是一組固定權重,而是一個不斷進化的系統,包含記憶、更新算法,以及從自身經驗中抽象規律的能力。
文件櫃只會越來越大。但再大的文件櫃,也終究只是文件櫃。真正的突破,是讓模型在部署後繼續做那件讓它在訓練中變得強大的事:壓縮、抽象、學習。我們正站在關鍵節點,即將從失憶般的模型,邁向擁有一絲經驗感知的智能體。否則,我們將永遠困在屬於自己的《記憶碎片》之中。
來源:金色財經
發佈者對本文章的內容承擔全部責任
在投資加密貨幣前,請務必深入研究,理解相關風險,並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。
暢行幣圈交易全攻略,專家駐群實戰交流
▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群)
不管是新手發問,還是老手交流,只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!
上一篇
下一篇