menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon

美股

AI向人腦又近一步!Google發布嵌套學習、賦予LLM持續學習能力

鉅亨網新聞中心

科技巨頭 Google(GOOGL-US) 近日投下震撼彈,正式推出一項名為「嵌套學習」(Nested Learning)的全新機器學習範式。

cover image of news article
AI向人腦又近一步!Google發布嵌套學習、賦予LLM持續學習能力。(圖:Google)

這項革命性理論將模型視為一個嵌套的優化問題系統,旨在大幅增強大型語言模型(LLM)處理長上下文的能力,並有望緩解乃至徹底解決 LLM 的「災難性遺忘」問題,實現類似人腦的持續學習能力。


儘管 LLM 在過去十年取得了巨大成功,但在持續學習方面,仍存在根本性的挑戰。

現有 LLM 的知識多侷限於即時輸入窗口的上下文,一旦學習新知識,就容易「遺忘」舊資訊,即所謂的「災難性遺忘」。

傳統上,研究人員將模型架構與優化算法視為兩個獨立部分來應對 CF。然而,Google 提出的「嵌套學習」範式徹底打破了這一阻礙。

Google 的相關研究論文《Nested Learning: The Illusion of Deep Learning Architectures》已獲頂級學術會議 NeurIPS 2025 發表,標誌著深度學習領域理解的一次重大飛躍。

什麼是嵌套學習?

「嵌套學習」提出,複雜的機器學習模型不應僅被視為單一的連續學習過程,而是一個由多層次、互相關聯的學習任務構成的系統,這些任務可以同時以嵌套或並行的方式進行優化。

該理論認為,模型架構與訓練規則(如優化算法)本質上屬於相同概念,只是分屬於不同層級的優化問題。

每個層級擁有自己的資訊流和更新速率,使得模型在不同時間尺度上進行調整。

透過揭示這種內在結構,「嵌套學習」為 AI 設計提供了全新的視角。它允許構建計算深度更大的學習模組,有助於解決傳統模型面臨的災難性遺忘問題,並增強模型長期學習能力。

為了說明這一概念,研究人員以「聯想記憶」為例。訓練過程本身(尤其是反向傳播)可以被視為一種聯想記憶機制,將數據點映射到其局部誤差值,衡量每個數據點的意外性。

同樣,像 Transformer 中的注意力機制等核心架構,也可以形式化為學習 Token 間映射關係的聯想記憶模組。

研究人員進一步指出,透過為每個模組設定「更新頻率」,即權重調整的速率。不同的優化問題就能排列成分層的結構,這種有序層級構成了嵌套學習的核心。

此外,人腦中統一且可重用的結構,以及多時間尺度的更新方式,是人類持續學習的重要基礎。

「嵌套學習」允許模型的各個組件在不同時間尺度上進行更新,也表明像 Transformer 這樣的知名架構,其線性層實際上具備多頻率的更新特性。

應用展望:從深度優化器到連續譜記憶系統

基於「嵌套學習」的視角,可以直接獲得改進現有算法和架構的原則性方法:

  • 深度優化器(Deep optimizers): 將優化器(如動量優化器)視為聯想記憶模塊,研究人員推導出新的優化器公式,使其對不完美數據更具穩健性。
  • 連續譜記憶系統(Continuum memory systems, CMS): 將 LLM 中的短期(序列模型)和長期(前饋網路)記憶概念擴展。CMS 提出記憶是由一系列模塊組成的光譜,每個模塊都以特定的不同頻率進行更新,創造出更豐富、更有效的持續學習記憶系統。

為闡釋此範式,研究團隊設計了一個名為 Hope 的概念驗證架構。Hope 是 Titans 架構的一個變體,是一個自修改的循環架構。

Hope 能夠利用無限層級的上下文學習,並透過 CMS 模塊增強,以擴展到更大的上下文窗口。

它本質上可以透過一個自引用過程來優化自身的記憶,進而創造出一個具有無限循環學習層級的架構。

在語言建模、長上下文推理、持續學習和知識整合等一系列任務中,Hope 展現出卓越的性能:

  • 通用性能: 在一系列公開任務中,Hope 架構展現出比現代循環模型(如 Titans、Samba)和標準 Transformer 更低的困惑度和更高的準確率。
  • 長上下文處理: 在「大海撈針」(NIAH)下游任務中,Hope 證明了 CMS 是處理擴展信息序列的一種更高效方式,其性能在不同難度任務上均優於 Titans、TTT 和 Mamba2。

Google 研究團隊相信,「嵌套學習」為彌合當前 LLM 的遺忘特性與人腦卓越的持續學習能力之間的鴻溝,提供了一個堅實的基礎,並期待研究社區共同探索這一新發現,以構建下一代自我完善的 AI。


section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty