menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

科技

智慧體摩爾定律!研究稱AI能力每7個月翻倍 5年後能完成人類花一個月才完成的任務

鉅亨網編譯陳韋廷 2025-03-21 17:20

cover image of news article
最新研究稱AI能力每7個月翻倍 5年後能完成人類花一個月才完成的任務(圖:Shutterstock)

根據非營利研究機構 METR 最新發現,AI Agents(智慧體) 也有自己的摩爾定律,AI 在完成長期任務方面的進步速度驚人,其時間跨度大約每七個月增加一倍。換言之,AI 能勝任越來越多人工耗時久的任務,能力逐漸更強。

在 METR 的介紹中,他們將這一發現命名為「Moore"s Law for AI agents」,也就是「智慧體摩爾定律」。


為衡量 AI Agents 自動完成任務的能力變化,研究人員提出了「50%- 任務完成時間跨度」的指標,以 50% 任務成功率為基準,假設 2019 年 AI 達到這一目標所需時間對應人類需要的時間為 10 分鐘,7 個月後對應的人類完成任務時間則變成 20 分鐘。

這一成長速度變得更快,一些最新模型大約每三個月增加一倍。按照預測,大約五年後 AI 就能自動完成很多人類現在要花一個月才能完成的任務。

整體來看,METR 研究團隊讓 AI 和一些專業人員在相似條件下嘗試完成任務,然後測量人類所需要的時間,最終來比較 AI 成功率如何隨著人類完成時間的長短而變化。

研究團隊選擇三個不同的任務來評估 AI 模型的能力,分別是 97 個 HCAST 任務、7 個 RE-Bench 任務以及 66 個 SWAA 任務。HCAST 任務涵蓋軟體工程、機器學習、網路安全和一般推理挑戰的多樣化任務集合,難度從幾分鐘到 30 小時。

RE-Bench 任務則由七個開放式的機器學習研究工程環境組成,每個需人類專家約 8 小時完成,66 個 SWAA 任務則代表軟體開發過程中的單個步驟操作,時長 1 秒到 30 秒。

接下來,為量化評估 AI 模型表現,團隊招募 800 多名軟體工程師、機器學習和網路安全領域的專業人員執行任務,並記錄他們完成任務所需的時間。

根據 METR 介紹,在這些任務中,人類完成時間從 1 秒到 16 小時不等,這些時間被當作衡量任務難度的標準。

然後,研究團隊又評估了從 2019 年到 2025 年發佈的 13 個前沿 AI 模型,包括 GPT 系列和 o1、Sonnet 3.7 等,之後他們引入 50% 任務完成時間跨度。利用這一指標,團隊通過對 AI 模型在各個任務上的成功與失敗數據進行邏輯回歸分析,計算出每個模型的時間跨度,也就是模型完成任務成功率達到 50% 時,對應的人類完成任務的時間。

研究主要發現為,自 2019 年以來 AI 模型的時間跨度呈現出指數級成長,每七個月左右成長一倍。

為驗證研究結果的外部有效性,研究團隊又進行四個實驗,一是用 2023-2025 年數據回溯預測,驗證趨勢一致性,其次對 HCAST 和 RE-Bench 任務基於 16 個 「混亂」 因素評級,分析任務混亂程度對模型性能的影響,再來是在其他 SWE-bench Verified 數據集上應用相同方法,對比結果,最後則是在內部 Pull Requests(PR) 任務上測試模型性能,與人類基線對比。

16 個 「混亂」因素是指現實任務比研究任務更難的方面,包括任務是否受到有限資源的限制、是否涉及實時協調或是否源自現實世界的環境。每個任務都根據這些因素得到一個 「混亂度」 分數。

研究人員發現,儘管 AI 模型在更加混亂的任務上的絕對性能較低,但另一方面性能也在穩步提升。更有意思的是,不管任務的「混亂」程度如何,AI 都是以相似的速度在提升。

總的來說,按照「智慧體摩爾定律」進行預測,AI 可能在 2028 年 11 月達到一個月的任務時間跨度,而在較為保守估計下,這一目標可能在 2031 年 2 月實現。

METR 團隊認為,雖然研究還存在任務套件具有局限性、評估指標不完美、未來 AI 發展具有不確定性等需要完善的地方,但很確信這一指標每年有 1 到 4 倍的增長趨勢。


Empty