專家:OpenAI執行長認錯凸顯矽谷傲慢老毛病 DeepSeek R1-Zero是AGI破局關鍵
鉅亨網編譯陳韋廷 2025-02-03 17:40
DeepSeek 再度創造歷史,逼得 OpenAI 執行長奧特曼承認「站錯邊」,對此 Meta 首席 AI 科學家 Yann LeCun 上周批評矽谷圈子有種錯位的優越感,ARC Prize 共同創辦人 Mike Knoop 也發出長文指出,DeepSeek 的 R1-Zero 打破了最終的人類輸入瓶頸—專家思維鏈 (CoT),其中一個例子就是監督微調 (SFT)。從 R1-Zero 到 AGI,一切都與效率有關。
DeepSeek 上周發佈新的 R1-Zero 和 R1「推理」系統,在 ARC-AGI-1 基準測試上的表現可與 OpenAI 的 o1 系統相媲美。
Knoop 在文中還說,另一個值得注意的觀點就是,R1-Zero 相比 R1 具有更重要的研究價值,這是因為 R1-Zero 完全依賴強化學習 (RL),而不使用人類專家標註的監督微調(SFT),顯示在某些領域,SFT 並非實現準確清晰 CoT 的必要條件,完全有可能讓 AI 通過純粹的 RL 方法實現廣泛推理能力。R1-Zero、R1 和 o1(低算力模式) 均取得 15-20% 的得分,而 GPT-4o 僅 5%,但後者已是多年純大語言模型(LLM)scaling 的巔峰成果。
根據美國市場上周反應,人們也開始理解純 LLM scaling 的局限性,但大多數人仍未意識到推理計算需求即將激增的問題。
2024 年 12 月,OpenAI 發佈一個新的突破性系統 o3,該系統在低算力模式下得分 76%,高算力模式下得分 88%,該系統首次展現電腦在面對全新、未知問題時進行適應的通用能力。
儘管 o3 在 ARC-AGI-1 基準測試中取得了突破性的成績,但這一科技大事件卻在主流媒體中幾乎未被報導,也未引起廣泛關注。
然而,由於 o1 和 o3 是閉源的,外界只能依靠推測進行分析,但幸運的是現在藉助 ARC-AGI-1,以及 R1-Zero 和 R1,人們能進一步加深對這一領域的理解。值得注意的是,相比 R1,R1-Zero 具有更重要的研究價值。
ARC Prize 團隊認為,DeepSeek 最有趣的做法是單獨發佈 R1-Zero。R1-Zero 不使用 SFT,完全依賴 RL。R1-Zero 和 R1 在 ARC-AGI-1 上的得分高度一致,分別為 14% 和 15%。此外,DeepSeek 自己發佈的基準測試結果也表明 R1-Zero 和 R1 的表現相近,例如在 MATH AIME 2024 上的得分分別為 71% 和 76%。最終,R1-Zero 展現一種潛在擴展路徑,也就是即便在訓練數據採集階段,也完全消除人工瓶頸。
ARC Prize 團隊上述發現共得出三大結論。首先,在具有強可驗證性的領域,SFT 並非實現準確且清晰的 CoT 推理的必要條件。此外,R1-Zero 訓練過程能通過 RL 優化,在 token 空間內自發構建內部的特定領域語言 (DSL)。最後,SFT 在提升 CoT 推理的跨領域泛化能力方面是必要的。
可以肯定的是,DeepSeek 目標是挑戰 OpenAI 的 o3 系統。
中國媒體《新智元》報導指出,接下來的關鍵觀察點在於 SFT 是否仍然是 CoT 搜索和採樣的必要條件,或是否可構建一個類似「R2-Zero」的系統,在相同的對數式推理計算擴展曲線上繼續提升準確率。根據 R1-Zero 的實驗結果,ARC Prize 團隊認為在這種假設的擴展版本中,SFT 並不是超越 ARC-AGI-1 所必需的條件。
隨著 DeepSeek-R1 的開源和可復現性,越來越多的個人和團隊將探索 CoT 和搜索技術的極限,這將幫助人們更快地釐清當前 AI 研究的前沿在哪裡,並推動一波技術創新浪潮,從而加速通向 AGI 的進程。
- 掌握全球財經資訊點我下載APP
延伸閱讀
下一篇