重現DeepSeek模型 加州大學宣稱30美元就能成功複製
鉅亨網新聞中心 2025-01-27 21:08
網路上出現了一波重現 DeepSeek 的狂潮。加州大學柏克萊分校、香港科大、HuggingFace 等紛紛成功重現,只用強化學習,沒有監督微調,30 美元就能見證「啊哈時刻」。全球 AI 大模型正在進入下一分水嶺。
來自加州大學伯克萊分校的博士生潘家怡和另兩位研究人員,在 CountDown 遊戲中重現了 DeepSeek R1-Zero。他們表示,結果相當出色。
實驗中,團隊驗證了透過強化學習 RL,3B 的基礎語言模型也能夠自我驗證和搜尋。更令人興奮的是,成本不到 30 美元就可以親眼見證「啊哈」時刻。
這個專案叫做 TinyZero,採用 R1-Zero 演算法,也就是指定一個基礎語言模型、提示和真實獎勵訊號,運行強化學習。
然後,團隊將其應用在 CountDown 遊戲中;這是一個玩家使用基礎算術運算,將數字組合以達到目標數字的遊戲。
模型從最初的簡單輸出開始,逐步演化出自我修正和搜尋的策略。
- 如何發揮多重資產策略的最大優勢?
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇