美股

重現DeepSeek模型加州大學宣稱30美元就能成功複製

鉅亨網新聞中心2025-01-27 21:08

網路上出現了一波重現 DeepSeek 的狂潮。加州大學柏克萊分校、香港科大、HuggingFace 等紛紛成功重現，只用強化學習，沒有監督微調，30 美元就能見證「啊哈時刻」。全球 AI 大模型正在進入下一分水嶺。

來自加州大學伯克萊分校的博士生潘家怡和另兩位研究人員，在 CountDown 遊戲中重現了 DeepSeek R1-Zero。他們表示，結果相當出色。

‌

實驗中，團隊驗證了透過強化學習 RL，3B 的基礎語言模型也能夠自我驗證和搜尋。更令人興奮的是，成本不到 30 美元就可以親眼見證「啊哈」時刻。

這個專案叫做 TinyZero，採用 R1-Zero 演算法，也就是指定一個基礎語言模型、提示和真實獎勵訊號，運行強化學習。

然後，團隊將其應用在 CountDown 遊戲中；這是一個玩家使用基礎算術運算，將數字組合以達到目標數字的遊戲。

模型從最初的簡單輸出開始，逐步演化出自我修正和搜尋的策略。

‌

重現DeepSeek模型 加州大學宣稱30美元就能成功複製