menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

美股

重現DeepSeek模型 加州大學宣稱30美元就能成功複製

鉅亨網新聞中心 2025-01-27 21:08


網路上出現了一波重現 DeepSeek 的狂潮。加州大學柏克萊分校、香港科大、HuggingFace 等紛紛成功重現,只用強化學習,沒有監督微調,30 美元就能見證「啊哈時刻」。全球 AI 大模型正在進入下一分水嶺。

來自加州大學伯克萊分校的博士生潘家怡和另兩位研究人員,在 CountDown 遊戲中重現了 DeepSeek R1-Zero。他們表示,結果相當出色。


實驗中,團隊驗證了透過強化學習 RL,3B 的基礎語言模型也能夠自我驗證和搜尋。更令人興奮的是,成本不到 30 美元就可以親眼見證「啊哈」時刻。

這個專案叫做 TinyZero,採用 R1-Zero 演算法,也就是指定一個基礎語言模型、提示和真實獎勵訊號,運行強化學習。

然後,團隊將其應用在 CountDown 遊戲中;這是一個玩家使用基礎算術運算,將數字組合以達到目標數字的遊戲。

模型從最初的簡單輸出開始,逐步演化出自我修正和搜尋的策略。

文章標籤


Empty