R2
中國人工智慧 (AI) 新創公司深度求索(DeepSeek)尚未決定旗下下一代大型語言模型 R2 的正式發表時間,原因是執行長梁文峰對模型目前的性能表現仍不滿意。根據《The Information》周四 (26 日) 引述兩位知情人士報導,R2 原計畫於 5 月推出,作為大受歡迎的 R1 推理模型後繼版本,並希望能在程式碼生成與非英語語言推理方面有所突破。
美股雷達
摩根士丹利 (MS-US) 近日發布一份研究報告,提前揭露中國人工智慧(AI)新創公司 DeepSeek 即將推出的最新大語言模型 R2。儘管篇幅不長,報告內容卻資訊量很多,引起 AI 圈關注。根據報告,DeepSeek R2 模型總參數高達 1.2 兆,是前一代 R1 的兩倍以上。
美股雷達
中國人工智慧(AI)公司 DeepSeek 似乎即將再度在市場上投下震撼彈。隨著 DeepSeek 即將發布的 R2 AI 模型細節再度流出,市場對該模型的關注再次掀起波瀾,並可能又對美國股市,尤其是科技股,造成衝擊。據報導,雖然目前 DeepSeek 尚未正式公布 R2 的具體規格,但中國媒體引述消息指出,R2 將採用升級版的專家混合(Hybrid MoE)架構,並可能結合先進的(gating mechanisms)與 Dense 層(dense layers)設計,專為優化高負載運算。
科技
DeepSeek 周一 (24 日) 晚上悄悄推出最新的 DeepSeek-V3-0324 模型,雖非外界預期的 R2 模型,但仍然有不少亮點,從網友實測後的反應來看,升級後的 V3 編碼能力已經接近 Claude3.7,數學能力也有提升,能像推理模型一樣能夠解題。
美股雷達
本星期是中國 AI 新創公司 DeepSeek 的開源周,DeepSeek 則在第三天,發佈了 DeepGEMM,是一個支援稠密和 MoE 模型的 FP8 GEMM(通用矩陣乘法) 計算庫,僅憑 300 行代碼就超過專家優化的內核,可為 V3/R1 的訓練和推理提供強大支援,更令人興奮的是,DeepSeek-R2 有望在 5 月前提前發佈。
A股
路透周二 (25 日) 援引知情人士消息報導,中國人工智慧 (AI) 新創公司深度求索 (DeepSeek) 原本計劃在 5 月推出新一代 AI 模型「R2」,但現在該公司希望盡快推出。據了解,新模型在寫程式和多語言推理方面的能力有所提升。DeepSeek 的成功可能會徹底改變 AI 行業。