陸AI又驚豔全球!階躍星辰Step-Video-T2V登「全球最強開源視頻模型」
鉅亨網編譯陳韋廷 綜合報導 2025-02-25 09:20

在 DeepSeek 席捲全球之際,被稱為 AI 大模型「六小龍」之一的階躍星辰近日又聯合吉利汽車開源了 Step-Video-T2V 和 Step-Audio 語音模型,而前者一經問世更榮登「全球最強開源視頻模型」寶座,再次驚豔世界,就連 Hugging Face 大老都驚呼道:「簡直就是下一個 DeepSeek!」
階躍星辰自行研發的 Step-Video-T2V 是全球參數量最大的開源視頻生成模型,參數量 300 億,可直接生成 204 幀、540P 解析度高品質視頻,而 Step-Audio 則是行業內首款產品級開源語音交互模型,能根據不同場景生成情緒、方言、語種、歌聲和個人化風格,和使用者自然地高品質對話。
Step-Video-T2V 的鏡頭掌控堪比奧斯卡,人物刻畫更是驚豔為提升訓練和推理效率,專案提出一種深度壓縮視頻變分自編碼器 (Video-VAE),實現了 16x16 空間和 8x 時間的壓縮比。在最終階段,應用直接偏好優化(DPO) 進一步提升生成視頻的視覺品質。Video-VAE 實現了高效的視頻壓縮,保持了出色的視頻重構品質。
此外,Step-Video-T2V 採用 DiT 架構,具有 3D 全注意力機制,通過 Flow Matching 訓練,以文本嵌入和時間步驟為條件調節,有效降噪輸入。透過視頻基 DPO 方法,整合人類反饋,顯著提升生成視頻的視覺品質。
至於 Step-Audio 更讓人驚喜連連,不僅能說會道,還精通各地方言。
這兩款「重量級」模型都選擇最寬鬆的 MIT 協議開源,意味著全世界的開發者都可以免費使用、任意修改,甚至可以商用!
繼 DeepSeek 之後,又一面「中國智造」的旗幟在全球 AI 領域高高飄揚,而從 Hugging Face 工程師的驚歎,到全球開發者的熱情轉發,Step 系列模型再次讓全球見證中國 AI 的實力。
- 掌握全球財經資訊點我下載APP
上一篇
下一篇