科技

陸AI又驚豔全球！階躍星辰Step-Video-T2V登「全球最強開源視頻模型」

鉅亨網編譯陳韋廷綜合報導2025-02-25 09:20

在 DeepSeek 席捲全球之際，被稱為 AI 大模型「六小龍」之一的階躍星辰近日又聯合吉利汽車開源了 Step-Video-T2V 和 Step-Audio 語音模型，而前者一經問世更榮登「全球最強開源視頻模型」寶座，再次驚豔世界，就連 Hugging Face 大老都驚呼道：「簡直就是下一個 DeepSeek！」

cover image of news article — 陸AI又驚豔全球！階躍星辰Step-Video-T2V登「全球最強開源視頻模型」（圖：Shutterstock）

階躍星辰自行研發的 Step-Video-T2V 是全球參數量最大的開源視頻生成模型，參數量 300 億，可直接生成 204 幀、540P 解析度高品質視頻，而 Step-Audio 則是行業內首款產品級開源語音交互模型，能根據不同場景生成情緒、方言、語種、歌聲和個人化風格，和使用者自然地高品質對話。

‌

Step-Video-T2V 的鏡頭掌控堪比奧斯卡，人物刻畫更是驚豔為提升訓練和推理效率，專案提出一種深度壓縮視頻變分自編碼器 (Video-VAE)，實現了 16x16 空間和 8x 時間的壓縮比。在最終階段，應用直接偏好優化(DPO) 進一步提升生成視頻的視覺品質。Video-VAE 實現了高效的視頻壓縮，保持了出色的視頻重構品質。

此外，Step-Video-T2V 採用 DiT 架構，具有 3D 全注意力機制，通過 Flow Matching 訓練，以文本嵌入和時間步驟為條件調節，有效降噪輸入。透過視頻基 DPO 方法，整合人類反饋，顯著提升生成視頻的視覺品質。

至於 Step-Audio 更讓人驚喜連連，不僅能說會道，還精通各地方言。

這兩款「重量級」模型都選擇最寬鬆的 MIT 協議開源，意味著全世界的開發者都可以免費使用、任意修改，甚至可以商用！

繼 DeepSeek 之後，又一面「中國智造」的旗幟在全球 AI 領域高高飄揚，而從 Hugging Face 工程師的驚歎，到全球開發者的熱情轉發，Step 系列模型再次讓全球見證中國 AI 的實力。