menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon


A股港股

8G顯卡就能跑!阿里巴巴開源最強視頻生成模型萬相2.1 專家揭露五大優勢

鉅亨網編譯陳韋廷


阿里巴巴周二 (25 日) 全面開源視頻生成模型萬相 2.1,共兩個參數規模,140 億參數模型適用於對生成效果要求更高的專業人士,13 億參數模型生成速度較快且能相容所有消費級 GPU,專家則指出萬相 2.1 共有五大優勢。

cover image of news article
8G顯卡就能跑!阿里巴巴開源最強視頻生成模型萬相2.1 專家揭露五大優勢

首先,在 SOTA 性能方面,萬相 2.1 在多個基準測試中優於現有的開源模型和商業解決方案,140 億參數專業版萬相模型在權威評測集 VBench 中以總分 86.22% 大幅超越 Sora、Luma、Pika 等國內外模型,居於榜首。


為評估萬相 2.1 性能,研發人員基於 1035 個內部提示集,在 14 個主要維度和 26 個子維度上進行了測試,然後通過對每個維度的得分進行加權計算來計算總分,其中利用了匹配過程中人類偏好得出的權重。研發人員還對文生視頻、圖生視頻以及模型在不同 GPU 上的計算效率進行了評估。

其次,萬相 2.1 支持消費級 GPU,而可執行多項任務則是第三大優勢,支援文生視頻、圖生視頻、視頻編輯、文生圖和視頻生音訊。此外,在視覺文本生成方面,萬相 2.1 是首個能生成中英文文本的視頻模型,無需外部外掛程式就能生成文字。

強大的視頻 VAE 則是第五大優勢,Wan-VAE 提供卓越的效率和性能,可對任意長度的 1080P 視頻進行編碼和解碼,同時保留時間資訊。

此外,阿里巴巴通義官方文章還提到,萬相 2.1 的開源標誌著阿里雲實現全模態、全尺寸的開源。目前,萬相 2.1 支援訪問通義官網在線體驗或者在 Github、HuggingFace、魔搭社區下載進行本地部署體驗。VAE 是視頻生成領域廣泛使用的模組,可以使得視頻模型在接近無損情況下有效降低資源佔用。

萬相 2.1 模型架構基於主流的視頻 DiT 結構,通過 Full Attention 機制確保長時程時空依賴的有效建模,實現時空一致的視頻生成。

數據方面,研究人員整理並去重了一個包含大量圖像和視頻數據的候選數據集。 在數據整理過程中,其設計了四步數據清理流程,重點關注基本維度、視覺質量和運動品質。 通過強大的數據處理流程快速獲得高質量、多樣化、大規模的圖像和視頻訓練集。

在訓練階段上,對於文本、視頻編碼模組,研究人員使用 DP 和 FSDP 組合的分散式策略,對於 DiT 模組採用 DP、FSDP、RingAttention、Ulysses 混合的並行策略。至於訓練穩定性,萬相 2.1 藉助於阿里雲訓練集群的智能化調度、慢機檢測以及自愈能力,在訓練過程中可以自動識別故障節點並快速重啟任務,平均重啟時間為 39 秒,重啟成功率超過 98.23%。

基於萬相 2.1 模型參數量較小和長序列帶來的計算量較大的特徵,結合集群計算性能和通信頻寬採用 FSDP 切分模型,並在 FSDP 外嵌套 DP 提升多機拓展性,FSDP 和 DP 的通信均能夠完全被計算掩蓋。

此外,為提升端到端整體效率,在文本、視頻編碼和 DiT 模組間進行高效策略切換避免計算冗餘。具體來說,文本、視頻編碼模組每個設備讀不同數據,在進入 DiT 之前,通過迴圈廣播方式將不同設備上的數據同步,保證 CP 組裡中數據一樣。

顯存優化方面,研究人員採用分層的顯存優化策略,選擇一些層進行 Offload,其他層根據不同算子計算量和顯存佔用的分析使用細粒度 Gradient Checkpointing(GC)進一步優化 Activation 顯存。 最後利用 PyTorch 顯存管理機制,解決顯存碎片問題。



Empty