menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon


科技

阿里巴巴開源AI影片神器!Wan2.1-VACE終結好萊塢特效 一款模型搞定多個影片編輯任務

鉅亨網編譯陳韋廷 綜合報導

cover image of news article
阿里巴巴開源AI影片神器!Wan2.1-VACE終結好萊塢特效 一款模型搞定多個影片編輯任務(圖擷自通義大模型微博)

阿里巴巴 (09988-HK)(BABA-US)周三 (14 日) 宣布正式開源其自主研發的影片生成與編輯大模型通義萬相 Wan2.1-VACE,這一里程碑式的技術突破標誌著中國企業在 AI 影片生成領域邁入全球領先行列。

作為當前業界首個實現全流程覆蓋的影片大模型,Wan2.1-VACE 透過創新性的技術架構和開放的生態策略,為內容創作者、開發者及企業用戶提供了前所未有的影片創作工具。



Wan2.1-VACE 包含 1.3B 和 14B 兩個版本,其中輕量級的 1.3B 版本可在消費級顯卡上流暢運行,顯著降低 AI 視訊產生的技術門檻。開發者可透過 GitHub、HuggingFace 及阿里雲魔搭社群免費下載體驗,而更高效能的 14B 版本則支援 480P 至 720P 高畫質影片產生。

官方數據顯示,自今年 2 月啟動開源計畫以來,通義萬相系列模型在 GitHub 平台的下載量已經突破 330 萬次,獲得超過 1.1 萬個 Star 標記,成為當下最受開發者追捧的影片生成模型之一。

Wan2.1-VACE 的核心技術突破在於其首創的「視訊條件單元」(VCU)。本模組透過統一文字、影像、視訊、Mask 和控制訊號四類輸入形態,成功解決了多模態輸入的 token 序列化難題。具體而言,系統會將輸入內容分解為可變序列與不可變序列,分別進行編碼處理後再進行特徵融合。此設計讓模型在維持角色一致性的同時,能 0 準控制影片的版面、運動姿態及空間關係,例如使用者可透過上傳物件參考圖或影片片段,結合姿態光流、深度圖等控制訊號,實現對影片內容的局部重繪、主體替換甚至背景環境動態擴展。

功能上,Wan2.1-VACE 實現了影片產生與編輯的全鏈條覆蓋,其支援的六大核心能力包括:文生影片、影像參考影片生成、影片重繪、局部編輯、背景延展時間長延展。尤其重要的是,模型創新性地支援多任務自由組合。開發者不用針對特定需求訓練獨立模型,只需透過輸入條件的靈活搭配即可完成複雜創作,例如將影像參考與主體重塑功能結合可實現視訊物件替換;融合圖片參考、首幀參考和背景擴充功能,甚至可將直式圖片轉換為包含參考元素的橫向影片。這種模組化設計大幅提升創作效率,讓影片製作從傳統線性流程,轉向高度個人化的拼圖式創作。

此外,Wan2.1-VACE 採用分層編碼架構。首先,透過變分自編碼器 (VAE) 將可變幀與不變幀分別編碼至 16 通道的隱空間,Mask 序列被映射至 64 通道的時空特徵空間。隨後,系統將三類隱空間特徵融合併映射為擴散 Transformer(DiT)的 Token 序列。

訓練策略方面,團隊比較了全域微調與情境適配器微調兩種方案,最終選擇後者以實現更快的收斂速度,並降低基礎能力遺失風險。

實驗數據顯示,相較於 1.3B 預覽版,目前開源版本在影片產生品質、編輯精準度及多任務協同效率等關鍵指標上均提升超過 35%。

專家指出,Wan2.1-VACE 的開源不僅提升阿里巴巴在 AI 創作領域的生態佈局,更可能重塑影片內容生產範式。相較於傳統視訊生成工具需要頻繁切換模型和工具鏈,Wan2.1-VACE 的一站式解決方案讓創意實現更有效率和靈活,尤其是在影視後期、廣告創意、社群媒體營運等領域,Wan2.1-VACE 支援的局部修改、長度調整和背景替換等功能,可大幅降低內容生產成本,並激發創作者的想像。

值得注意的是,阿里巴巴此次開源採取了漸進式開放策略。透過先期釋放輕量化版本吸引開發者參與,逐步推動技術迭代與生態繁榮。這種「以開源促創新」的模式,既延續 Gemini、Stable Diffusion 等成功專案的開源經驗,也結合中國本土市場的實際需求。

隨著更多開發者基於 Wan2.1-VACE 建構垂直應用,一個以視訊生成為核心的開源生態正在快速成型。

根據產業分析師預測,隨著算力成本持續下降和模型能力不斷提升,AI 影片生成未來三年將進入普惠階段。Wan2.1-VACE 的開源恰逢其時,不僅降低技術准入門檻,更重要的是透過開放協作加速了技術創新。當開發者能自由組合文字、圖像、視訊和控制訊號創造出無限可能時,人類對於視覺敘事的想像邊界將被徹底改寫。



Empty