全面開源旗下視頻生成模型萬相2.1。該模型是阿里云通義系列AI模型的重要組成部分,于2025年1月發(fā)布。在權(quán)威評測集VBench中,其以總分86.22%的成績大幅超越Sora、Luma、Pika等國內(nèi)外模型,穩(wěn)居榜首位置。
萬相2.1采用了自研的高效變分自編碼器(VAE)和動態(tài)圖變換器(DiT)架構(gòu),增強了時空上下文建模能力。這種設(shè)計使得模型能夠更準確地捕捉和模擬現(xiàn)實世界的動態(tài)變化,同時通過參數(shù)共享機制降低了訓練成本。
模型通過將視頻劃分為多個塊(Chunk)并緩存中間特征,避免了傳統(tǒng)端到端編解碼的復雜性,支持無限長1080P視頻的高效生成和處理。
它也是首個支持中文文字生成及中英文文字特效生成的視頻生成模型。在指令遵循上,能嚴格依照鏡頭移動等指令輸出視頻,對長文本指令也能準確理解和執(zhí)行。
此外,該模型能夠精準模擬現(xiàn)實世界的物理規(guī)律,例如雨滴落在傘上濺起水花、人物運動時的自然過渡等。在處理復雜運動(如花樣滑冰、游泳等)時,萬相2.1能夠保持肢體的協(xié)調(diào)性和運動軌跡的真實性。
阿里基于Apache 2.0協(xié)議將萬相2.1的14B和1.3B兩個參數(shù)規(guī)格的全部推理代碼和權(quán)重全面開源,全球開發(fā)者可在 Github、HuggingFace和魔搭社區(qū)下載體驗。
據(jù)界面新聞記者了解,14B模型在指令遵循、復雜運動生成等方面表現(xiàn)突出,1.3B版本能在消費級顯卡運行,僅需8.2GB顯存就可生成高質(zhì)量視頻,適用于二次模型開發(fā)和學術(shù)研究,極大降低了使用門檻。
事實上,開源視頻生成模型業(yè)內(nèi)已有先例,此前階躍星辰就開源了全球范圍內(nèi)參數(shù)量最大、性能最好的開源視頻生成模型階躍Step-Video-T2V。而阿里的開源,進一步推動了這一趨勢。
對AI行業(yè)來說,開源可為開發(fā)者提供強大的工具,加速視頻生成領(lǐng)域的技術(shù)創(chuàng)新和應用拓展。目前,國內(nèi)AI明星公司DeepSeek正在持續(xù)開源,百度也已宣布于6月30日起全面開源文心大模型4.5。國外的OpenAI CEO山姆·奧特曼此前承認, “閉源策略站在了錯誤的一邊”,而馬斯克的Grok-3則采取了 “有限開源” 模式。