9月24日,字節(jié)跳動(dòng)旗下火山引擎發(fā)布兩款視頻生成大模型(豆包視頻生成-PixelDance、豆包視頻生成-Seaweed),首次面向企業(yè)市場(chǎng)開(kāi)啟邀測(cè)。
火山引擎介紹,豆包視頻生成模型基于DiT架構(gòu),通過(guò)高效的DiT融合計(jì)算單元,能更充分地壓縮編碼視頻與文本,讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語(yǔ)言能力。
此外,豆包視頻生成模型另外一大技術(shù)創(chuàng)新是全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法攻克了多鏡頭切換的一致性難題。該模型還使用深度優(yōu)化的Transformer結(jié)構(gòu),大幅提升視頻生成的泛化能力。
字節(jié)跳動(dòng)透露,目前,新款豆包視頻生成模型正在即夢(mèng)AI內(nèi)測(cè)版小范圍測(cè)試,未來(lái)將逐步開(kāi)放給所有用戶。