B站開源動漫視頻生成模型AniSora V3發(fā)布
7月7日,嗶哩嗶哩正式推出開源動漫視頻生成模型AniSora V3預(yù)覽版,這是繼去年V2版本后的又一次重大升級。
據(jù)報道,在技術(shù)層面,AniSora V3基于B站此前開源的CogVideoX-5B和Wan2.1-14B模型,通過引入強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)優(yōu)化框架,大幅提升了生成視頻的視覺質(zhì)量和動作連貫性。最引人注目的是其全新升級的時空掩碼模塊,能夠?qū)崿F(xiàn)更精細(xì)的角色表情控制和動態(tài)鏡頭移動,甚至可以完成"五位女孩同步舞蹈,鏡頭隨動作推近拉遠(yuǎn)"這樣復(fù)雜的動畫指令。
值得一提的是,V3版本特別針對國產(chǎn)硬件進(jìn)行了優(yōu)化,新增對華為Ascend910B NPU的原生支持,使得推理速度提升約20%。在實際測試中,生成一段4秒的1080p高清視頻僅需2-3分鐘,大大提升了創(chuàng)作效率。同時,經(jīng)過優(yōu)化的數(shù)據(jù)清洗流程確保了生成內(nèi)容在風(fēng)格上的一致性,讓創(chuàng)作者能夠更精準(zhǔn)地控制作品的藝術(shù)風(fēng)格。
從應(yīng)用場景來看,AniSora V3展現(xiàn)出強(qiáng)大的多任務(wù)處理能力。無論是將單張靜態(tài)圖片轉(zhuǎn)化為動態(tài)視頻,還是為漫畫分鏡添加口型同步的動畫效果,亦或是輔助VTuber進(jìn)行實時動作生成,V3版本都能提供專業(yè)級的支持。測試數(shù)據(jù)顯示,相比前代版本,V3在生成復(fù)雜場景時的偽影問題減少了15%,在角色一致性和動作流暢度等關(guān)鍵指標(biāo)上都達(dá)到了業(yè)界領(lǐng)先水平。
與OpenAI的Sora等通用視頻生成模型不同,AniSora V3專注于動漫這一垂直領(lǐng)域,在二次元風(fēng)格的表現(xiàn)上更具優(yōu)勢。目前,已有開發(fā)者基于V3開發(fā)出能夠強(qiáng)化特定動漫風(fēng)格的定制插件,如吉卜力風(fēng)格或賽博朋克風(fēng)格的專用生成器。這種專業(yè)化的發(fā)展路線,使得AniSora在動漫內(nèi)容創(chuàng)作領(lǐng)域形成了獨(dú)特的競爭優(yōu)勢。