5月14日晚,阿里巴巴宣布开源通义万相Wan2.1-VACE,这是目前业界功能最全的视频生成与编辑模型。该单一模型支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。此次开源了1.3B和14B两个版本,其中1.3B版本可在消费级显卡上运行。
阿里云方面表示,Wan2.1-VACE基于通义万相文生视频模型研发,并创新性地提出了全新的视频条件单元(VCU)。这一单元在输入形态上统一了文生视频、参考图生视频、视频生视频及基于局部区域的视频生视频四大类任务。此外,Wan2.1-VACE还解决了多模态输入的token序列化难题,通过将VCU输入的帧序列进行概念解耦,再分开重构为可变序列和不可变序列后进行编码。
自今年2月以来,通义万相已先后开源了文生视频模型、图生视频模型和首尾帧生视频模型,这些模型在开源社区的下载量已超过330万。