北京时间2月25日晚间,阿里巴巴宣布全面开源旗下视频生成模型万相2.1,这一消息迅速点燃了整个AI领域,预示着AI驱动的视频创作即将进入一个全新时代。
在当前AI产业竞争激烈的背景下,阿里巴巴的这一举动格外引人注目。本周内,美国Anthropic公司发布了混合推理模型Claude 3.7 Sonnet,DeepSeek持续开源了5个代码库,xAI也在忙于推出“最强大模型”并进行应用优化,亚马逊则计划为语音助手Alexa带来“AI升级”,甚至有传言称OpenAI可能推出GPT-4.5。阿里巴巴选择此时开源万相2.1,无疑在这场竞争中投下了一枚重磅炸弹。
此次开源的万相2.1模型采用Apache 2.0协议,将14B和1.3B两个参数规格的全部推理代码和权重开放给全球开发者,支持文生视频和图生视频任务,可在Github、HuggingFace和魔搭社区下载体验。这标志着视频生成领域将迎来重大发展。
万相2.1在VBench基准测试中以86.22%的总分力压美图奇想、OpenAI Sora、Adobe/麻省理工的CausVid、苹果STIV等国内外竞品,稳居全球第一。该模型能够精准展现复杂稳定的人物肢体动作,如旋转、跳跃、转身、翻滚等,并能逼真还原碰撞、反弹、切割、挤压等物理场景,大幅提升了AI生成视频的真实性。此外,万相2.1还具备独特的文字生成能力,可以直接通过提示词在视频中生成中文字及特殊艺术效果。
14B版本适用于专业创作者,满足高质量、高要求的创作需求;而1.3B参数量版本则更为亲民,仅需家用显卡(如英伟达4090)单卡8.2G显存即可生成480P高质量视频,性能堪比某些5B参数量的闭源大模型,普通用户也能轻松上手。
万相2.1的应用场景广泛。游戏开发者可以利用它生成动画和特效,提升玩家体验;广告主能制作更具吸引力的广告视频;教师可以制作生动的教学视频,使知识传递更形象;短视频创作者则能高效生成高质量内容,在竞争中脱颖而出。
阿里巴巴万相2.1的开源为整个视频生成模型赛道注入了新的活力,让这个领域更加生机勃勃。对于OpenAI、谷歌等竞争对手来说,这意味着巨大的挑战,尤其是在AI视频定价方面。而对于消费者和内容产业从业者,这将显著降低创作视频的成本和门槛,人人都有机会成为视频创作者。随着万相2.1在中文AI应用市场掀起新玩法升级的浪潮,整个AI视频创作领域将迎来前所未有的变革。