中国科技巨头阿里巴巴在一个月内连续两次升级其人工智能(AI)视频生成模型,最新版本不仅支持由文图生成视频,还具备视频局部编辑等多项功能。
综合彭博社、IT之家和《新京报》报道,阿里巴巴星期三(5月14日)晚正式开源其通义万相Wan2.1-VACE模型。该模型具备全面的视频生成与编辑能力,支持文字生成视频、图像参考生成视频、视频重绘、局部编辑、背景延展及时长延展等多项功能。
例如,用户可利用该模型将竖版的《蒙娜丽莎》静态图扩展为横版动态视频,并为人物添加参考图中的眼镜,同步实现画面扩展、视频时长延展及图像参考三项功能。
阿里巴巴此次提供的模型共有两个开源版本,分别为140亿参数和13亿参数,其中13亿参数版本可在消费级显卡上运行,降低使用门槛。
通义万相是阿里云通义系列的AI绘画与视频生成大模型,首个版本于2023年7月上线。今年4月中旬,阿里巴巴推出升级版,支持生成首尾画面连贯的720p高清视频。
彭博社指出,阿里巴巴在短短一个月内连续两次更新视频生成模型,反映出这家中国科技巨头意图在这场炙手可热的AI竞赛中,与国内竞争者及美国科技巨头一争高下。
今年4月21日,北京初创企业生数科技也推出一款文本转视频和图像转视频模型Vidu Q1,宣称其性能超越包括OpenAI的Sora在内的行业领先产品。
您查看的内容可能不完整,部分内容和推荐被拦截!请对本站关闭广告拦截和阅读模式,或使用自带浏览器后恢复正常。