通义万相开源新模型指定首尾图片可生成延时摄影、变身等特效视频 ...

2025-4-18 13:10| 发布者: 仟茂传媒| 查看: 271| 评论: 0|来自: 和讯财经

摘要: 每经杭州4月18日电记者从阿里云获悉，4月17日晚，阿里巴巴开源通义万相“首尾帧生视频14B模型”，这是业界首个开源的百亿级参数规模首尾帧生视频模型，它可根据用户指定的开始和结束图片，生成一段能衔接首尾画面的7 ...

每经杭州4月18日电（记者叶晓丹）记者从阿里云获悉，4月17日晚，阿里巴巴开源通义万相“首尾帧生视频14B模型”，这是业界首个开源的百亿级参数规模首尾帧生视频模型，它可根据用户指定的开始和结束图片，生成一段能衔接首尾画面的720p高清视频，满足延时摄影、变身等更可控、更定制化的视频生成需求。用户可在通义万相官网直接免费体验该模型，或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。

首尾帧生视频比文生视频、单图生视频的可控性更高，是最受AI（人工智能）视频创作者欢迎的功能之一，但这类模型的训练难度较大，对模型的指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性等均有高要求。

据介绍，基于现有的Wan2.1文生视频基础模型架构，通义万相首尾帧生视频模型进一步引入了额外的条件控制机制，通过该机制可实现流畅且精准的首尾帧变换；在训练阶段，团队还构建了专门用于首尾帧模式的训练数据，同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略，这些策略提升了模型训练和生成效率，也保障了模型具备高分辨率视频生成的效果。

每日经济新闻

（责任编辑：张晓波）

【免责声明】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com