
阿里巴巴最先进的开放架构视频模型。上传 5 秒参考视频即可复刻角色外貌与声音,单条提示词自动规划多镜头叙事,生成最长 15 秒 1080p 视频,支持原生音频同步——基于 140 亿参数混合专家(MoE)架构,训练数据涵盖 15 亿视频。
Wan 2.6 基于混合专家架构引入参考视频生成和多镜头叙事能力,实现角色一致性叙事与原生音频同步。
上传一段 5 秒的参考视频,包含角色外貌与声音。Wan 2.6 提取身份特征后即可在全新场景中生成该角色——面部特征、服饰、举止和声线在不同场景间保持一致。国内首个生产可用的参考视频生成方案。
只需提供简单的叙事提示词,Wan 2.6 自动规划多个镜头——机位角度、场景转换、节奏编排——讲述连贯故事。角色与环境在所有镜头间自动保持一致,无需手动干预。
生成包含同步对话、音效和环境音的视频。Wan 2.6 的唇形同步引擎实时匹配口型与语音,支持多角色对话场景,每个角色拥有独立声线。
基于混合专家设计,140 亿活跃参数(总计 270 亿),在 15 亿视频和 100 亿图片上训练。该架构在 VBench 基准测试中取得领先成绩,同时保持同类模型中最快的首帧生成速度。
技术规格
Wan 2.6 支持多种生成模式——文生视频、图生视频、参考视频生成、多镜头叙事——提供灵活的分辨率与时长选项。
架构
MoE(140亿 / 270亿)
最高分辨率
1080p
帧率
24 fps
宽高比
16:9 · 9:16 · 1:1 · 4:3 · 3:4
时长范围
5秒 / 10秒 / 15秒
生成模式
文生视频 / 图生视频 / 参考生成 / 多镜头
原生音频
唇形同步 + 音效 + 环境音
训练数据
15亿视频 + 100亿图片
参考输入
5秒视频 + 声音
标准分辨率,适用于快速原型、社交内容和批量生成。
全高清输出,适用于专业级内容制作和电影级交付。
从角色驱动叙事到社交内容,Wan 2.6 的参考视频生成与多镜头能力开启全新创作工作流。
使用 R2V 从 5 秒参考视频建立角色,再通过多镜头自动规划完整叙事弧线。无需手动编辑,角色在所有场景中保持一致。
通过参考视频创建数字代言人。生成无限量的产品展示、公告和教程,角色外貌、声线、举止始终一致。
制作竖版(9:16)系列内容,适用于抖音、快手和小红书。多镜头自动规划引人入胜的场景序列,支持 5 种宽高比覆盖全平台。
生成带同步配音和音效的电影级产品视频。原生音频同步免去后期音频编辑,加速广告交付。
制作每段最长 15 秒的教学内容,配有清晰旁白。R2V 保持角色一致性,可在整个课程系列中使用统一的虚拟讲师形象。
上传音频参考来引导视觉节奏。Wan 2.6 的音频同步引擎匹配视觉节拍与音乐,I2V 和 R2V 保持全片艺术风格一致。
模型对比
查看 Wan 2.6 与前代及主流商业模型在关键能力上的对比。
特性 | Wan 2.6 | Wan 2.5 | Seedance 2.0 | Veo 3.1 | |
|---|---|---|---|---|---|
| 最高分辨率 | 1080p | 1080p | 2K | 4K | |
| 最长时长 | 15秒 | 10秒 | 15秒 | 8秒(可扩展) | |
| 宽高比 | 5种(16:9, 9:16, 1:1, 4:3, 3:4) | 3种(16:9, 9:16, 1:1) | 5种 | 2种(16:9, 9:16) | |
| 参考视频生成 | ✓(5秒视频) | 最多3段视频 | |||
| 多镜头叙事 | ✓(自动规划) | ||||
| 原生音频同步 | ✓(唇形同步) | ||||
| 多角色对话 | |||||
| 图生视频 | 最多9张图片 | 最多3张图片 | |||
| 架构 | MoE 140亿/270亿 | Dense 140亿 | 闭源 | 闭源 | |
| 开源基座 | ✓(Wan 2.2) | ✓(Wan 2.1) | |||
| 帧率 | 24 fps | 24 fps | 24 fps | 24 fps |
为什么选择
Buble 提供最完整的界面来发挥 Wan 2.6 的高级能力。
无需 API 密钥,无需配置。通过 Buble 的可视化界面立即开始使用 Wan 2.6 生成视频。
在浏览器中直接上传参考视频。预览角色提取结果,可视化配置新场景。
输入一条提示词,让多镜头功能自动规划故事。生成前可逐个审查和调整镜头。
在单次生成中组合图片、视频和音频参考素材。上传界面自动适配每种输入类型。
一键切换 16:9、9:16、1:1、4:3 和 3:4。生成前预览输出画面比例。
所有生成视频存储在个人画廊中。支持下载 MP4、MOV 或 WebM 格式。可随时重新生成或扩展已有结果。
常见问题
关于阿里巴巴最新 AI 视频生成模型的一切。
开始创作
参考视频生成、多镜头叙事、原生音频同步——现已全部就绪。复刻角色、自动编排叙事、生成最长 15 秒的电影级视频。
其他可用模型:Seedance 2.0 · Veo 3.1