从 Seedance 2.0 的爆火,重新理解多模态视频生成:从任务该怎么定义,到常见问题,到评测维度怎么搭,再到最难的爆款复刻怎么评——记录一个框架成形的过程。
引言
Seedance 2.0 全能参考的爆火,是促使我重新思考这类任务的起点。
它真正改变的不是某个指标,而是创作者的范式——过去要靠多个工具、多道工序才能拼出来的效果,现在一条指令、几张参考素材就能完成。当”全能”成为模型的核心卖点,创作者面对的不再是单一功能,而是指令、素材、风格的任意组合。
我做的正是这类任务的评测——不是传统 t2v、i2v,而是广义的 r2v,行业更爱叫它 omni。模态组合爆炸式增长,而评测方法论的成熟度,远远跟不上模型能力。
这篇文章,从一个核心判断出发:Omni 任务不该用分类树来描述,该用一个三轴空间来描述。 后面所有关于评测维度、爆款复刻评估的讨论,都建立在这个框架之上。
一、Omni 的任务定义:三轴空间
三轴框架
一条 Omni case,由三个独立的部分组成:
指令 × 载体 × 元信息编/参/续 图/视/音 主体/风格/运镜/叙事节奏…- 指令:编辑、参考、续写
- 载体:图片、视频、音频,未来可能有骨骼信息等更多模态
- 元信息:蕴含在载体中的语义信息——主体、风格、构图、运镜、叙事节奏等
任何一条 Omni case,就是这个三维空间里的一个点(或一组点)。
用三轴而非分类树,关键好处是维度正交。Omni 任务里,“操作类型”(编辑/参考/续写)和”信息维度”(主体/风格/运镜)本是两套独立的逻辑——分类树会把它们强行塞进同一棵树的相邻层级,怎么排都别扭;三轴空间让它们各占一轴,互不干扰。
元信息蕴含在载体里:风格可以蕴含在图片也可以蕴含在视频;但运镜、叙事节奏这种动态信息,只能蕴含在视频这类动态载体里。
三种指令,三种本质关系
指令分三类,不只是评测视角的划分,它对应着三种输入与输出的本质关系:
| 指令 | 关系 | 输入提供什么 |
|---|---|---|
| 编辑 | 改 | 待修改的内容 |
| 参考 | 仿 | 引导信号 |
| 续写 | 续 | 时序与因果状态 |
原子能力与复合能力
把任务看成三轴空间里的点之后,一个难度梯度自然浮现:
- 单指令 × 单载体 × 单元信息 = 原子能力(风格迁移、参考图生成视频、音色参考……)
- 跨多个点 = 复合能力——多指令、多元信息、甚至多载体
爆款复刻就是典型的复合能力,涉及多种元素、多种指令。组合的元素数量,本身就是一个客观的难度刻度:原子能力像单元测试,复合能力像集成测试——一个模型可能原子能力全过,却在复合任务上崩盘。
二、cross-pair 数据的重要性
cross-pair 数据为什么稀缺
Omni 模型训练需要大量 cross-pair 数据——成对的”输入载体 + 指令 → 输出视频”:
- 人物图 + prompt → 这个人物的视频
- 商品图 + 场景图 + prompt → 商品在该场景中的视频
- 写实视频 + “转宫崎骏风格” → 宫崎骏风格的同一段视频(人物动作、场景必须一致)
最后一例藏着 cross-pair 的根本难点:它要求同一份内容的两个配对状态。而自然世界的数据不是这样成对存在的——你能爬到海量写实视频,也能爬到海量动画,但几乎找不到”同一段表演的写实版与动画版”。
Omni 的数据瓶颈不是”数据少”,而是 cross-pair 数据稀缺。t2v、i2v 能用自然数据,编辑、参考、续写必须靠 cross-pair 这种组装数据。
视频编辑、视频参考类尤其难造——时序维度让难度又乘了一个量级:不仅要”同一内容两个版本”,还要这两个版本逐帧的动作、镜头都对齐。
评测网格,其实是一张数据覆盖地图
把第一部分的三轴框架和这里的数据瓶颈一合,会得到一个对评测工程师很重要的视角:
评测不只是给模型打分,评测是在绘制一张数据覆盖地图。 三轴空间里得分低的格子,就是高度疑似的 cross-pair 数据缺口。
如何判断”这是 OOD,而不是模型本身不行”
常用的办法是同类对比:同样是风格迁移,A 风格好、B 风格差,大概率是 B 缺数据。但这里有个混淆变量——B 也可能是本身就更难。
要排除这个干扰,需要引入 SOTA 模型做对照:
- SOTA 做 B 没问题、你的模型做 B 差 → 这是你独有的数据缺口
- SOTA 做 B 也差 → B 在能力前沿,可能是行业难点
当然这也不一定是正确的,只是相对驱动算法迭代的一种方法。
三、评测维度:挂在三轴上的体系
通用 + 专项的中间路线
评测维度不走”全任务一套”,也不走”每类完全独立”,而是中间路线:一套通用基础维度,叠加由任务激活的专项维度。
完整的维度清单:
动态质量画面质量一致性指令遵从一致性,本质是”锚点一致性”
把一致性的子维度摊开,会发现它们几乎全部都是”锚点一致性”——衡量输出是否忠于某个输入锚点。而锚点由指令轴决定:
编辑 → 锚点=原始视频 → 原始视频一致性参考+视频 → 锚点=参考视频 → 参考视频一致性参考+主体 → 锚点=参考图主体 → 主体一致性参考+关键帧 → 锚点=关键帧 → 关键帧一致性续写 → 锚点=前序视频 → 续写连贯性复合 → 锚点=爆款模板 → 复刻程度每一个指令类型,都把输出锚定到一个不同的输入,于是各自长出一个专属的一致性维度。唯一的例外是多镜头一致性——它测的不是与某个输入的一致,而是输出自身跨镜头的内部协调。
指令遵从,按 prompt 意图分,不按语法分
指令遵从的子维度,我一度想按 prompt 的语法形态分(叙述句/祈使句)。但一个例子推翻了它:
原始视频是一个空冰箱,prompt 写”打开冰箱后,冰箱塞满鲜花”。
这是叙述句,但意图是一个编辑(增加)指令。prompt 的表层语法会骗人,语义意图才是本质。
所以指令遵从按意图分:
- 生成型遵从——prompt 描述一个要生成的目标(图片参考、续写)
- 操作型遵从——prompt 要求对已有内容做操作(编辑、参考式改写)
- 分镜型遵从——结构化的多镜头表述
上述例子属于操作型。语法的显式/隐式则降级成难度标签:显式指令是简单档,把编辑意图藏进叙述句里的隐式指令是困难档。
两套独立的映射
把一致性和指令遵从放在一起,会看到框架里其实是两套独立的映射:
指令轴 → 决定一致性的锚点prompt 意图 → 决定指令遵从的类型gate 不是第五个维度
还有一种”响应有效性”的判定——模型有没有真的在做任务,而不是摆烂输出近原视频。它不是与质量维度并列的第五个维度,而是凌驾于所有质量维度之上的前置 gate。一个不响应指令的模型,不该因为”画质好”而得分。
一条贯穿始终的元规律
回看这一部分,会发现一个反复出现的规律:三轴框架里要区分操作类型与信息维度,指令遵从里要区分 prompt 语法与意图——
永远按底层结构分类,把表层特征降级成修饰属性或难度标签。
这是整套方法论的底色。
四、爆款复刻:评测的终极难题与 VLM 评估模型
为什么爆款复刻最难评
套上前面的框架,爆款复刻有两个叠加的难:它是横跨多个格子的复合任务;而它的核心维度”复刻程度”,评的是语义结构,不是信号。
好的复刻不是复制——内容是全新的(新主体、新场景),但叙事结构与爆款一致(hook、反差、节奏、情绪弧度)。这意味着参考视频与输出视频内容不同、结构相同,任何 embedding 相似度、信号级指标都失效。要测的是”结构对应”,而结构是语义的——这就是必须引入 VLM 的原因。
三段式 VLM Pipeline
我设计的评估流程分三个环节,每个环节一个 VLM,各司一职:
VLM1 从 base_video 提取核心元信息(视觉层 + 音频层),每个元信息标 P0/P1 优先级 ↓VLM2 结合 user_prompt 与其他输入素材,为每个元信息判定动作:参考 / 替换 / 忽略,并动态调整优先级,形成一个针对 case 的 scope ↓VLM3 对照 scope 与 gen_video,逐元素判断执行情况,给出复刻程度每步都产出可供人工 check 的中间结果,由产品、算法、标注多方共同认证。
这套设计里,“参考/替换/忽略”这个机制很关键——它直接化解了”复刻 vs 复制”的张力:标”替换”的元素必须是新的,标”参考”的才该复刻,照搬就会暴露。
评估模型的未来规划
三段 pipeline + 人工纠偏,是为了用这批认证数据蒸馏出一个轻量的、自有的评估模型。理由不只是闭源 VLM API 有时不准,还有成本、延迟、数据隐私,以及闭源 API 会无声地版本漂移。在”爆款复刻评估”这样一个足够窄的任务上,一个用高质量数据微调的小模型,完全可能超过通用大 VLM。
评估模型设计的两个要点
其一:最终分数不该被”学”,该被”算”。
如果让小模型直接学习”复刻程度”这个最终分,它学到的会是训练数据里那个由人工凭感觉聚合出来的、带噪声的分数。正确做法是:模型只学逐元素判断(每个元素执行得对不对),最终复刻程度由一个显式公式聚合而成。公式可调,但它是被定义的,不是被猜的。
这呼应了一个更早的原则——整体分应该被定义,不应该被判断。逐元素判断也比整体分更具体、标注更一致、模型更易学。
其二:评估模型自己也需要被验证。
train/val/test 切分是必要的,但对一个评估器不够。普通模型看 test 准确率即可,评估器还要看:与人工 gold 的一致性、输出的稳定性。而且要警惕——test 集的 ground truth 是”人工纠偏后的 VLM 输出”,它的可信度取决于人工纠偏的一致性。
你做这个小模型的初衷是”VLM 有时不准”。那验证它的标准,必须比 VLM pipeline 本身更可信——不能拿 pipeline 的产出,去验 pipeline 的蒸馏品。更强的做法是留一批 case,让人完全独立地重新判一遍,用这批新的人工 gold 来验。
结语:几条贯穿的线,与一个未解的问题
把这套框架从头梳一遍,有几条线反复出现:
- 按底层结构分类,表层特征降级为难度标签。 三轴的维度正交、prompt 从语法到意图,都是同一个道理。
- 整体分应该被定义,不应该被判断。 无论是评测报告的整体 GSB,还是评估器的最终输出,都该是显式规则的产物,不该外包给直觉。
- 评测不是被动衡量,而是研发导航。 评测发现的问题要有所指向,而不仅仅是单纯发现问题。
而有一个问题,这套框架还没有真正解决——子维度如何聚合成整体分。它在评测报告里是个老问题,在爆款复刻评估器里又以训练信号的形式重现。它从”报告好不好看”升级成了”训练信号干不干净”,这个问题还在思考。