3357 字
17 分钟
与 Claude 的对话:理解多模态视频生成任务

从 Seedance 2.0 的爆火,重新理解多模态视频生成:从任务该怎么定义,到常见问题,到评测维度怎么搭,再到最难的爆款复刻怎么评——记录一个框架成形的过程。

引言#

Seedance 2.0 全能参考的爆火,是促使我重新思考这类任务的起点。

它真正改变的不是某个指标,而是创作者的范式——过去要靠多个工具、多道工序才能拼出来的效果,现在一条指令、几张参考素材就能完成。当”全能”成为模型的核心卖点,创作者面对的不再是单一功能,而是指令、素材、风格的任意组合。

我做的正是这类任务的评测——不是传统 t2v、i2v,而是广义的 r2v,行业更爱叫它 omni。模态组合爆炸式增长,而评测方法论的成熟度,远远跟不上模型能力。

这篇文章,从一个核心判断出发:Omni 任务不该用分类树来描述,该用一个三轴空间来描述。 后面所有关于评测维度、爆款复刻评估的讨论,都建立在这个框架之上。


一、Omni 的任务定义:三轴空间#

三轴框架#

一条 Omni case,由三个独立的部分组成:

指令 × 载体 × 元信息
编/参/续 图/视/音 主体/风格/运镜/叙事节奏…
  • 指令:编辑、参考、续写
  • 载体:图片、视频、音频,未来可能有骨骼信息等更多模态
  • 元信息:蕴含在载体中的语义信息——主体、风格、构图、运镜、叙事节奏等

任何一条 Omni case,就是这个三维空间里的一个点(或一组点)。

用三轴而非分类树,关键好处是维度正交。Omni 任务里,“操作类型”(编辑/参考/续写)和”信息维度”(主体/风格/运镜)本是两套独立的逻辑——分类树会把它们强行塞进同一棵树的相邻层级,怎么排都别扭;三轴空间让它们各占一轴,互不干扰。

元信息蕴含在载体里:风格可以蕴含在图片也可以蕴含在视频;但运镜、叙事节奏这种动态信息,只能蕴含在视频这类动态载体里。

三种指令,三种本质关系#

指令分三类,不只是评测视角的划分,它对应着三种输入与输出的本质关系:

指令关系输入提供什么
编辑待修改的内容
参考仿引导信号
续写时序与因果状态

原子能力与复合能力#

把任务看成三轴空间里的点之后,一个难度梯度自然浮现:

  • 单指令 × 单载体 × 单元信息 = 原子能力(风格迁移、参考图生成视频、音色参考……)
  • 跨多个点 = 复合能力——多指令、多元信息、甚至多载体

爆款复刻就是典型的复合能力,涉及多种元素、多种指令。组合的元素数量,本身就是一个客观的难度刻度:原子能力像单元测试,复合能力像集成测试——一个模型可能原子能力全过,却在复合任务上崩盘。


二、cross-pair 数据的重要性#

cross-pair 数据为什么稀缺#

Omni 模型训练需要大量 cross-pair 数据——成对的”输入载体 + 指令 → 输出视频”:

  • 人物图 + prompt → 这个人物的视频
  • 商品图 + 场景图 + prompt → 商品在该场景中的视频
  • 写实视频 + “转宫崎骏风格” → 宫崎骏风格的同一段视频(人物动作、场景必须一致)

最后一例藏着 cross-pair 的根本难点:它要求同一份内容的两个配对状态。而自然世界的数据不是这样成对存在的——你能爬到海量写实视频,也能爬到海量动画,但几乎找不到”同一段表演的写实版与动画版”。

Omni 的数据瓶颈不是”数据少”,而是 cross-pair 数据稀缺。t2v、i2v 能用自然数据,编辑、参考、续写必须靠 cross-pair 这种组装数据。

视频编辑、视频参考类尤其难造——时序维度让难度又乘了一个量级:不仅要”同一内容两个版本”,还要这两个版本逐帧的动作、镜头都对齐。

评测网格,其实是一张数据覆盖地图#

把第一部分的三轴框架和这里的数据瓶颈一合,会得到一个对评测工程师很重要的视角:

评测不只是给模型打分,评测是在绘制一张数据覆盖地图。 三轴空间里得分低的格子,就是高度疑似的 cross-pair 数据缺口。

如何判断”这是 OOD,而不是模型本身不行”#

常用的办法是同类对比:同样是风格迁移,A 风格好、B 风格差,大概率是 B 缺数据。但这里有个混淆变量——B 也可能是本身就更难

要排除这个干扰,需要引入 SOTA 模型做对照:

  • SOTA 做 B 没问题、你的模型做 B 差 → 这是你独有的数据缺口
  • SOTA 做 B 也差 → B 在能力前沿,可能是行业难点

当然这也不一定是正确的,只是相对驱动算法迭代的一种方法。


三、评测维度:挂在三轴上的体系#

通用 + 专项的中间路线#

评测维度不走”全任务一套”,也不走”每类完全独立”,而是中间路线:一套通用基础维度,叠加由任务激活的专项维度。

完整的维度清单:

动态质量
画面质量
一致性
指令遵从

一致性,本质是”锚点一致性”#

把一致性的子维度摊开,会发现它们几乎全部都是”锚点一致性”——衡量输出是否忠于某个输入锚点。而锚点由指令轴决定:

编辑 → 锚点=原始视频 → 原始视频一致性
参考+视频 → 锚点=参考视频 → 参考视频一致性
参考+主体 → 锚点=参考图主体 → 主体一致性
参考+关键帧 → 锚点=关键帧 → 关键帧一致性
续写 → 锚点=前序视频 → 续写连贯性
复合 → 锚点=爆款模板 → 复刻程度

每一个指令类型,都把输出锚定到一个不同的输入,于是各自长出一个专属的一致性维度。唯一的例外是多镜头一致性——它测的不是与某个输入的一致,而是输出自身跨镜头的内部协调。

指令遵从,按 prompt 意图分,不按语法分#

指令遵从的子维度,我一度想按 prompt 的语法形态分(叙述句/祈使句)。但一个例子推翻了它:

原始视频是一个空冰箱,prompt 写”打开冰箱后,冰箱塞满鲜花”。

这是叙述句,但意图是一个编辑(增加)指令。prompt 的表层语法会骗人,语义意图才是本质。

所以指令遵从按意图分:

  • 生成型遵从——prompt 描述一个要生成的目标(图片参考、续写)
  • 操作型遵从——prompt 要求对已有内容做操作(编辑、参考式改写)
  • 分镜型遵从——结构化的多镜头表述

上述例子属于操作型。语法的显式/隐式则降级成难度标签:显式指令是简单档,把编辑意图藏进叙述句里的隐式指令是困难档。

两套独立的映射#

把一致性和指令遵从放在一起,会看到框架里其实是两套独立的映射:

指令轴 → 决定一致性的锚点
prompt 意图 → 决定指令遵从的类型

gate 不是第五个维度#

还有一种”响应有效性”的判定——模型有没有真的在做任务,而不是摆烂输出近原视频。它不是与质量维度并列的第五个维度,而是凌驾于所有质量维度之上的前置 gate。一个不响应指令的模型,不该因为”画质好”而得分。

一条贯穿始终的元规律#

回看这一部分,会发现一个反复出现的规律:三轴框架里要区分操作类型与信息维度,指令遵从里要区分 prompt 语法与意图——

永远按底层结构分类,把表层特征降级成修饰属性或难度标签。

这是整套方法论的底色。


四、爆款复刻:评测的终极难题与 VLM 评估模型#

为什么爆款复刻最难评#

套上前面的框架,爆款复刻有两个叠加的难:它是横跨多个格子的复合任务;而它的核心维度”复刻程度”,评的是语义结构,不是信号。

好的复刻不是复制——内容是全新的(新主体、新场景),但叙事结构与爆款一致(hook、反差、节奏、情绪弧度)。这意味着参考视频与输出视频内容不同、结构相同,任何 embedding 相似度、信号级指标都失效。要测的是”结构对应”,而结构是语义的——这就是必须引入 VLM 的原因。

三段式 VLM Pipeline#

我设计的评估流程分三个环节,每个环节一个 VLM,各司一职:

VLM1 从 base_video 提取核心元信息(视觉层 + 音频层),每个元信息标 P0/P1 优先级
VLM2 结合 user_prompt 与其他输入素材,为每个元信息判定动作:参考 / 替换 / 忽略,并动态调整优先级,形成一个针对 case 的 scope
VLM3 对照 scope 与 gen_video,逐元素判断执行情况,给出复刻程度

每步都产出可供人工 check 的中间结果,由产品、算法、标注多方共同认证。

这套设计里,“参考/替换/忽略”这个机制很关键——它直接化解了”复刻 vs 复制”的张力:标”替换”的元素必须是新的,标”参考”的才该复刻,照搬就会暴露。

评估模型的未来规划#

三段 pipeline + 人工纠偏,是为了用这批认证数据蒸馏出一个轻量的、自有的评估模型。理由不只是闭源 VLM API 有时不准,还有成本、延迟、数据隐私,以及闭源 API 会无声地版本漂移。在”爆款复刻评估”这样一个足够窄的任务上,一个用高质量数据微调的小模型,完全可能超过通用大 VLM。

评估模型设计的两个要点#

其一:最终分数不该被”学”,该被”算”。

如果让小模型直接学习”复刻程度”这个最终分,它学到的会是训练数据里那个由人工凭感觉聚合出来的、带噪声的分数。正确做法是:模型只学逐元素判断(每个元素执行得对不对),最终复刻程度由一个显式公式聚合而成。公式可调,但它是被定义的,不是被猜的。

这呼应了一个更早的原则——整体分应该被定义,不应该被判断。逐元素判断也比整体分更具体、标注更一致、模型更易学。

其二:评估模型自己也需要被验证。

train/val/test 切分是必要的,但对一个评估器不够。普通模型看 test 准确率即可,评估器还要看:与人工 gold 的一致性、输出的稳定性。而且要警惕——test 集的 ground truth 是”人工纠偏后的 VLM 输出”,它的可信度取决于人工纠偏的一致性。

你做这个小模型的初衷是”VLM 有时不准”。那验证它的标准,必须比 VLM pipeline 本身更可信——不能拿 pipeline 的产出,去验 pipeline 的蒸馏品。更强的做法是留一批 case,让人完全独立地重新判一遍,用这批新的人工 gold 来验。


结语:几条贯穿的线,与一个未解的问题#

把这套框架从头梳一遍,有几条线反复出现:

  1. 按底层结构分类,表层特征降级为难度标签。 三轴的维度正交、prompt 从语法到意图,都是同一个道理。
  2. 整体分应该被定义,不应该被判断。 无论是评测报告的整体 GSB,还是评估器的最终输出,都该是显式规则的产物,不该外包给直觉。
  3. 评测不是被动衡量,而是研发导航。 评测发现的问题要有所指向,而不仅仅是单纯发现问题。

而有一个问题,这套框架还没有真正解决——子维度如何聚合成整体分。它在评测报告里是个老问题,在爆款复刻评估器里又以训练信号的形式重现。它从”报告好不好看”升级成了”训练信号干不干净”,这个问题还在思考。

与 Claude 的对话:理解多模态视频生成任务
https://fuwari.vercel.app/posts/talk_with_claude_2/main/
作者
Zhang Shuaiyu
发布于
2026-05-14
许可协议
CC BY-NC-SA 4.0