公司地址:
新闻中心国际企业科技园5611号
视频生成模子卷得热气腾腾,配套的视频评价标准当然也弗成过期。
当今,北京大学 MMCAL 团队设立了首个用于视频编著质料评估的新主义——VE-Bench,联系代码与预训诫权重均已开源。
它要点怜惜了 AI 视频编著中最常见的一个场景:视频编著前后收尾与原始视频之间的筹谋。
举例,在"摘掉女孩的耳饰"的任务中,需要保留东谈主物 ID,源视频与编著收尾应该有着较强语义联系性,而在"把女孩换为钢铁侠"这么的任务中,语义就彰着发生了变嫌。
此外,它的数据还愈加合乎东谈主类的主不雅感受,是一个有用的主不雅对王人量化主义。
本质收尾涌现,与 FastVQA、StableVQA、DOVER、VE-Bench QA 等视频质料评价神态比拟,VE-Bench QA 得到了SOTA 的东谈主类感知对王人收尾:
这到底是怎样作念到的呢?
浅易来说,VE-Bench 率先从原始视频汇集、请示词汇集、视频编著神态、主不雅标注 4 个方面脱手,构建了一个愈加丰富的数据库VE-Bench DB。
此外,团队还建议了立异的测试神态VE-Bench QA,将视频的举座效果分红了笔墨 - 地方一致性、参考源与地方的关系、技能畸变和好意思学标准多个维度进行抽象评价,比面前常用的 CLIP 分数等客不雅主义、PickScore 等响应东谈主类偏好的主义都愈加全面。
联系论文已入选 AAAI 2025(The Association for the Advancement of Artificial Intelligence)会议。
更丰富全面的数据库 VE-Bench DB 原始视频汇集
为了确保数据万般性,VE-Bench DB 除了汇集来自确切天下场景的视频,还包括CG 渲染的实质以及基于文本生成的AIGC 视频。
数据开端包括公开数据集 DAVIS、Kinetics-700、Sintel、Spring 的视频,来自 Sora 和可灵的 AIGC 视频,以及来自互联网的补充视频。
来自互联网的视频包括极光、熔岩等惯例数据集虚浮的场景。
整个视频都被沟通为长边 768 像素,同期保抓其原始宽高比。
由于面前主流视频编著神态维持的长度竣事,每段视频都被编著为 32 帧。
源视频的具体实质组成如下图所示,整个样本在汇集时均通过东谈主工筛选以保阐明质的万般性并减少冗余:
△VE-Bench 原始视频组成。 ( a ) 视频开端 ( b ) 视频类型 ( c ) 视频默契种类 ( d ) 视频实质种类请示词汇集
参考过往使命,VE-Bench 将用于编著的请示词分为3大类别:
作风编著(Style editing):包括对神气、纹理或举座氛围的编著。
语义编著(Semantic editing):包括布景编著和局部编著,举例对某一双象的添加、替换或移除。
结构编著(Structural editing):包括对象大小、姿态、作为等的变化。
针对每个类别,团队东谈主工编写了相应的请示词,对应的词云与类别组成如下:
△VE-Bench 请示词组成。 ( a ) 词云 ( b ) 请示词类型占比统计编著收尾生成
VE-Bench 登科了 8 种视频编著神态。
这些神态包括早期的经典神态与近期较新的神态,涵盖从 SD1.4~SD2.1 的不同版块,包括需要微调的神态、0-shot 的神态、和基于 ControlNet、PnP 等不同计策编著的神态。
东谈主类主不雅评价
在进行主不雅本质时,VE-Bench 确保了每个视频样本均由 24 位受试者进行打分,合乎 ITU 标准中 15 东谈主以上的东谈主数条件。
所参与受试者均在 18 岁以上,学历均在本科及以上,包括商学、工学、理学、法学等不同的布景,有孤立的判断才智。
在本质开动前,整个东谈主会线下聚首进行培训,而且会展示数据集以外的不同猛烈的编著例子。
测试时,受试者被条件凭证其主不雅感受,并对以下几个方面进行抽象评价:文本与视频的一致性、源视频与地方视频的联系度以及编著后视频的质料,分数为尽头制。
临了汇集得到的不同模子平均得分的箱线图如下:
△VE-Bench 模子得分箱线图
其中,横坐标默示不同模子 ID,纵坐标默示 Z-score 正则化后的 MOS ( Mean Opinion Score ) 分数。橘红色线条默示得分的中位数。
不错看出,面前的大多数文本驱动的视频编著模子中位数得分深广在 5 分傍边浮动,少数模子的得分中位数不错达到近 6 分,部分模子的得分中位数不到 4 分。
模子得分最低分不错下探到不到 2 分,也有个别样本最高不错达到近 9 分。
具体每个样本在 Z-score 前后的得分直方图如下图所示,不错看出极高分和极低分仍在少数:
△VE-Bench 模子得分直方图
在此基础上,团队进一步绘图了不同视频编著模子在 VE-Bench 请示词上的发达:
△不同视频编著模子在 VE-Bench 中不同类别的请示词上的发达
不错看出,面前的模子都相对较为擅长作风化指示,这可能是诈欺了 SD 在深广不同作风图片上训诫的先验收尾。
同期,删除指示比拟于添加得分更低,因为它需要寥落接头物体或布景重建等问题,对模子语义勾通与细粒度特征索要才智有更高条件。
现存模子都还不太擅长时局编著。这方面 FateZero 模子发达较为优秀,这可能与它针对 shape-aware 建议的正式力混杂神态筹谋。
从 3 个纬度进行评估的 VE-Bench QA
在构建的 VE-Bench DB 的基础上,团队还建议了立异的 VE-Bench QA 训诫神态,地方是得到与东谈主类感知愈加接近的分数。
底下这张图展示了 VE-Bench QA 的主要框架:
VE-Bench QA 从3个维度对文本驱动的视频编著进行评估:
文本 - 视频一致性
为了估计所编著视频是否与文本筹谋,VE-Bench QA 基于 BLIP 进行了有用的视频 - 文本联系性建模,通过在 BLIP 视觉分支的基础上加入 Temporal Adapter 将其彭胀到三维,并与文天职支的收尾通过交叉正式力得到输出。
源视频 - 编著后视频动态联系性
为了更好建模随凹凸文动态变化的联系性关系,VE-Bench QA 在该分支上通过时空 Transformer 将二者投影到高维空间,并在此基础上拼接后诈欺正式力机制缠绵二者联系性,临了通过追溯缠绵得到相应输出。
传统维度的视觉质料方面
VE-Bench QA 参考了过往当然场景视频质料评价的优秀使命 DOVER,通过在好意思学和失真方面预训诫事后的主干积存输出相应收尾。
最终各个分支的输出通过线性层追溯得到最终分数。
本质收尾涌现,VE-Bench QA 在多个数据集上所预计的收尾,其与真值的联系性得分都杰出于其他神态:
△VE-BenchQA 在 T2VQA-DB 数据集上的收尾
△VE-Bench QA 在 VE-Bench DB 数据集上的收尾
论文相连:https://arxiv.org/abs/2408.11481
代码相连:https://github.com/littlespray/VE-Bench
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 名目主页相连,以及筹谋表情哦
咱们会(尽量)实时回答你
点这里� � 怜惜我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~