你的位置:开云彩票官方网站 登录入口 > 新闻中心 > 欧洲杯体育整个视频都被沟通为长边 768 像素-开云彩票官方网站 登录入口

欧洲杯体育整个视频都被沟通为长边 768 像素-开云彩票官方网站 登录入口

时间:2025-06-25 07:36 点击:200 次

欧洲杯体育整个视频都被沟通为长边 768 像素-开云彩票官方网站 登录入口

视频生成模子卷得热气腾腾,配套的视频评价标准当然也弗成过期。

当今,北京大学 MMCAL 团队设立了首个用于视频编著质料评估的新主义——VE-Bench,联系代码与预训诫权重均已开源。

它要点怜惜了 AI 视频编著中最常见的一个场景:视频编著前后收尾与原始视频之间的筹谋。

举例,在"摘掉女孩的耳饰"的任务中,需要保留东谈主物 ID,源视频与编著收尾应该有着较强语义联系性,而在"把女孩换为钢铁侠"这么的任务中,语义就彰着发生了变嫌。

此外,它的数据还愈加合乎东谈主类的主不雅感受,是一个有用的主不雅对王人量化主义。

本质收尾涌现,与 FastVQA、StableVQA、DOVER、VE-Bench QA 等视频质料评价神态比拟,VE-Bench QA 得到了SOTA 的东谈主类感知对王人收尾:

这到底是怎样作念到的呢?

浅易来说,VE-Bench 率先从原始视频汇集、请示词汇集、视频编著神态、主不雅标注 4 个方面脱手,构建了一个愈加丰富的数据库VE-Bench DB。

此外,团队还建议了立异的测试神态VE-Bench QA,将视频的举座效果分红了笔墨 - 地方一致性、参考源与地方的关系、技能畸变和好意思学标准多个维度进行抽象评价,比面前常用的 CLIP 分数等客不雅主义、PickScore 等响应东谈主类偏好的主义都愈加全面。

联系论文已入选 AAAI 2025(The Association for the Advancement of Artificial Intelligence)会议。

更丰富全面的数据库 VE-Bench DB 原始视频汇集

为了确保数据万般性,VE-Bench DB 除了汇集来自确切天下场景的视频,还包括CG 渲染的实质以及基于文本生成的AIGC 视频。

数据开端包括公开数据集 DAVIS、Kinetics-700、Sintel、Spring 的视频,来自 Sora 和可灵的 AIGC 视频,以及来自互联网的补充视频。

来自互联网的视频包括极光、熔岩等惯例数据集虚浮的场景。

整个视频都被沟通为长边 768 像素,同期保抓其原始宽高比。

由于面前主流视频编著神态维持的长度竣事,每段视频都被编著为 32 帧。

源视频的具体实质组成如下图所示,整个样本在汇集时均通过东谈主工筛选以保阐明质的万般性并减少冗余:

△VE-Bench 原始视频组成。 ( a ) 视频开端 ( b ) 视频类型 ( c ) 视频默契种类 ( d ) 视频实质种类请示词汇集

参考过往使命,VE-Bench 将用于编著的请示词分为3大类别:

作风编著(Style editing):包括对神气、纹理或举座氛围的编著。

语义编著(Semantic editing):包括布景编著和局部编著,举例对某一双象的添加、替换或移除。

结构编著(Structural editing):包括对象大小、姿态、作为等的变化。

针对每个类别,团队东谈主工编写了相应的请示词,对应的词云与类别组成如下:

△VE-Bench 请示词组成。 ( a ) 词云 ( b ) 请示词类型占比统计编著收尾生成

VE-Bench 登科了 8 种视频编著神态。

这些神态包括早期的经典神态与近期较新的神态,涵盖从 SD1.4~SD2.1 的不同版块,包括需要微调的神态、0-shot 的神态、和基于 ControlNet、PnP 等不同计策编著的神态。

东谈主类主不雅评价

在进行主不雅本质时,VE-Bench 确保了每个视频样本均由 24 位受试者进行打分,合乎 ITU 标准中 15 东谈主以上的东谈主数条件。

所参与受试者均在 18 岁以上,学历均在本科及以上,包括商学、工学、理学、法学等不同的布景,有孤立的判断才智。

在本质开动前,整个东谈主会线下聚首进行培训,而且会展示数据集以外的不同猛烈的编著例子。

测试时,受试者被条件凭证其主不雅感受,并对以下几个方面进行抽象评价:文本与视频的一致性、源视频与地方视频的联系度以及编著后视频的质料,分数为尽头制。

临了汇集得到的不同模子平均得分的箱线图如下:

△VE-Bench 模子得分箱线图

其中,横坐标默示不同模子 ID,纵坐标默示 Z-score 正则化后的 MOS ( Mean Opinion Score ) 分数。橘红色线条默示得分的中位数。

不错看出,面前的大多数文本驱动的视频编著模子中位数得分深广在 5 分傍边浮动,少数模子的得分中位数不错达到近 6 分,部分模子的得分中位数不到 4 分。

模子得分最低分不错下探到不到 2 分,也有个别样本最高不错达到近 9 分。

具体每个样本在 Z-score 前后的得分直方图如下图所示,不错看出极高分和极低分仍在少数:

△VE-Bench 模子得分直方图

在此基础上,团队进一步绘图了不同视频编著模子在 VE-Bench 请示词上的发达:

△不同视频编著模子在 VE-Bench 中不同类别的请示词上的发达

不错看出,面前的模子都相对较为擅长作风化指示,这可能是诈欺了 SD 在深广不同作风图片上训诫的先验收尾。

同期,删除指示比拟于添加得分更低,因为它需要寥落接头物体或布景重建等问题,对模子语义勾通与细粒度特征索要才智有更高条件。

现存模子都还不太擅长时局编著。这方面 FateZero 模子发达较为优秀,这可能与它针对 shape-aware 建议的正式力混杂神态筹谋。

从 3 个纬度进行评估的 VE-Bench QA

在构建的 VE-Bench DB 的基础上,团队还建议了立异的 VE-Bench QA 训诫神态,地方是得到与东谈主类感知愈加接近的分数。

底下这张图展示了 VE-Bench QA 的主要框架:

VE-Bench QA 从3个维度对文本驱动的视频编著进行评估:

文本 - 视频一致性

为了估计所编著视频是否与文本筹谋,VE-Bench QA 基于 BLIP 进行了有用的视频 - 文本联系性建模,通过在 BLIP 视觉分支的基础上加入 Temporal Adapter 将其彭胀到三维,并与文天职支的收尾通过交叉正式力得到输出。

源视频 - 编著后视频动态联系性

为了更好建模随凹凸文动态变化的联系性关系,VE-Bench QA 在该分支上通过时空 Transformer 将二者投影到高维空间,并在此基础上拼接后诈欺正式力机制缠绵二者联系性,临了通过追溯缠绵得到相应输出。

传统维度的视觉质料方面

VE-Bench QA 参考了过往当然场景视频质料评价的优秀使命 DOVER,通过在好意思学和失真方面预训诫事后的主干积存输出相应收尾。

最终各个分支的输出通过线性层追溯得到最终分数。

本质收尾涌现,VE-Bench QA 在多个数据集上所预计的收尾,其与真值的联系性得分都杰出于其他神态:

△VE-BenchQA 在 T2VQA-DB 数据集上的收尾

△VE-Bench QA 在 VE-Bench DB 数据集上的收尾

论文相连:https://arxiv.org/abs/2408.11481

代码相连:https://github.com/littlespray/VE-Bench

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿实质‍

附上论文 / 名目主页相连,以及筹谋表情哦

咱们会(尽量)实时回答你

点这里� � 怜惜我,铭记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~  

支付宝8折乌龙:到底是用户的福利,也曾一场危险? 1月16日下昼,梗直不少东说念主准备招待春节时,一场让东说念主不测的“8折风云”忽然席卷了支付宝的用户群。优惠力度大到让东说念主怀疑东说念主生,但更大的悬念却在于:这场不测究竟是天降横财,也曾日后秋后算账的起原? 事情的高涨发生在当寰球午4点,支付宝平台蓦的出现了一个“政府补贴8折”的教导。很多用户在短时辰内发现了这个流毒,以至有东说念主相接买了大额商品。可好景不常,就在傍晚7点,灵验户宣称收到了一条“支付宝奉告”,内容浅显是说“误用补贴的金额
#搜索话题2月创作挑战赛#开云体育(中国)官方网站 PPT如何篡改成Word文档?这些妙招让你舒缓处理! 在日常办公和学习中,咱们时常会遭遇需要将PPT(PowerPoint演示文稿)篡改成Word文档的情况。不管是为了更方便地剪辑笔墨内容,如故为了将演示文稿篡改为可打印或共享的文档体式,PPT转Word的需求无处不在。但你是否也曾为这一瞥换进程而头疼不已?别惦念,今天,就让我带你一谈探索PPT转Word的高效技巧,让你的责任后果短暂进步! 提到PPT转Word,最平直的治安莫过于复制粘贴。翻
淌若有东说念主告诉你,一家公司要挑战英伟达的霸主地位,可能好多东说念主会合计这是痴东说念主说梦。毕竟,英伟达靠着CUDA技巧,硬是把我方从一家显卡公司造成了东说念主工智能范围的顶流玩家。现时谁提东说念主工智能,绕不开英伟达,绕不开CUDA。干系词,中国一家名叫DeepSeek的公司,偏巧起了个“硬骨头”的念头。他们不走英伟达的路,致使径直烧毁了CUDA,别有肺肠。 这事儿靠谱吗? 事情得从英伟达的CUDA技巧提及。浅显来说,CUDA就像英伟达为我方的显卡写的一套专属“说话”。这套说话不光让英伟
从北到南,从我国渤海湾到海南岛海域,王人盛产鲅鱼。 并吞种族群,在朔方称鲅鱼,往南一过江苏连云港就称马鲛鱼,到了我国台湾,就成了土魠(tuō)鱼。 鲅鱼式样冷峻,体形硕大,秉性生猛,气质不俗,泛着银蓝色的光。鲅鱼只可捕捞,不成衍生,我国生产的鲅鱼(也即马鲛鱼),不仅有蓝点马鲛鱼,还有康氏马鲛和中华马鲛,族群广泛我国从北到南3万多公里的海岸线,是庶民要害的家常海味,何况还被赋予了文化内涵。 从食用角度,真话说,我不太心爱鲅鱼,但从文化角度,不得不说鲅鱼有着难以言喻的场能。从典礼感和所承载的乡土情
开云体育 2025蛇年新春,上海各大记号性开荒里也吵杂超卓。 东方明珠自1月27日至2月21日,联袂热点IP推出“毛茸茸派对”与“蛇来出手”春节快闪。互动游乐区欢叫不断,亲子、好友齐能畅玩,还有萌趣春节界限玩物,道理彻底。 武康大楼即日起至2月10日开展“新年福顺系列行径”,非遗剪纸光影展将迂腐剪纸与当代光影有计划,传统图案灵动最初,新春书单则为书虫备好了学问大餐。 1月31日,东方艺术中心奏响《春节序曲》新春交响音乐会,换取优雅挥棒,涟漪旋律奏响新年奋进乐章,结果寒意。 中华艺术宫恒久展陈“
金融界2025年1月30日音尘,国度常识产权局信息显露,上海起问汽车科技有限公司获得一项名为“一种自动定位涂胶装配”的专利,授权公告号 CN 222402107 U,肯求日历为2024年5月。 专利选录显露,本实用新式波及自动涂胶本事边界,公开了一种自动定位涂胶装配,包括主体框架,所述主体框架的正面固定聚拢有模具遗弃板,所述模具遗弃板的尖端固定聚拢有限位组件,所述主体框架的里面固定聚拢有七轴滑台,所述七轴滑台的尖端固定聚拢有机器东谈主底座,所述机器东谈主底座的顶部固定聚拢有机器东谈主,所述机器

公司地址:

新闻中心国际企业科技园5611号

Powered by 开云彩票官方网站 登录入口 RSS地图 HTML地图


开云彩票官方网站 登录入口-欧洲杯体育整个视频都被沟通为长边 768 像素-开云彩票官方网站 登录入口