您现在的位置: 首页 资讯 > > 正文
当前热点-视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒
发布时间:2023-04-21 12:24:22 来源:机器之心

机器之心报道

编辑:杜伟
在生成式 AI 盛行的今天,英伟达在文本生成视频领域更进了一步,实现了更高分辨率、更长时间。

要说现阶段谁是 AI 领域的「当红辣子鸡」?生成式 AI 舍我其谁。包括 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内,生成式 AI 展示的效果深深地抓住了人们的眼球。


(资料图片仅供参考)

我们以图像生成模型为例,得益于底层建模技术最近的突破,它们收获了前所未有的关注。如今,最强大的模型构建在生成对抗网络、自回归 transformer 和扩散模型(diffusion model, DM)之上。其中扩散模型的优势在于能够提供稳健和可扩展的训练目标,并且参数密集度通常低于基于 transformer 的竞品模型

虽然图像领域取得了长足进步,但视频建模却落后了,这主要归咎于视频数据训练的高昂计算成本以及缺乏大规模公开可用的通用数据集。目前视频合成虽有丰富的研究文献,但包括先前视频 DM 在内的大多数工作仅能生成分辨率较低且往往较短的视频。

因此,如何生成分辨率更高、更长的视频成为一个热门研究课题。近日慕尼黑大学、英伟达等机构的研究者利用潜在扩散模型(latent diffusion model, LDM)实现了高分辨率的长视频合成。相关论文已经发表在 arXiv 上。

项目主页:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

论文地址:https://arxiv.org/pdf/2304.08818.pdf

在论文中,研究者将视频模型应用于真实世界问题并生成了高分辨率的长视频。他们关注两个相关的视频生成问题,一是高分辨率真实世界驾驶数据的视频合成,其在自动驾驶环境中作为模拟引擎具有巨大潜力;二是文本指导视频生成,用于创意内容生成。

为此,研究者提出了视频潜在扩散模型(Video LDM),并将 LDM 扩展到了计算密集型任务 —— 高分辨率视频生成。与以往视频生成 DM 工作相比,他们仅在图像上预训练 Video LDM(或者使用可用的预训练图像 LDM),从而允许利用大规模图像数据集。

接着将时间维度引入潜在空间 DM、并在编码图像序列(即视频)上仅训练这些时间层的同时固定预训练空间层,从而将 LDM 图像生成器转换为视频生成器(下图左)。最后以类似方式微调 LDM 的解码器以实现像素空间中的时间一致性(下图右)。

此外,为了进一步提高空间分辨率,研究者对像素空间和潜在 DM 上采样器进行时间对齐,将它们转换为时间一致的视频超分辨率模型。在 LDM 的基础上,本文方法以计算和内存高效的方式生成了全局连贯的长视频。对于非常高分辨率的合成,视频上采样器只需要在本地运行,保持了较低的训练和计算要求。

最后,研究者进行了消融实验,在分辨率为 512×1024 的真实驾驶场景视频上对其方法进行了测试,实现了 SOTA 视频质量,并合成了几分钟的视频。此外,他们还微调了 Stable Diffusion,将它变成一个高效、强大的文本到视频生成器,分辨率最高可达 1280 × 2048

通过将经过训练的时间层迁移至不同的微调文本到图像 LDM,研究者首次展示了个性化的文本到视频生成,并希望自己的工作为高效的数字内容创建和自动驾驶模拟开辟新的途径。

我们来看几个文本到视频生成示例,比如「弹电吉他的泰迪熊、高分辨率、4K」。

比如「海浪拍打着一座孤独的灯塔、不详的灯光」。

再比如「夕阳下独自穿行在迷雾森林中的旅行者」。

方法解读:潜在视频扩散模型

这部分中,研究者描述了为实现高分辨率视频合成,对预训练图像 LDM 和 DM 上采样器进行视频微调。

将潜在图像转换为视频生成器

研究者高效训练视频生成模型的关键思路在于:重用预训练的固定图像生成模型,并利用了由参数 θ 参数化的 LDM。具体而言,他们实现了两个不同的时间混合层,即时间注意力和基于 3D 卷积的残差块。研究者使用正弦嵌入为模型提供了时间位置编码。具体流程如下图 4 所示。

用于长视频生成的预测模型

研究者还训练模型作为给定多个(首个)S 上下文帧的预测模型,通过引入时间二元掩膜 m_S 来实现。该掩膜 mask 了模型必须预测的 T − S 帧。此外研究者将该掩膜和 masked 编码视频帧馈入到模型中进行调节。

在推理过程中,为了生成长视频,研究者迭代地应用了采样过程,将最新的预测重新用作新的上下文。第一个初始序列通过从基础图像模型中合成单个上下文帧来生成,并基于此生成了一个新序列。然后以两个上下文帧为条件对动作进行编码。

用于高帧率的时间插值

高分辨率的特点不仅在于高空间分辨率,还在于高时间分辨率,即高帧率。为此研究者将高分辨率视频的合成过程分为了两部分,第一部分包括上文中的将潜在图像转换为视频生成器和用于长视频的预测模型,它们可以生成具有较大语义变化的关键帧,但受限于内存只能在较低帧率运行。第二部分则引入了一个额外模型,其任务是在给定关键帧之间进行插值

研究者在实现过程中使用了掩膜调节机制。不过与预测任务不同,他们需要 mask 进行插值的帧,否则该机制保持不变,即图像模型被细化为视频插值模型。

超分辨率(SR)模型的时间微调

尽管 LDM 机制提供了很好的原始分辨率,但研究者的目标是将它推进到百万像素级别。他们从级联 DM 中获得灵感,并使用 DM 将 Video LDM 输出放大 4 倍。对于驾驶视频合成实验,研究者使用了像素空间 DM,并将分辨率扩大至 512×1024;对于文本到视频模型,他们使用了 LDM 上采样器,将分辨率扩大至 1280 × 2048。

实验结果

研究者专注于驾驶场景视频生成和文本到视频,因此使用了两个相关数据集,一个是真实驾驶场景(RDS)视频的内部数据集;另一个是 WebVid-10M 数据集,它将公开可用的 Stable Diffusion 图像 LDM 转换为了 Video LDM。

高分辨率驾驶视频合成

研究者在 RDS 数据集上训练 Video LDM pipeline,包括一个 4 倍像素空间视频上采样器。下表 1 显示了无上采样器时,128×256 分辨率下 Video LDM 的主要结果。研究者展示了有和无拥挤和白天 / 夜晚条件下其模型的性能。可以看到,Video LDM 通常优于 LVG,并且在一定条件下进一步降低了 FVD。

下表 2 显示了人类评估结果。就真实性而言,研究者的样本通常优于 LVG,并且来自条件模型的样本也优于无条件样本。

研究者将其视频微调像素空间上采样器与独立逐帧图像上采样做了比较,并使用了 128 × 256 30 fps 的真值视频进行调节,如下表 3 所示。

在下图左 1(底部)和图右 7(顶部)中,研究者展示了来自组合 Video LDM 和视频上采样器模型的条件样本。他们生成了高质量的视频。此外,研究者使用其预测方法生成了时间连贯的多分钟高分辨率驾驶长视频。

用 Stable Diffusion 做文本到视频生成

研究者没有先训练自己的 Image LDM 主干,其 Video LDM 方法可以利用并将现有的 Image LDM 转换为视频生成器。在本文中,他们将 Stable Diffusion 转换为了文本到视频生成器

具体地,研究者使用 WebVid-10M 文本字幕视频数据集,训练了一个时间对齐版本的 Stable Diffusion 来做文本条件视频生成。他们在来自 WebVid 的帧上对 Stable Diffusion 的空间层进行简单微调,然后插入时间对齐层并训练它们(分辨率为 320 × 512)。研究者还在这些对齐层中添加了文本条件。

此外,研究者进一步对公开可用的潜在 Stable Diffusion 上采样器进行视频微调,使它支持 4 倍放大并生成分辨率为 1280 × 2048 的视频。研究者生成了由 113 帧组成的视频,并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相关样本如上图 1 和下图 6 所示。

更多技术和实验细节请参阅原论文。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

标签:

百科问答 怎样细致毛孔

1、冰敷——把冰过的化妆水用化妆棉沾湿,敷在毛孔粗大的地方,可以起到不错的收敛效果。2、毛巾冷敷—...

知识课堂 神话女主角玉漱叫什么

《神话》女主角玉漱扮演者叫金喜善。金喜善,1977年6月11日出生于韩国首尔,毕业于韩国中央大学,韩国女...

字词小课堂 生源地所在地是指什么

生源地是指考生的来源地。本科毕业生的生源地,是指入学前户籍所在地。如学生入学后户籍所在地发生变更...

网络百科全书 倾城绝恋角色介绍

《倾城绝恋》当中的角色有美璃、靖轩、永赫、静妃等。该剧讲述了美璃格格和靖轩之间凄美的爱情故事,并...

知识百科 3.5寸硬盘做移动硬盘好吗

3、5寸的是台式机硬盘组装的,一般都需要外接电源。2、5寸的是笔记本硬盘组装的,不需要外接电源。外接...

百科知识 手机流量不够怎么办

1、打电话,拨打10086,让人工给你开通2、发短信,KTLLJYB发至10086,5元30M、10元70M3、手机登陆移动营...

中文百科 巴厘岛会有地震吗

会发生,2011年10月13日发生里氏6、8级地震,有7人在地震中受伤。巴厘岛是印尼13600多个岛屿中最耀眼的...

知识问答 shepr是什么电视品牌

首先需要了解的是,并没有shepr这个品牌的电视,若用户指的是SHARP电视的话,则是日本夏普电视,而若用...

权威百科知识 丹尼尔戴刘易斯的人物介绍

丹尼尔·戴-刘易斯(Daniel Day-Lewis),于1957年4月29日出生于英国伦敦,一位年轻,坚毅的严肃的男演员...

生活知识 女主角身体不好的宠文小说

1、《美人病怏怏》,作者檀月;2、《病猫西施》,作者艾佟;3、《绣球猫》,作者馥梅;4、《何所夏凉》,作...

知识导航 开门见山歇后语的前一句是什么

愚公的居处位于王屋和太行之间,每日一推门,便可开门见山。

重庆:到2025年25个重点领域企业能效全部达到基准水平

3月18日,重庆日报记者从市发展改革委获悉,日前,市发展改革委、市经济信息委、市生态环境局、市市场监...

重磅!2021“发现重庆之美”获奖名单揭晓

3月19日,2021发现重庆之美颁奖典礼在线上举行,最美城市管理人、最美坡坎崖、最美街头绿地、垃圾分类时...

去年重庆回收废弃农膜1.4万吨 农膜回收率达89.31%

3月16日,市五届人大常委会第六十九次主任会议听取了市政府关于《重庆市人大常委会对市人民政府农业面源...

申报分两批!今年国家级博士后科研工作站新设站工作启动

3月19日,重庆日报记者从市人力社保局获悉,为推动产学研深度融合,加强博士后工作平台建设,我市将开展...

浙江鄞州:“水、电、气、数”通办专窗实现城乡公共服务均等化

近日,在宁波市鄞州区邱隘镇公共事务服务中心,66岁的邱隘镇沈家新村居民邱秀月在一个窗口相继办理了不...

打开“浙里办” 浙江1000家农贸市场农产品可线上比价

今天哪个菜场的五花肉最便宜?食品安全抽检结果怎么样?这些问题,浙江居民只需打开浙里办APP上的浙里市场...

浙江鉴湖国家湿地公园规划发布 打造乡村数字旅游

19日上午,鉴湖国家湿地公园规划发布暨东鉴湖农旅观光体验启动仪式在绍兴市越城区陶堰街道举行。当天,...

总投资超10亿元!6个石化装备运维项目在岱山签约

日前,总投资超10亿元的6个石化装备运维项目在岱山经济开发区集中签约。此次签约的项目占地106亩,规划...

如何避免成为“买而不做”的“装备党”祝 杰

自恋是人的天性,人们总是希望自己是更好的,那么自己拥有的事物,也就相应地被自我赋予了更高的价值,...

山西临汾:率先在全省建起农村集体经济开发区

3月17日,临汾市农村集体经济发展(集团)有限公司在临汾经济开发区揭牌。以此为标志,临汾率先在全省建起...

一线工作近22年的缉毒警:我知道坏的是毒品不是人性

  “影子”般的缉毒警:一线工作22年,我知道坏的是毒品不是人性  如果我不继续干,别人也要干,缉...

广东肇庆“毒驾连撞5车致1死”肇事司机被批捕

  1月5日14时30分许,广东肇庆市端州区一男子赵某毒驾连撞5车,致一人死亡。  1月10日,澎湃新闻(ww...

江西最大文物倒卖案宣判:倒卖国家二级文物 9人获刑

  中新网南昌1月10日电 (冷峥嵘 张一怡)江西省共青城市人民法院10日发布消息称,近日,该院依法审结...

青海保障门源地震后生活必需品应急物资

  中新网西宁1月10日电 (记者 孙睿)记者10日从青海省商务厅获悉,青海海北州门源县6 9级地震灾害发...

广西东兴口岸恢复通关 入境需网上预约

呼和浩特:寒假期间有条件的学校要开展校内托管服务

“中国最后一个原始部落”翁丁老寨火灾原因公布

北京市十五届人大五次会议胜利闭幕

天津市委市政府致全市父老乡亲的慰问信:我们一定能够打赢

天津米面油存量由20天提高至30天 超市菜市场进货量翻倍

兰州名师话“美育”:“尚乐立人”分层培优 以“美”润教

子夜直击,天津寒天战“疫”

重庆姐弟被生父扔下坠亡案上诉期结束 一审法院暂未收到两被告人上诉状

天津:划定封控区 全市开展全员核酸检测

江歌母亲江秋莲:尊重法院判决,法律认定在我意料之中

中国边疆“北方第一所”:9名民警守护“生命禁区”

辟谣!网传“封控区管控区相继解封”通知并非西安

河南安阳9日12时至24时新增11例本土确诊病例

老人5折环卫工8折生活困难免费 这家面馆背后有个暖心事

铁路公安以110幅优秀书画作品庆祝人民警察节

本周中东部冷空气频繁 东北等地有降雪

河南新增本土确诊病例60例

“打拐”民警眼里的百态人生:见证一份份不愿放弃的爱

迎腊八北京晴天上线 阵风6至7级体感冻人

多省份倡议春节“非必要不离开”,这地补贴1000元

伪造国家机关证件典型案例发布 有力打击制假贩假行为

15年照顾170多个新生儿 金牌月嫂“漂”到海外去看娃

江歌母亲江秋莲诉刘鑫案一审将于今日宣判

河南省安阳市两地划为高风险地区 一地划为中风险地区

员工迟到一次罚一千引争议 单位惩戒员工法律边界何在?

以体育人 秀出“青年范儿”

保安、厨师曾被竞业限制 企业滥用竞业限制让员工很苦恼

反诈老陈破圈:人民群众在哪 就把反诈宣传开展到哪

一所中职学校的育人实践

各地严惩恶意欠薪 保障农民工及时拿到工资

中学生成剧本杀行业潜在消费人群 多方助推行业“净化”

“这就是我最好的选择”

对餐饮浪费说“不”(百姓关注)

校园“直通车” 服务“零距离”

琉璃河遗址 两段铭文共证北京三千年建城史

千元修复个人征信报告?银行:“征信修复”都是骗局

琉璃河遗址 两段铭文共证北京三千年建城史

北京公交将开展无人驾驶道路测试

河南郑州调整五地为中风险区域 公路入郑需核酸检测阴性证明

“共享法庭”让金融消费者畅享“智慧司法”便利

《传奇2》网游著作权纠纷案峰回路转 最高法五份裁决四份改判一份发回重审

三代警察:从未放弃的28年

“胡叔叔”的寻亲工作室

天津津南本轮本土疫情第3—20例阳性感染者活动轨迹公布

“团圆”行动刑侦专家吕游 每一个案例都有单独的技术方案

河南“战疫”直面五重考验

开考古书店日均两三个顾客 流量时代她决心仍是只卖书

冬奥开幕在即 “双减”催热冰雪课堂

“不得以任何借口拒收患者”彰显生命至上

x 广告
x 广告

Copyright ©  2015-2022 亚洲自然网版权所有  备案号:豫ICP备20022870号-9   联系邮箱:553 138 779@qq.com