易造欢迎您 咨询电话:021-63900077 关于我们
供应商注册 登录
个人中心 账户设置 退出登录

易造机器人

  • 首页
  • 方案
  • 一站式
  • 商城
  • 品牌
  • 资讯
  • 金融
最近搜索
易造机器人网 > 行业新闻 >Meta 新模型:如果我每14秒生成一个高清视频,好莱坞的各位要如何应对|「变压器」

Meta 新模型:如果我每14秒生成一个高清视频,好莱坞的各位要如何应对|「变压器」

时间:2024-01-05 14:40:31 来源: 品玩

利用人工智能来合成视频一直是该领域的难题,因为其中最关键的一环——映射与合成,缺乏优秀的模型算法,只能利用卷积神经网络(CNN)和生成对抗网络(GAN)来不断提取特征、生成、判断,直至最后结果。比如此前曾大火的Deepfake技术,俗称人工智能换脸,生成一个短短几秒的“换头”视频也需要10分钟左右的时间。

以后就不一样了,Meta在12月的月末发布了一篇论文《Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis》。论文提出了一个新的模型,也就是标题中的Fairy。Fairy能够在仅14秒内生成120帧的512x384分辨率视频(30 FPS,时长为4秒),超过了之前的方法至少44倍的速度。


Fairy合成的视频

这是一种比较另类的图像编辑扩散模型,使其摇身一变,成为了视频编辑应用。

Fairy的技术核心是“锚点式跨帧注意力”机制,它可以在帧之间隐式传播扩散特征,确保时间上的连贯性和高保真度合成。有了这个机制后,Fairy不仅解决了以前模型中的内存和处理速度限制,还通过独特的数据增强策略改进了时间一致性。这种策略使模型对源图像和目标图像中的仿射变换保持等变性。

“锚点式跨帧注意力”说的直白一点,就是允许模型在不同帧之间建立时间对应关系。比如下面这几张图,左边的猫和右边的船上面都有一个红点,代表模型定位了图中物体的特征,Fairy模型中,这个红点叫做查询点(query point)。物体开始移动,途中的红点会跟随其移动,这是模型将要分析的另一帧,目的是找到与查询点相对应的区域或特征,而这个几帧后的红点叫做目标帧(target frame)。所谓锚点式跨帧注意力,正是评估查询点在当前帧中的特征,并将这些特征与目标帧中的特征进行比较,以估计最佳匹配。

查询点

查询点

那么“锚点”又是指什么呢?如果放在其他模型里,锚点指的是用来参考的点。图片以及视频中的锚点,则特指用于稳定识别、追踪或定位特征的固定参考点。比如上文提到的猫鼻子,就是特定的面部特征锚点(如眼角或嘴角)。视频是有多个连续的图片组成的,在Fairy模型中,会从某一帧图片里的K个锚点帧中提取扩散特征,并将提取出的特征定义为一组全局特征,以便传播到后续帧。

在生成每个新帧时,Fairy模型用跨帧注意力替换自注意力层,这种注意力是针对锚点帧的缓存特征。通过跨帧注意力,每个帧中的token取用锚点帧中展示出相似语义内容的特征,从而增强了一致性。

Fairy通过结合跨帧注意力和对应估计,改进了扩散模型中的特征跟踪和传播方法。模型把跨帧注意力当成是一种相似性度量,以评估不同帧之间token的对应关系。这种方法使得相似的语义区域在不同帧中获得更高的注意力。通过这种注意力机制,Fairy在帧间对相似区域进行加权求和,从而细化和传播当前特征,显著减少帧间特征差异。

这也是为什么Fairy能够那么快就合成出一个新的视频,因为从技术原理上来看,它只合成了一张图片,剩下所有的内容都是这张图片连续扩散的结果。很像是一种讨巧,其实更多的像是“偷懒和投机”。人工智能和人理解世界的方式不同,它所表现出来的,就是对“最低劳动力成本”的完美诠释。

Fairy将原视频转换为新的风格

Fairy将原视频转换为新的风格

革视频特效行业的命

Fairy对于视频编辑行业来说,可能会带来一场革命性的变化。当下视频合成最主要的用途是制作特效,我们熟悉的特效大片每一帧都是单独制作的,因此每一帧所耗费的成本大约数百到数千美元,平均下来相当于每分钟烧掉4万美元。试想一下,一旦采用Fairy,特效大片动辄几千万几百万的特效费用,将会直接减少至几千美金,且制作周期大幅度缩短,以前需要花费几个月来渲染,以后兴许只需要几个礼拜。

有可能你会有疑惑,现在的一些视频软件也可以做到类似的功能,比如抖音、快手,就可以实时美颜,或者添加道具跟随视频中物体移动,为什么他们就不能冲击视频合成行业呢?首先是商业场景对技术的需求不同,需要满足直播、手机等内存比较小的设备这些先天的条件下,就没办法使用像Fairy一样的扩散方法,最后技术产出的表现力也就没办法做到那么出色。

就以论文提到的猫举例,Fairy将视频里的猫变成狮子、给猫配上墨镜、或者把白猫变成黑猫,最多也就花费几秒钟而已。你仔细看,合成后的视频特效是会跟随猫的面部朝向而改变的,在墨镜那张图上,这点表现的最明显。

对同一视频合成不同风格的心视频

对同一视频合成不同风格的心视频

而且Fairy目前还只是个“宝宝”。因为任何一个模型从诞生到使用,中间必不可少的一个环节叫做“调试”。调试主要由两件事组成,第一个是调整模型训练、推理以及最后的输出,将其变成更符合实际商业场景化的形式。这个过程可以让模型表现出更好的性能。第二件事是压缩、优化模型,提高模型的运行效率,缩减运行成本,用最短时间完成业务。

另外Fairy除了能够生成高质量视频,还能够以前所未有的速度生成高分辨率的视频,这个提升也是巨大的。论文用生成的1000个视频和现有的方法进行比较,包括TokenFlow、Renderer和Gen-1等方法。评估结果显示,Fairy在质量上超过了之前的最先进方法。因此研究团队对此称道“这是迄今为止视频/视频生成文献中最大规模的评估。”

与其他模型的比较,占比越高代表质量越好

与其他模型的比较,占比越高代表质量越好

Fairy的出现可能会开启一波视频生成热,就像GPT开启文字生成热潮,DALL·E开启图片生成热潮那样。视频合成领域虽然有Deepfake那样的先锋,不过在结合实际的训练、推理、交互、生成等等一系列综合体验来说,Fairy是独树一帜的存在。毕竟它太快了,快到让人觉得有些不可思议。好莱坞的好日子好像又变短了一些。


声明:凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与易造机器人网(www.ez-robot.cn)联系,本网站将迅速给您回应并做处理。

电话:021-63900077


更多推荐内容

  • 精业锐志,极致创新!ITES深圳工业展助力制造业开年起步即冲刺!
  • 2025 ITES深圳工业展 展商名录公布!顶尖工业品牌与你鹏城相见
  • 别只关注吨位,压铸加工后段的抛光打磨很关键!
  • 医疗注塑全供应链覆盖,降本看这不用愁!
  • 内窥镜赛道600亿蓝海,这些机加厂已经顺势捞到红利!
  • 机加厂必看:如何找准半导体设备的千亿隐形赛道

标签

  • 视频AI

热门资讯

  • 精业锐志,极致创新!ITES深圳工业展助力制造业开年起步即冲刺!

    在全球制造业新旧动能加速迭代与融合的趋势下,今年1月全球制造业延续了去年

  • 精业锐志,极致创新!ITES深圳工业展助力制造业开年起步即冲刺!
  • 比亚迪/广汽丰田/富士康/大疆确认参观,ITES品牌终端买家名单发布!
  • 迈瑞/开立/格力/美的...确认参观,ITES品牌终端买家名单|第二批
  • 中国首发,新品炸场!来ITES见证一场无声的科技跃迁
  • 2025 ITES深圳工业展 展商名录公布!顶尖工业品牌与你鹏城相见

专家专栏

  • 何宝宏 : 何宝宏:人工智能开始从学习走向创造

    目前人工智能(AI)开始从学习走向创造,数字化转型的终点是数字原生,未来

  • 聂鹏举 : 全国人大代表聂鹏举:建议扶持工业机器人核心零部件产业
  • 孙丕恕 : 全国人大代表孙丕恕:算力、数据、算法是中国“新基建”的基础支撑
  • 谭建荣 : 「人物特写」工程院院士谭建荣:马云不是制造业的杀手,工业机器人也不是救命良药
  • 李开复 : 李开复:机器人应以实用为主,人形机器人难以盛行于世
  • 孙建波 : 银河证券孙建波:工业机器人是企业未来发展布局的重中之重

企业介绍

  • 纬探传感技术(上海)有限公司

    纬探传感是一家致力于工业自动化,提供传感器及元器件产品、技术服务和成套控

  • 丹因碧克机器人科技(上海)有限公司

    丹因碧克是一家专注于机器人力控应用解决方案的公司,由日本WACOH-TE

  • 浩科机器人(苏州)有限公司

    浩科机器人(苏州)有限公司是一家专注于机器人本体研发及应用的高科技企业。

  • 关于我们

    • 首页 商城
    • 品牌 方案
    • 资讯 一站式
    • 金融 我们
  • 服务支持

    • 服务条款
    • 隐私权政策
  • 联系我们

    • info@ez-robot.cn
    • 021-63900077
    • 周一到周五 09:00-18:00
  • 合作伙伴

    • 硬蛋网
    • 科通芯城
    • 科姆特
    • 工业自动化展会
    • 郑州工博会
    • 山东国际会展中心
  • 关注我们

    • 微信号:易造机器人网
公司地址:上海市黄浦区打浦路15号中港汇•黄浦2701-2702室
Copyright©. All Rights Reserved. 粤ICP备19093622号-1