>科技>>正文

这个AI能预测未来并生成逼真的视频(论文来自谷歌大脑、北航等)

原标题:这个AI能预测未来并生成逼真的视频(论文来自谷歌大脑、北航等)

问耕 若朴 编译整理

量子位 报道 | 公众号 QbitAI

先展示成果。下面是一组动图,展示的是AI如何根据一段视频,脑补出未来64帧的画面。

观看说明:当视频外框为绿色时,为真实视频;当外框变红时,为AI生成的“假”视频。最左边是今天要介绍的方法,中间和右边用以前方法达到的效果。

需要补充说明的是,每个动作都没有进行针对性的训练,所有视频都是同一个模型生成。

是不是效果惊人的好?这个能预测并脑补未来视频的AI,几位学者的共同成果:

密歇根大学:Ruben Villegas、Yuliang Zou、Sungryull Sohn

Adobe研究所:Jimei Yang

北京航空航天大学:Xunyu Lin

Google大脑:Honglak Lee

论文摘要

他们的论文是《通过分层预测来学习生成长期未来》(Learning to Generate Long-term Future via Hierarchical Prediction)。

顾名思义,在论文中他们提出使用分层的方法,对视频的未来进行长期预测。为了避免递归像素级预测中的固有复合误差,作者建议首先估计输入帧中的高层级结构,然后预测未来结构演变的方式,最后通过观察过去的单帧和预测的高层级结构,来构建未来的帧,而不必观察任何像素级预测。

通过循环观察预测帧,很难进行长期视频预测。因为随着预测进一步深入,像素空间中的小误差指数地放大。而新的方法通过消除观察预测帧的需要来防止像素级错误传播。

这个模型是用LSTM和基于类比的编解码卷积神经网络的组合构建的,它们分别独立地预测视频结构并产生未来帧。

在实验中,这个模型在Human 3.6M和Penn Action数据集上,对人类动作的长期像素级视频预测任务进行了评估,并显示出比现有技术更好的结果。

结构概览

这是像素级视频预测的总体层次化方法。 这个算法首先观察过去的帧,并估计每个帧中的高层级结构(人类姿态xy坐标)。然后使用估计的结构来预测未来的结构序列方式。

最后,这个算法基于最后一个观测帧,按照所估计结构和预测结构序列,生成未来帧。下图 绿框表示输入到网络,红框表示从网络中输出。

数值评估

对于效果的评估,使用了类似Vondrick等人的人类心理-物理定量评估标准。这里也利用了Amazon Mechanical Turk (AMT) 的服务,来鉴别哪一个视频更逼真。

评估结果这里略过了,当然是更好。

另外基于运动的像素级评估,分析和控制实验表明,分层方法是解决长期像素级视频预测问题的正确一步。

长期帧生成

除此以外,如果能给定准确的未来姿势轨迹,这个模型还能生成多达1000帧的视频。效果如下图所示。这也被认为进一步证明了分层预测的正确性。

局限和未来

尽管效果惊人,几位作者表示他们的方法并不完美,并且有以下局限有待继续解决。

· 自动发现结构

这次论文试用了姿态注释作为结构信息,未来的目标是自动发现。

· 预测更多未来

目前这个网络智能预测一种未来的结果。

· 处理背景

这是一个更具挑战的任务,目前网络还难以想象背景未来会如何变化。

论文和代码

论文地址:

关于代码:

他们说“coming soon”

招聘

我们正在招募编辑记者、运营等岗位,工作地点在北京中关村,期待你的到来,一起体验人工智能的风起云涌。

相关细节,请在公众号对话界面,回复:“招聘”两个字。

One More Thing…

今天AI界还有哪些事值得关注?在量子位公众号会话界面回复“今天”,看我们全网搜罗的AI行业和研究动态。笔芯~

另外,欢迎加量子位小助手的微信:qbitbot,如果你研究或者从事AI领域,小助手会把你带入量子位的交流群里。

追踪人工智能领域最劲内容返回搜狐,查看更多

责任编辑:

声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
阅读 ()
投诉
免费获取
今日推荐