重要进展!谷歌 AI 发布开源最新视听觉算法,秒学习,神同步

原标题:重要进展!谷歌 AI 发布开源最新视听觉算法,秒学习,神同步

随着人工智能技术的发展,现在这个领域的关注群体已经从部分科技产业人士,变成了全民聚焦的未来趋势。而在技术领域,目前已经有相关项目或技术产品,可以做到“嫁接”不同来源的视频对象和动作。但是,更多业内人士认为,这个技术其实并不完美,背后大部分来源于存入数据库的相机拍摄图像模型,以及大数据的模型训练,这种方式需要很长时间,并且通过不断验证和试错,才最终形成完整的人体图像合成技术。

但是,如果有一种办法,可以实时“逐帧跟踪“声音和图像,形成对齐效果,并且通过即时学习方式 “嫁接” 不同来源视频的对象,是不是会更快捷,更有效率呢?

图|Google AI logo(来源:Venturebeat)

近日,谷歌 AI 团队的研究人员提出了一种叫时间周期一致性学习(TCC)自我监督的 AI 训练技术,有点类似即时模仿,可以在一段连续过程中(如多次打击棒球),找到每一帧和某个具体动作的对应关系,然后利用 AI 算法,即时复制到下一个相同动作当中

目前,谷歌已经将 TCC 的代码开源,放到了 GitHub 仓库中,希望更多开发者可以在自己开发的应用程序中使用这个算法以及相关技术。

TCC 的原理是什么

TCC 的原理是什么

当你想喝水的时候,就会伸手拿杯子,然后去接水,这一过程是按特定的顺序进行的,整个次序不能颠倒,并且相似的视频都会有这样的先后顺序以及对应关系。

幼苗成长为树木,每个人每天从起床,上班,到回家的日常生活,或者一个人倒一杯水,这些都是按照特定的顺序进行的。若想“嫁接”不同来源的特定片段的话,就需要 TCC。

(来源:Google AI 官方博客)

那么, TCC 是什么呢?按照谷歌 AI 的说法,利用时间周期一致性原则,在特定的顺序变化中“逐帧跟踪“,包括声音、视点、物体大小、容器形状的变化等,进行采集并找寻对应关系,通过对齐方式来学习并“嫁接”有用处的视觉表征片段。

这个算法是选择视频的每一参考帧,在其中嵌入空间(非像素空间),进行不断的 AI 训练,而在嵌入之时,其对视频过程中的动作上下文进行选择性语义理解,不断重复和循环下,形成周期一致性的“嫁接”关系。

据悉,该训练算法的目的是使用处理图像的任何网络架构(例如 ResNet)来学习帧编码器,也就是在视频当中添加马赛克、调整移动等,在这些场景中变得更加有用。在下图中,谷歌 AI 团队展示了使用 TCC 训练出的模型,该模型来自宾夕法尼亚大学所做的“行动数据集”项目,其中研究了深蹲练习视频序列资料。

(来源:Google AI 官方博客)

图中左侧的每个点对应于帧嵌入,显示的点将会跟踪当前视频帧的嵌入,随着视频帧的变化,点也会进行着变化。尽管在姿势,光照,身体等方面存在许多差异,但 TCC 还是可以在不提供任何打点标注的情况下将视频和模型同步在一起。

谷歌 AI 团队表示,TCC 可以在少数视频的情况下,可以形成实时的学习模型,做到“神同步”。而随着视频数量的增加,手动对齐或同步视频变得非常困难。使用 TCC 技术,无需其他分类和标签,对齐许多参考和剪辑的视频。例如下面这个动图中,TCC 将 25 个棒球投手视频的动作完全对齐同步,非常厉害。

(来源:Google AI 官方博客)

此外,TCC 还可以将一个倒水、倒牛奶的声音传输到另一个视频中,做到视听大致同步,毫无违和感。

为什么这是一次重要进展

为什么这是一次重要进展

相比之前 DeepFake 使用的大量采集人脸识别样本,打点勾勒出面部形状的图像合成技术来说,这次谷歌 AI 团队发布的 TCC 自我监督 AI 训练技术,更加高效,更加便捷。

实际上,能够制造假图片和假视频的 AI 技术不仅仅只有 DeepFake,相关技术在过去五年里层出不穷,这都要归功于生成式对抗网络(GAN)深度学习技术。

(来源:Innov8tiv)

但是,这次 TCC 自我监督 AI 训练技术,更像是通过模型进行模仿,并非 GAN 这种长期训练的结果。Google Research 研究助理 Debidatta Dwibedi 表示,这项研究成果或将对于从事视频的研究人员,以及希望利用机器学习来调整视频对象、调整马赛克等多个场景的艺术家来说,是非常有用的。

随着移动互联网行业的发展,能够制造假图片和假视频的 AI 技术使用门槛越来越低。现在随便在网上一搜“AI 换脸”,就会找到很多神经网络训练教程,如果有编程功底,从开源社区拿到代码和数据就可以自行搭建框架和训练。

即使不懂得如何构建神经网络,看不懂晦涩的论文,甚至是不懂编程的小白也没问题,网上早就有 Fakeapp 和 Faceswap 等现成的换脸软件,只要电脑硬件足够强大,跟着教程走,自制简单的换脸短视频并不困难。

所以谷歌 AI 团队对 TCC 自我监督 AI 训练技术进行了开源,很大程度上有利于更多人使用并应用 AI 技术。

在开源和技术进展两者加持下,这一次谷歌 AI 团队发布的 TCC 自我监督 AI 训练技术,更像是一次重要的变化,也是 AI 前进路上的一个重要节点。

参考:

https://venturebeat.com/2019/08/08/googles-ai-learns-how-actions-in-videos-are-connected/

https://ai.googleblog.com/2019/08/video-understanding-using-temporal.html

https://github.com/google-research/google-research/tree/master/tcc

https://arxiv.org/pdf/1904.07846.pdf

https://dreamdragon.github.io/PennAction/

返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
免费获取
今日搜狐热点
今日推荐