>科技>>正文

越来越像人类的 AI 会不会是未来的「终结者」?

原标题:越来越像人类的 AI 会不会是未来的「终结者」?

作者: 刘丢丢

「有人模仿我的脸,有人模仿我的面。」

这本来是汪涵调侃自己大众脸的一句广告词,可如今真的能通过技术创造出假的「你」。

华盛顿大学的研究人员开发出新的算法,可以把一段音频通过剪辑,移植到另一段视频上。视频中人说话时嘴唇的动作几乎和声音完美对应,可以达到以假乱真的效果。

点击查看视频

视频中左边是原版的视频。右边是经过算法合成的新视频,用的还是左边视频中的声音,但图像是全新生成的。

换句话说,通过这项技术,我们将来看到的视频中,这些人可能并没有在这个场合说过这些话。这项技术是将人说话的声音转化为对应嘴型,然后将其移植到一个现有的视频素材中,生成一段全新的视频。如果仔细看的话,能够发现右边视频中奥巴马嘴巴的动作有一点模糊,因为嘴部是 AI 生成的图像。

之所以用奥巴马作为测试对象,是因为他的视频在网上有较多的素材,机器学习会更容易实现。据研究人员透露,整个学习过程需要用 17 个小时的视频作为训练素材。将来视频素材的长度有希望压缩到 1 个小时。

拟人形象的「恐怖谷」理论

我们都看过一些口型对不上的视频,比如双簧表演。当声音发出时牙齿、下巴没有跟着同步移动,人们就会马上感觉到是假的,会有一种滑稽的感觉。而这种现象放在电影中,就成了很多动画作品的难题。

这就是「恐怖谷」理论。

  • 一个形象与人的相似度较低时,比如 50%-60%,人们对它会有一定的好感度,像一些卡通人物。
  • 这个形象与人相似度极高,比如蜡像,接近 99%,也会让人产生好感。
  • 如果它大部分形象像人,有些部分又不像,相似度在 80%-90% 徘徊,就会让人产生厌恶,甚至恐怖的感觉,比如电影中的僵尸。

《玩具总动员》中的胡迪也被视为恐怖谷的例子

在进行音频-视频合成时,如果嘴部动作和声音对不上号,就会出现音画不同步的现象,人们会很明显察觉是假视频。深度学习的算法需要有大量数据做支撑,而网上已经有大量采访、影视节目和其他来源的数百万小时的视频。有这些视频作为机器学习的素材,就可以生成一个较为完美的音画同步视频。

AI 在计算机视觉上的应用

关于 AI 算法在计算机视觉领域的应用,已经有不少的例子。比如前段时间在国外很火的FaceApp,照片上的人经过处理后会露出「迷人」的微笑。这背后就使用了卷积神经网络技术,它会分析图片中人的肤色、脸型等相关信息,然后通过算法对嘴部肌肉走向进行重新绘制。

华盛顿大学研发团队表示,他们希望通过这项技术来改进视频聊天工具的体验。用户可以用自己之前的视频训练软件,然后当需要与人交谈时,就可以通过声音自动生成视频。我们都知道视频聊天时所需要传输的数据比音频聊天多,在网络条件不好的情况下,软件通常会自动切断聊天。只传输音频可以节省流量,这样在网络连接不稳定时也能自动生成视频。

听别人说话时,看着嘴部动作会更容易理解语言的表达内容,有些懂唇语的人甚至在不听声音的情况下也能理解语言。在一些环境不允许的情况下,这项技术能让只有声音的视频会议更顺畅地进行。我们甚至能通过这个技术与一些故去的人对话。

有人担心这样的工具会被用于制造有误导性的视频素材,导致假新闻泛滥。因为从技术上讲,完全可以把任何人的声音安插到其他人的脸上。研发团队表示他们已经有意识地不去把一个人的话放在另一个人脸上。通过逆向推导,他们还可以开发出识别一个视频是否真实的算法。

是我的声音,但不是我说的

你可能觉得声音可以辨识,如果音频和视频不是同一个人很容易就能发现。但根据 Adobe 的另一项技术,声音也可以被「创造」。

在 2016 年 Adobe Max 大会上,开发人员展示了一款代号为 Project VoCo 的软件。它和之前的音频编辑软件不同,你可以在一段声音里直接插入和改动某几个单词。理论上只要有约 20 分钟的录音,Project VoCo 就可以理解一个人声音的构成并进行复制。也就是说利用它可以生成一段你从未说过,但确实是你声音的话。

没错,AI 的模仿能力已经超乎你的想象,《终结者》中高度仿真的机器人正在一步步实现。可能又会有人喊着「机器人毁灭人类」的担忧来发声,还有「人工智能该不该有自我意识」的讨论...

现在考虑这些还为时尚早。这种对技术进步的「提前忧虑」毫无必要,否则和把共享单车扔到河底的摩的司机有何区别?只要技术的初衷不是恶意,就不应该在它正发展进行遏制。管控应该随着技术的进步跟进,而不是预防。返回搜狐,查看更多

责任编辑:

声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
阅读 ()
投诉
免费获取