>科技>>正文

最新|OpenAI:3段视频演示无人驾驶目标检测强大的对抗性样本!

原标题:最新|OpenAI:3段视频演示无人驾驶目标检测强大的对抗性样本!

来源:openai

我们创建了可视化愚弄神经网络分类器的图像,从不同的尺度和视角观察。 这挑战了上周的一个声明,自驾车很难欺骗恶意,因为他们从多个尺度,角度,角度等拍摄图像。

开箱即用的对抗示例在图像转换下确实失败。下面,我们展示了相同的猫图片,在ImageNet上受到Inception v3的不正当的扰乱,被错误地分类为台式机。缩小到1.002时,导致正确标签的分类概率tabby cat可以覆盖对抗标签desktop computer。

然而,我们怀疑,积极的努力可以产生一个强大的对抗性例子,因为对手的例子已经显示转移到物理世界。

比例不变的对抗例子

可以使用称为投影梯度下降的优化方法来创建对手示例,以便对任意愚弄分类器的图像发现小的扰动。

我们优化了从一个角度找到一个对抗性的输入,而不是优化一个随机分类器的大型整体,随机分类输入。针对这样的一个集合进行优化可以产生强大的对抗性例子,它们是尺度不变的。

比例不变的对抗例子

即使我们限制自己仅修改与猫相对应的像素,我们可以创建一个单一的扰动图像,同时对抗所有规模的对抗。

转型不变的对抗例子

通过将训练扰动中的随机旋转,平移,缩放,噪声和平均偏移相加,相同的技术产生了在任何这些变换下仍然是对抗性的单一输入。

一个转换不变的对抗例子。请注意,它比其不变尺度的表亲明显更加扰乱。这可能是至关重要的:直观上看来,小的对抗扰动很难找到更多的转换,一个例子必须是不变的。

我们的变换在测试时间随机抽样,表明我们的例子对变换的整体分布是不变的。

论文:

现如今,机器学习在人工智能领域有着广泛的应用,而事实表明,大多数机器学习算法很容易受到对抗样本的干扰。在图像空间中一个精心挑选好的方位对图像进行轻微干扰,就可能导致已训练神经网络模型对图像进行错误分类。最近,有样本显示,这种情况也存在于物理对抗样本中:将被干扰的图像打印出来,然后把他们拍成照片,这样操作后的结果仍然会导致错误分类,这一系列的样本引发了大家对于安全问题的思考。

然而,这些实验忽略了物理对象的一个重要属性:相机可以从不同距离和不同角度查看对象。在本文中,我们演示了实验,其结果表明,目前物理对抗样本的结构不会造成移动平台的物体检测。相反,一个训练好的神经网络绝大部分情况会从不同距离和角度拍摄对抗样本。我们认为这是因为干扰样本对抗部分的比例对于整个查看过的干扰样本图片足够敏感,所以,(例如)一辆无人驾驶汽车只有在非常小的范围内才会错误识别停止标志。

我们的研究成果引出了这样一个重要的问题:我们能够构建一种对于许多或者大部分检测情况都对抗的样本么?如果是这样,构建过程应该可以提供非常深刻的见解,以便通过深度网络来认知图案的内部表达。如果不是这样的话,那么前景十分光明:对抗样本可以逐步减少,直至几乎不受任何实际影响。

现如今,深度神经网络正在如图像分类、语音识别,这样具有挑战性的任务上大获成功。鉴于神经网络的架构,其参数由一个基于有限输入空间集的训练算法选择,其被称之为训练集。

但是,对于输入来说,一个精心挑选的小干扰可能会导致不同的答案。在这种情况下,新的输入被称之为对抗样本。例如,它可以干扰图像从而导致神经网络进行错误分类,而与此同时,这种变化足够的小,以至于人眼无法察觉。更糟的是,我们发现,这些干扰广泛存在于不同的神经网络架构和训练数据集中。这意味着干扰者可以训练分类器并使用它来生成图像的对抗版本,然后使用它来愚弄另一个模型。

在过去几年中,研究人员试图解释为什么神经网络对这样的样本很敏感,尽管他们在随机测试数据集上取得了很大的成功,提出了新的方法来产生对抗性样本并测量神经网络对其的鲁棒性,并提出了改进网络对这些样本的鲁棒性的方法。在这些情况下,对抗性干扰被添加到数字图像中,然后将其作为输入馈送到神经网络。

那么,一个自然而然的问题是,如果使用相机从物理世界拍摄的图片作为输入,那这些被干扰的的图像是不是确实是对抗性的?实际上它们可以像Kurakin、Goodfellow和Bengio所著的《物理世界的对抗性样本》 中展示的那样。在那篇文章中,作者使用Goodfellow、Shlens和Szegedy所著的《解释并应用对抗性样本》 中提出的快速方法及其中的两个迭代版本,从ImageNet数据集中创建了图像的对抗样本。然后他们打印了这些样本,并使用手机相机拍摄照片。图像作为输入传递给训练后的神经网络,以证明输入结果仍然是被错误分类的。这表明对抗性干扰样本对于相机和电话处理产生的转换和噪声是鲁棒的。

在Sharif、Bhagavatula、Bauer和Reiter.所著的《追究犯罪行为:最先进的脸部识别技术中的真实和隐身的干扰》中,提出了对面部检测系统的另一次冲击。作者展示了黑白盒方法来打印太阳眼镜,导致最先进的脸部识别系统将干扰者脸部错误分类到特定或任意其他脸部。类似于《物理世界的对抗性样本》中阐述的那样,照片是从短距离拍摄的,且为每张图像只拍摄了一张照片。

这些实验引发了严重的安全和安保问题,特别是当这些网络涉及安全关键系统(如无人驾驶车辆)时。例如,将人类通常不会注意到的微妙的对抗干扰,填加到停车标志上,使其被错误分类为最低限速标志,可能导致致命的车祸。

在本文中,我们利用实验表明,物理对抗样本概括对象检测器的多个距离和角度。具体来说,研究结果表明,无论加上停车标志的物体对抗干扰多么易于或难以察觉,大部分从汽车上相机取景的视频帧都将被正确分类。因此,无人驾驶汽车的控制器将这些帧作为输入,在大部分时间里都会作出正确的决定。

我们针对YOLO检测器和交通标志分类器生成了对抗性样本,然后打印出这些对抗图像。我们模拟了汽车驶过这些打印图像的过程,并查看了YOLO检测器的检测率。具体来说,我们做了以下步骤:

1.我们驾车,同时在副驾驶位置用一部iPhone7手机拍摄了180张停止标志的图片。在不同的照明条件下,从各种不同的角度和距离拍摄照片。这些样本代表了《物理世界的对抗性样本》中的平均情况,它们是由正常驾驶条件生成的随机样本,它们并不意味着代表极端天气和照明条件。

2.我们安装了预训练的开源对象检测器Darkflow(YOLO)。该模型在MSCOCO数据集上进行了预处理,其中包括停止标志类。对于收集的前100幅图像,我们使用三种不同方法,基于Darkflow检测器生成了三个对抗图像。

3.我们使用德国交通标志数据集,从头开始训练了一个VGG16交通标志分类器。但是,该分类器无法识别美国的停止标志。为了解决这个问题,我们将收集到的前150个停止标志图像添加到训练集中。对于剩余的30张图像,我们使用三种不同的方法生成了对抗性样本。

4.我们计算了全尺寸非裁剪数字原始图像和扰动图像的检测率。结果显示在表1的第三列中。

5.我们从前100个收集的干净图像中手动裁剪停止标志,并为检测器中的每一个生成三个扰动版本。裁剪停止标志及其扰动版本的样本如图1所示。我们检查了这400个数字图像的检测率,结果显示在表1第四列的前四行中。我们还裁剪并生成针对分类器的最后30张图像的对抗样本,结果显示在同一列的最后四行中。图2中显示了一个裁剪干净标志的样本及其针对分类器的扰动版本。

图1:YOLO检测器的对抗样本(无干扰和其他三种干扰)。在这种情况下,对抗扰动具有相对较高的频率,因此扰动从近距离更可见,远距离不能保持可见性。

图2:交通标志分类器的对抗样本。在这种情况下,对抗扰动具有相对低的频率,因此扰动从远距离相对更明显。

6.我们在A4纸上打印了所产生的(100 + 30)×4个裁剪停止标志的图像,然后从0.5米到1.5米两个距离拍摄照片(图3)。请注意,我们选择了这些距离,因为A4纸(8.27英寸×11.7 英寸)远小于实际的美国停车标志(18英寸×18英寸,24英寸×24英寸,或30英寸×30英寸),这意味着从这些距离拍摄照片,相当于从汽车相机那里拍摄几米的真实停车标志。然后,我们计算了这些摄影照片的检测率。结果显示在表1的第六列中。我们在图4中,展示了一个样本,该样本将四个图片放置在一起,干扰同样失效。(照片使用Logitech C922 Pro摄像机拍摄;使用的打印机是imageRUNNER ADVANCE C5030)。

图3:我们使用打印的停车标志来模拟具有自然背景的实际停车标志。这些是成功的0.5米和1.5米检测的样本:在两个距离检测到原始图像和对抗样本。它表明在物理环境中的对抗性样本不能可靠地欺骗停车标志检测器。

图4:一起检测四个图像的样本。一个原始的非对抗停车标志和三个不同的对抗停车标志都被检测为停车标志。这意味着对标志检测器的对抗性干扰失败。

表1:该表总结了物理对抗性干扰实验。所有评估均使用预训练的YOLO检测器进行,DR表示停止标志检测率。表格的上半部分总结了从检测器生成的对抗性样本,下表总结了从分类器生成的对抗样本。Ori DR表示具有停止符号的全场景图像的检测率。Crop DR表示在靠近停止标志边缘裁剪的图像上的检测率。我们打印原始和各种对抗停止标志,并将它们放在不同的距离。物理DR是指这些重新拍摄的图像的检测率(见图3)。Relative DR表示相同的设置对抗图像和原始图像之间的相对检测率。破坏率(Destruction Rate)的计算过程见第3节。从表中可以看出,1.5米处探测器的对抗样本的破坏率很高,0.5米处的破坏率可能很高。这意味着物理探测器的对抗干扰在不同距离之间是不成功的,特别是当距离很远并且小图案不可见时。分类器的对抗样本的破坏率随着快速签名干扰(Fast Sign attack)的距离而变化,迭代干扰(Iterative attack)仍然相对较高,对于LBFGS干扰而言也是很高的。这表明物理分类器对抗干扰在不同距离之间也不成功。

总而言之,在本文中,我们经验地表明,即使对抗性扰动可能导致深层神经网络检测器在从特定距离和角度范围拍摄照片时,物理环境中的停车标志图像误检,但是它们不能可靠地从不同距离和角度的范围欺骗对象检测器。我们使用三种不同的对抗干扰方法收集停止标志的图像,并产生扰动版本,干扰分类器和对象检测器。我们使用YOLO检测器来测试和测量所有这些图像的检测率。然后,我们打印他们,从不同的距离拍摄照片,并检查在每个距离没有保持对抗(破坏率)的扰动版本的分数。在大多数情况下,破坏率高,当距离增加时,破坏率增加。最后,我们展示了一个小小的实验,我们拍摄的角度也可以改变对抗性扰动的有效性。

总之,应用于停止标志检测的现有对抗扰动方法(使用我们的数据集和对照实验)只能在非常仔细挑选的情况下才有效,初步实验表明,在许多实际情况下,特别是无人驾驶车辆,不需要担心。

论文:https://arxiv.org/pdf/1707.03501.pdf返回搜狐,查看更多

责任编辑:

声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
阅读 ()
投诉
免费获取
今日推荐