第一章 绪论
1.1课题背景及研究意义
目前人工智能和机器学习技术被广泛应用于人机交互,推荐系统,无人驾驶,安防监控等各个领域。具体场景包括语音,图像识别,信用评估,防止欺诈,过滤恶意邮件,抵抗恶意代码攻击,网络攻击等[1-5]。然而在这些安全敏感性任务中,通常会存在一些恶意的攻击者,他们根据机器学习模型存在的安全漏洞,试图通过各种手段绕过或直接对机器学习模型进行攻击达到对抗目的[6-13]。特别是在人机交互这一环节,随着语音、图像作为新兴的人机输入手段,其便捷和实用性被大众所欢迎。同时随着移动设备的普及,以及移动设备对这些新兴的输入手段的集成,使得这项技术被大多数人所亲身体验。而语音、图像识别的准确性对机器理解并执行用户指令的有效性至关重要。与此同时,这一环节也是最容易被攻击者利用,通过对输入样本的细微修改,达到用户感知不到,而机器接受了该样本后做出错误的后续操作的目的。并会导致计算设备被入侵,错误命令被执行,以及执行后的连锁反应造成的严重后果。图 1.1 展示了攻击者通过在正常输入样本(第一行图像)中注入细微的、精心设计的对抗扰动生成不易察觉的对抗样本(第二行图像)来紊乱机器学习模型,使其产生错误的输出结果。
............................
1.2本文主要工作及论文组织
在本文中,我们首先揭露了深度神经网络极易受到对抗样本的影响,即脆弱性的存在,然后深入探讨了深度神经网络脆弱性存在的主要原因之一是过度线性。正因为深度神经网络高度线性的本质,一系列攻击算法应运而生,包括基于梯度的和基于优化的两大派。然而,传统攻击算法生成的对抗样本迁移性较弱,在黑盒攻击场景中效果不明显,为了增强对抗样本的迁移性,本文提出了两类基于集成的黑盒攻击策略,迭代级联集成策略(Iterative Cascade Ensemble Strategy, Iter_Casc)、堆叠并联集成策略(Stack Parallel Ensemble Strategy, Stack_Paral),揭露了深度神经网络在黑盒场景中的脆弱性依旧存在。为了合理分析深度神经网络脆弱性存在的潜在原因,并设计出更加鲁棒的模型来对抗黑盒攻击成为迫切需要。具体内容将按如下顺序组织介绍:
首先,在第二章中我们阐述了对抗性机器学习的相关论述,包括脆弱性分析,攻击策略及防御策略。第三章我们将给出对抗样本迁移性的定义及传统黑盒攻击实现过程,然后重点介绍提出的集成对抗性黑盒攻击策略及性能指标。紧接着第四章将给出对抗性训练防御策略的定义,并介绍经典的基于单模型的对抗性训练防御策略,基于多模型的集成对抗性训练防御策略以及针对其不足而提出的批量混合对抗性训练防御策略。在第五章中,我们通过交通标识识别应用去验证提出的集成对抗性黑盒攻击策略与批量混合对抗性训练防御算法的有效性,并通过分布式框架提高该集成策略的运行效率。最后,在第六章中对本文内容和所做工作进行总结,展望未来研究工作的方向。
.........................
第二章 对抗性机器学习
2.1概述
如今机器学习和深度学习已经成为众多领域甚至是非计算机领域研究热点,各种商业化的应用也是层出不穷,可以说为新兴产业的发展带来了强劲的动力。但是从安全角度考虑,其受攻击的可能性,以及能否抵御多样化的攻击一直是安全界关注的核心。传统的机器学习算法要求训练和测试数据来自同一个分布,但在对抗环境中,攻击者可以操纵部分训练或测试数据,使得训练数据和测试数据具有不同的分布,从而误导分类器的学习或逃脱分类器的检测;而防守者通过对抗性训练或设计检测器提升分类器的鲁棒性来对抗攻击。两者构成一种互相竞争的关系。目前已有相关研究使用纳什均衡来探索攻击者和防守者之间的对抗关系[20,21]。
在对抗性机器学习中基于不同的特性存在着三种不同类型的攻击[18,22,23]:
(1)诱发性攻击(Causcative Attack)和探索性攻击(Exploratory Attack):在诱发性攻击中,攻击者通过修改训练数据或投入恶意样本来误导模型的训练,而探索性攻击不影响模型的训练过程,它主要通过试探性的方法来获取目标模型的信息,并根据这些信息来修改测试数据,从而降低系统的性能。
(2)完整性攻击(Integrity Attack)、可用性攻击(Availability Attack)和隐私窃取攻击(Privacy Violation):在完整性攻击中,攻击者希望生成的对抗样本能够逃避目标系统的检测,例如逃避攻击(Evasion Attack)。在可用性攻击中,攻击者的目的是为了提升目标模型的总误分率,使系统不再可用。而隐私窃取攻击顾名思义是从系统中窃取用户隐私信息。
(3)定向攻击(Targeted Attack)和非定向攻击(Indiscriminate Attack):定向攻击是指攻击者在构造对抗样本前已经预定目标机器学习模型识别的结果。而非定向攻击指攻击者只追求对抗样本和原样本的识别结果不一致。非定向攻击方法在类型种类比较少并且类型种类差距较大的数据集里比较有效,而在定向攻击中,一般根据条件概率找出给定原样本最不可能(least-likely)被识别的类别值。
........................
2.2 脆弱性分析
研究者表明机器学习模型,特别是深度神经网络(Deep Nerual Network, DNN),极易受到对抗样本的影响,即通过恶意的修改输入样本从而紊乱机器学习模型使其产生错误的输出结果[6-17]。因此本文主要以深度神经网络作为攻击目标模型来探讨深度神经网络脆弱性存在的本质。图 2.1 描述了深度神经网络最简单的结构,包括输入层,隐藏层(包括卷积层、池化层、全连接层等)及输出层。
目前研究表明,对抗样本的存在并不是过拟合的结果,而是因为输入特征维度过高和模型的局部线性性质导致的。如果是过拟合,复杂的 DNN 过拟合了训练集,而测试集的分布是未知的,模型必然会出现一些随机性的错误。下面举个具体的例子深入地理解过拟合,假 设有一个二分分类器能够很好地拟合训练集(如图 2.2 所示,其中绿圈和蓝叉分别代表训练集中的两个类别,正类和负类;绿色区域代表分类器认为该类属于正类,蓝色区域代表分类器认为该类属于负类)。明显可以看到分类器能正确将训练集分类。但是因为分类器过于复杂,用来表示训练集特征空间的参数过多,分类器对没有训练集的特征空间也进行分类,随机的赋予了绿色或蓝色区域。然而就在这些空间中存在着对抗样本,正类样本(红圈)被误分为负类(蓝色区域),本该是负类样本(红叉)却被误认为是正类(绿色区域)。
............................
第三章 集成对抗性黑盒攻击策略...................................... 12
3.1对抗样本迁移性定义................................. 12
3.2黑盒攻击实现.............................. 13
第四章 集成对抗性训练防御策略................................ 26
4.1对抗性训练定义............................................ 26
4.2基于单模型对抗性训练...................................... 26
第五章 集成对抗学习在交通标识识别系统中的应用............................ 37
5.1黑盒攻击实现及结果分析............................. 37
5.1.1 数据集准备与黑盒系统实现................................. 37
5.1.2 数据集合成与替代模型训练................................... 39
第五章 集成对抗学习在交通标识识别系统中的应用
5.1 黑盒攻击实现及结果分析
5.1.1 数据集准备与黑盒系统实现
IJCNN 在 2011 年组织了一次交通标识识别竞赛,并公布了 GTSRB[43]数据集。该数据集包含 43 类从德国真实交通环境中釆集的交通标识,图 5.1 展示了从 GTSRB 中随机选取的 43类交通标识图像,图 5.2 显示了 43 类交通标识在数据集中的比例。整个数据集包括 51839 幅交通标识图像,其中训练集 39209 幅,测试集 12630 幅,其中每幅图像只包含一个交通标识即感兴趣区域(Regions of Interesting, ROI)。由于图像采集于真实环境,数据集中包括大量低分辨率、不同光照强度、局部遮挡、视角倾斜、运动模糊、尺寸不一等各种不利条件下的图像,为了提高识别系统对待测数据的识别率,恰当的图像预处理对交通标识特征提取及分类识别均有非常重要的作用。本文基于卷积神经网络的交通标识识别算法,因卷积神经网络良好的特征提取特性,所以只需对 GTSRB 数据集中的交通标志图像进行简单且有效的预处理即可,包括区域裁剪、灰度化、图像增强以及尺寸归一化。
.............................
第六章 总结与展望
6.1本文工作总结
本文首先探索了深度神经网络脆弱性存在的潜在原因,以及针对该缺陷提出的一系列对抗样本生成算法。然而在现实对抗环境中,由于攻击者无法访问攻击对象的内部结构信息,所以基于单替代模型的黑盒攻击策略应运而生。本文进一步阐述了传统基于单替代模型的黑盒攻击策略生成的对抗样本具有较弱迁移性,进而提出了两类基于集成的黑盒攻击策略,不仅增强了生成的对抗样本的迁移性,还揭露了传统对抗性训练防御策略的不足。 为了缓解对抗样本的迁移性,本文在原有集成对抗性训练防御策略的基础上提出了改进,融入了对抗样本强度搜索策略选择出一组较优的强度集合进行批量混合对抗性训练来提高目标模型抵御不同强度的对抗样本,在推理阶段还结合了输入样本量化机制以有效降低对抗样本的迁移性。总的来说,本文主要工作如下:
(1)由于传统的基于单替代模型的对抗样本生成算法构造的对抗样本具有较弱的迁移性,本文提出了两类基于集成的黑盒攻击策略来提高对抗样本的迁移性,揭露了在当前现有的防御机制下,机器学习模型的脆弱性依旧存在。同时还从三个方面充分分析了集成对抗性黑盒攻击策略的有效性。
(2)在原生的集成对抗性训练防御策略中融入了量化机制来降低对抗样本迁移性,并结合使用对抗样本强度搜索策略,选出较优的对抗样本强度进行批量混合对抗性训练,实现对模型准确性与鲁棒性之间的平衡,即在不损失模型在测试集上的精度的同时,能够保证抵御黑盒攻击的能力。
(3)本文在交通标识识别应用中验证了集成对抗性黑盒攻击策略、批量混合对抗性训练的有效性并尝试使用分布式框架提高该集成策略的运行效率。
参考文献(略)