第 1 章 绪论
1.1 研究的背景与意义
社会成员之间由于工作、学习等相互作用逐渐形成了稳定的关系,进而构成了社交网络。社交网络是由节点和节点间的边组成的网络结构,其中节点表示网络结构中的成员,比如个人或者组织,边表示网络成员之间的关系,比如同事关系、同学关系、朋友关系和亲人关系等。社交网络分析是社会学研究的重要分支,社会网络分析是进行社会成员关系研究的方法,分析的焦点是社会成员的关系模式反映的现象或数据。生活在社会环境中的人的相互作用可以表达为一种基于关系的模式或规则,而社会结构能够基于这种关系的规律模式反映出来,社会网络分析的出发点是这种社会结构的量化分析。社交网络结构分析通过统计方式来进行节点的相识关系、关系紧密程度、度分布规律的分析。
随着社交网络分析技术的使用越来越广泛,我们的社交关系,电子邮件甚至金融交易数据越来越可能被用来推断出隐私信息,这引起了隐私和安全方面的关注,因为我们的数据不仅对企业和政府部门是有价值的,攻击者也越来越依赖网络分析技术来达到恶意的目的。链路预测作为最基本的社交网络分析技术,用于分析社交网络拓扑结构,预测两个个体之间的潜在关系。Lu 等人[1]介绍了主要的链路预测方法,主要包括基于相似性的算法[2]、基于路径的算法[3]和基于嵌入的算法[4,5]。最近,随着深度学习研究[6-11]的快速发展和广泛应用,基于图神经网络的方法在图分析[12,13]中显示出很好的性能。它们利用神经网络的非线性和分层性质来捕获节点的潜在特征向量,这大大提高了链路预测的性能。如果攻击者出于恶意目的使用这些先进的基于深度学习的链路预测算法,即使数据发布者在发布网络数据集中删除了用户的敏感关系,攻击者依然可以预测出社交网络用户的敏感关系,对公众的隐私和安全构成威胁,这将导致用户的隐私泄露。基于深度学习的链路预测方法给隐私保护方法的研究带来了新的挑战。
........................
1.2 研究的现状与分析
1.2.1 链路预测攻击的研究现状与分析
Zheleva 等人[14]提出了链路重识别攻击的概念,即从匿名的网络数据中推断特定的关系,如果敏感链路可以从发布的数据中识别出来,就意味着隐私泄露。Ying 等人[15]调查了链路随机化水平和推断网络中存在链路的可能性之间的关系。Ying 等人[16]研究了链路随机化方法对保护敏感链路隐私的影响,他们发现攻击者可以利用相似性度量方法来显著提高预测敏感链路的准确性。Fire 等人[17]提出了一个链路重建的攻击方法,攻击者可以使用链路预测来高精度地推断用户与其他用户的连接,但是他们没有提到如何防御所谓的链路重建攻击。如上所示,链路预测可以用于预测两个个体之间的潜在关系,但是链路预测也可能增加链路隐私泄露的风险。
因为本文主要针对攻击者采用链路预测作为攻击方法,所以本文接下来详细介绍链路预测算法的研究现状。基于相似性的算法是链路预测算法研究中比较主流的方法,它假定两个节点越相似,它们越有可能产生联系[18]。根据相似性计算需要的邻居最大跳数进行分类,分为一阶、二阶和高阶启发式算法。一阶启发式算法只涉及两个目标节点的单跳邻居,例如,共同邻居 CN (Common Neighbor)算法[19]假设两个节点的共同邻居越多,那么它们越容易产生链路。优先连接 PA (Preferential Attachment)算法[20]认为节点更有可能和度数较高的节点产生链路。二阶启发式算法根据目标节点的两跳邻居计算相似度,例如,AA(Adamic-adar)算法[21]根据共同邻居节点的度为每个节点赋予一个权重值,该权重等于该节点度的对数的倒数。于是 AA 算法计算出的相似值就等于两个节点的所有共同邻居的权重值的和。资源分配 RA (Resource Allocation)算法[22]的形式与 AA 算法差不多,不同的是RA 的权重形式变成了节点的度的倒数。高阶启发式算法根据目标节点的三跳及以上邻居计算相似性,如局部路径指标 LP (Local Path)[23]在二跳邻居的基础上考虑三跳邻居。Katz算法[24]是基于全局网络的算法,根据整个网络计算相似度,全面考虑节点在网络中的路径信息,对网络中两节点之间所有路径做加权求和,它的缺点是计算复杂度太高。近年来,随着深度学习不断的发展,逐渐促进了链路预测性能的提高。Perozzi 等人[4]提出了一种网络嵌入方法 DeepWalk,通过截断随机游走学习出网络节点的向量表示。Grover 等人[5]提出一种 node2vec 方法,改进了 DeepWalk 方法的随机游走生成过程。Kipf 等人[25]将自编码器迁移到了图领域,提出了一种用于链路预测任务的图自动编码器 GAE(graph auto-encoders)模型,这一模型用已知的图数据经过编码(图卷积)学到节点向量表示的分布,在分布中采样得到节点的向量表示,然后进行解码(链路预测)重新构建图。Zhang 等人 [26]提出一种基于图神经网络的链路预测模型 DGCNN,通过对闭合子图的分类来预测敏感链路是否存在,提高了基于相似性的预测链路的准确度和通用性。
.......................
第 2 章 相关工作
2.1 社交网络概述
社交网络是由节点和节点间的边组成的网络结构,其中节点表示网络结构中的成员,比如个人或者组织,边表示网络成员之间的关系,比如同事关系、同学关系、朋友关系和亲人关系等。本节将简要介绍社交网络中常用的概念。
(1)度分布
在无向图中的节点的度数就是这个节点连接边的数量。度分布服从幂律分布特性,即大多数的节点度数是比较小的,只有一小部分的节点度数是比较大的,这使得度分布能够刻画不同节点的重要性。在朋友关系网络中,节点代表人,边代表朋友关系。例如在微博社交软件中的明星、作家等名人,比普通人有更高的名气和更多的粉丝数量,那么在社交网络中表示明星的节点的度数就比较大,而表示大部分普通人的节点的度数就比较小,这就是节点度数的幂律分布特性。
(2)链路度
链路度定义为连接到此链路的链路数。如图 2.1 所示,其中对于红色节点组成的不存在的链路,链路度是构成这个链路的两个红色节点的度的总和,所以图中不存在链路的链路度为 8。对于蓝色节点和链路构成的存在链路,链路度应该排除蓝色链路本身时的度之和,所以图中存在链路的链路度为 7。
图 2.1 存在和不存在链路的链路度
2.2 图卷积网络概述
2.2.1 图卷积网络
因为卷积核具有参数共享和加权平均机制,卷积网络在图像数据处理时的特征抽取和整合能力很强。卷积网络只可以进行规则网格结构的数据处理,但是在现实中很多数据都不具有完整规则的矩阵结构,而是像社交网络一样通过连接关系聚合在一起。卷积网络很难处理这种具有拓扑图结构的数据,而且通常不能很好的提取节点之间的连接关系信息,这本质上是因为数据的多样性,广义上讲,任何数据都可以在赋范空间内建立拓扑关联,例如谱聚类。假如要在非图像领域应用卷积网络,则一定进行规则网络结构的数据组合。因此拓扑连接的数据结构是广义的,图卷积网络有很大的应用空间。
从传统数据(例如图像)推广卷积运算到图数据,图卷积网络的基本思路是进行函数映射 f() 的学习,图中的节点 iv 能够通过这个函数映射聚合它的特征ix 和邻居特征(( ))j ix j N v 来完成节点 iv 的新表示的生成。如图 2.2 所示,中心红色节点的特征值是周围所有蓝色像素点将特征值传播到中心红色点后的加权平均值,这种操作与传统的卷积操作等效,只是人为的为特征添加了一个传播方向(边),将每个像素点当成顶点,从而在图结构上再次定义了卷积操作。
图 2.2 卷积操作的另一种理解
第 3 章 防御链路预测攻击的隐私保护方法 ...................................... 14
3.1 问题定义 ........................................ 14
3.2 局部扰动的隐私保护方法的总体框架 ..................................... 15
3.3 扰动范围划分 ................................. 16
第 4 章 基于 CUDA 并行框架的局部扰动隐私保护方法 ........................ 28
4.1 基于 CUDA 并行框架的局部扰动隐私保护方法概述 .......................... 28
4.2 基于 CUDA 并行的闭合子图划分 .............................. 30
4.3 并行计算积分梯度 ........................................... 33
第 5 章 系统设计与实验分析 ........................................ 37
5.1 实验环境设置与数据集简介 ....................................... 37
5.1.1 实验环境设置 ........................................... 37
5.1.2 数据集简介................................ 37
第 5 章 系统设计与实验分析
5.1 实验环境设置与数据集简介
5.1.1 实验环境设置
(1)实验硬件环境
本文采用的计算机的处理器型号为 Intel(R) Xeon(R) Silver 4215 CPU @2.50GHz,内存为 64GB,GPU 型号为 Tesla V100-FHHL,GPU 显存为 16GB,显存频率为 5012MHz。
(2)实验软件环境
本文使用的操作系统为 ubuntu18.04 LTS,程序开发工具为 Pycharm2020,开发语言为Python 3.7.5。
5.1.2 数据集简介
为了更全面的测试本文提出的算法性能,本文选择了不同规模和不同类型的网络数据集,这些数据集都是无向图,表 5.1 说明了数据集的主要特征,其中包括节点数、链路数和平均链路度。其中链路度定义为连接到此链路的链路数。对于不存在的链路,链路度是构成此链路的两个节点的度的总和。对于已有的链路,我们应该排除链路本身时的度之和。
表 5.1 数据集信息统计
...........................
第 6 章 总结与展望
6.1 全文总结
链路预测作为最基本的社交网络分析技术,会分析观察到的网络拓扑结构,预测两个个体之间的潜在关系。如果攻击者出于恶意目的使用链路预测算法,能够实现链路重识别攻击,即使数据发布者在发布网络数据集中删除了用户不想让别人知道的敏感关系,攻击者依然可以利用链路预测预测出删除的敏感关系,从而导致隐私泄露,对公众的隐私和安全构成威胁。目前现有的防御链路预测攻击的隐私保护方法,大部分是针对基于相似性的链路预测方法,随着深度学习的发展,基于深度学习的链路预测方法大大提高了预测性能,带来了更大的链路隐私泄露风险,针对采用深度学习方法预测链路带来的隐私问题,目前有一些研究借鉴深度学习的对抗攻击方法,将生成对抗样本的方法用于防御深度学习的链路预测,导致敏感链路被预测错误,从而保护敏感链路的隐私。但是目前提出的方法的计算复杂度较高,只适用于小型社交网络。为了解决现有的防御链路预测攻击的隐私保护方法的不足,本文提出一种局部扰动的隐私保护方法,降低了计算复杂度,适用于大规模的社交网络,保证隐私效果的同时提高了隐私保护发布图的效用性。本文的主要研究工作如下:
(1)对防御链路预测攻击的隐私保护方法的研究现状分别进行了综述和分析,指出现有防御链路预测攻击的隐私保护方法的局限性。
(2)提出适用于大规模社交网络的局部扰动算法 LDIG。该算法主要包括三个阶段,第一阶段为划分扰动范围,通过划分敏感链路的闭合子图作为扰动范围。第二阶段是链路扰动排序,通过积分梯度的计算结果确定扰动范围内链路扰动的顺序。第三个阶段是链路扰动,通过迭代扰动来逐渐实现链路预测模型的错误预测,将深度学习模型对扰动图中敏感链路的错误预测作为结束扰动的判断依据。同时给出了算法的时间复杂度分析。
(3)针对保护多个敏感链路的情况,在局部扰动算法 LDIG 中采用 CUDA 并行框架,利用 CPU 完成扰动范围划分、链路扰动排序和链路扰动三个阶段的顺序执行,利用 GPU对每个阶段进行并行处理和加速,实现对大规模社交网络中的多个敏感链路进行隐私保护,用较少的时间生成发布图。
参考文献(略)