第一章 绪论
1.1 研究背景和意义
随着科技不断的发展,互联网时代的到来,人类的活动不仅局限于现实生活中的行为,出现了更多的网络上的行为。网络的虚拟性、匿名性、广泛性、快速性等一些特性给一些不法犯罪分子提供了网络犯罪、网络诈骗、危害国家安全等不法行为极大的方便,也造成了专门管理部门的管理难度。人们一边享受着网络所带来的便利,一边也还要承受着这些网络犯罪不法行为所带来的损失与伤害。当人类开始完全融入互联网网络生活当中,计算机病毒、网络诈骗和伪造等不法行为越来越严重。吕本富和张崇教授在《中国信息安全》杂志中发表的言论,意思是网络没有了安全保障就不会有发展的未来,这是目前人类在网络中所遇到的挑战。不管是从个人层面、企业层面还是管理层面来说都面临不同的网络信息安全问题的风险和挑战。在个人消费者层面,人类面临着个人信息泄露风险,网上安全支付风险;在企业层面,多样化的传统行业导致网络信息安全问题的多样化;在管理层面,法律及监管的挑战,还有观念意识变革的挑战。这些都是网络所面临的安全问题。
然而已经存在的一些身份识别认证不能够确切的反应一个实体的本质特征,网络虚拟的身份容易被伪造、篡改,而且很难从虚拟的世界对应到现实的空间中,无法进行有效的虚实映射。网络中的虚拟匿名身份很难和现实世界中的真实身份一一对应起来。网络的匿名性,广泛性、虚拟性等特性也使识别和定位实体的难度程度加大。所以我们需要将现实中的实体行为和网络上的实体行为关联起来。我们发现人类在网络上进行的活动行为都会留下一些能反映一个人行为特性的痕迹,例如即时通信的软件微信,QQ 等使用的时间分布可以反应一个人的作息规律,发表的微博内容可以反应一个人的情感倾向,12306 的买车票记录可以反应一个人的出行规律等等。虚拟网络空间的存在给人类在现实空间中产生的行为数据提供了一个遗留场所,也使技术门人员有了获取人类行为数据的途径,这就使得通过虚拟的网络世界来映射到现实空间中的一个实体成为了可能。
........................
1.2 国内外研究现状
目前在国内外关于网络“基因”图谱的研究还少之又少,在国内仅有董新民、尹芷仪等人[2]首次在论文中提出“网络基因图谱”的概念,介绍了网络“基因”图谱的一些相关概念,比如网络“基因”图谱技术的起源、定义以及组成等。关于如何定量的进行计算,如何构建行为“基因”片段,如何进行“基因”片段的拼接,图谱的构建方法等都还没有给出具体的可行方法。虽然在国内外关于网络“基因”图谱的研究几乎没有,但现有的很多研究也在一定程度上表明了网络“基因”的确实存在。比如,网上微博评论的语言风格、视频、音乐的个性推荐、邮件的通信时间间隔分布,即时通信的在线时间分布、手机电话的移动轨迹等等都可以通过这些在虚拟网络空间中产生数据来区分不同的实体自然人。每个实体或者群体在这些行为方面都有不同的特性习惯。
在国外,de Montjoye Y A,Hidalgo C A 等人[3]在论文中研究了用手机数据结合域外少量的数据,在给出打电话时四个准确的时间-地点对就能够比较准确的确定打电话人的身份。Rui L,Wang S 等人[4]在论文中研究了根据社交网络的数据建立统一判别模型来推断出网络实体的家庭住址所在的位置。这就表明了一些网络行为的特征对实体在现实中的特征起着非常重要的作用。能够根据实体在虚拟网络中的行为数据来推断出实体的位置、性别、年龄、性格、身份、政治倾向、收入等。Burger J D, Henderson 等人[5]用性别标记的大型多语言数据集的构建,并研究了用于确定未定性的Twitter 用户的性别的统计模型。Rao D, Yarowsky D 等人[6][7]在论文中根据用户的博客,电话交谈和在线论坛发表的帖子中的文本内容建立模型来预测用户的年龄,获得了高达 0.74 的相关性。Schwartz H A, Eichstaedt J C 等人[8]研究了根据发出的消息内容来推断实体的性格。他们分析了从 75000 名志愿者的 Facebook 消息中收集的 7 亿个单词,短语和主题实例,还进行了标准的性格测试,发现了语言和性格,性别和年龄的有着很大的联系。Daniel P P ,Svitlana V 等人[9]研究了在社交媒体中通过语言,行为和影响来研究用户收入,分析揭示了不同特征类别和收入之间的相关性,其中一些反映了共同的信念,例如较高的感知教育和智力表明收入较高。Al-Azizy D,Millard D 等人[10] 研究了通过社交网络数据来推断出用户的身份。Niculae V ,Suen C 等人[11]研究了领导演讲新闻文章大量的数据集,提供了对政治媒体报道结构的分析。揭示了一个潜在的媒体偏见空间,与政治意识形态和出路类型完全吻合。Johansen 等人[12]研究了人类电子邮件网络的时间动态,记录了电子邮件消息与其回复之间的时间段,研究发现用户个体回复的时间和间隔时间都服从幂律分布这一特性。
.........................
第二章 相关背景知识综述
2.1 基因
2.1.1 DNA 基因概念
脱氧核糖核酸(DNA)是一种分子结构复杂的有机化合物。作为染色体的一个成分而存在于细胞核内。功能为储藏遗传信息。DNA 是一种高分子化合物,是由一系列脱氧核苷酸链组成,脱氧核苷酸又是由磷酸、含氮碱基和脱氧核糖构成,脱氧核苷酸链由脱氧核糖和磷酸链在螺旋形结构的外面,碱基朝向里面组成,两条多核苷酸链通过碱基间的氢键相连,形成相当稳定的组合。带有遗传讯息的 DNA 片段称之为基因,基因是生物性状表达的基本遗传单位。基因表示着生物的基本构造和性能。一个生命的孕育、生长、凋亡、外貌、性格、血型等过程的全部信息都存储在基因中。基因具有双重属性物质性即存在方式和信息性即根本属性,根本属性就是基因决定了人类个体的所有的性状。
受到 DNA 基因的启发,本文的网络“基因”引用生物基因概念,生物基因决定了生物的性状表达,存储着生物性状信息,而网络“基因”是存储着实体的网络行为特性信息。
2.1.2 DNA 基因的特性
DNA 基因具有下面三个特性:
(1)稳定性,DNA 分子是相对稳定的。这是由于 DNA 分子是双螺旋结构的,在双螺旋结构的内侧,通过氢键而形成的碱基对,使两条脱氧核苷酸长链稳定的连接到一起。而且,碱基对之间的相互作用力也加强了 DNA 分子之间的稳定性。所以,DNA 分子具有一定的稳定性,不会随意的随着外部状况的变化而发生改变。
(2)多样性,是指 DNA 分子的多样性。由于碱基对的数量不同且碱基的排列顺序也是各种各样花样繁多的,所以就导致了 DNA 分子具有多样性,每一种排列顺序或者数量的不同都可导致 DNA 分子的不同。
(3)特异性,是指每个个体都有着不同生物 DNA 基因。碱基对的数量及其排列顺序存在着不同,其中任何一个的不同都造成了 DNA 分子的不同。所以,每一个 DNA 分子都有其特定的碱基对数量及碱基的排列顺序,这种的碱基对的数量及排列顺序中包含着遗传信息,所以使得 DNA 分子具有了特异性。
引用生物基因的稳定性,让网络“基因”也具有稳定性,不会随着网络环境的变化实体行为就发生改变。而引用生物基因的特异性,不同生物的基因是不同的,网络“基因”的特异性即唯一性,每个网络“基因”唯一标识一个实体。
.......................
2.2 人类动力学
人类(系统)动力学是一门研究人性系统规律的科学,是一种复杂性系统,是一门交叉了多门学科的新兴学科,包括数学,统计学,信息科学,心理学,物理学,管理学等等学科。人类动力学能够准确的阐述人们一些稳定的内在的行为特性,它发现人是一个整体的复杂的系统。对人类动力学这个领域的研究已经有几十年了,研究对象也已经超过十万人。从对大量的人研究中,发现了一些特定的模式,其特征就表现在人们用怎样的方式来处理信息、与人相处、沟通、解决问题、学习、承担工作等等的“为人之道”。人类最根本的本质就是这些不同的“为人之道”,在所有人的任何一个年龄段,都能够观察到这些特定的天性,无论是男性和女性都是一样。换言之,我们是什么样的人及如何做事的行为方式,不是取决于我们的年龄、性别、文化、种族这些,而是取决于我们这些天性的特征。这就是人类动力学的本质。人类动力学最开始是由物理统计学家带起推动的,与社会心理学上研究的人类行为有着很大的区别。人类动力学和社会心理学的区别主要在以下几个方面:
(1)从研究对象上来讲:人类动力学研究的是人们日常生活中的行为模式,主要关注点在时间和时间间隔上;而社会心理学对人类行为的研究主要是一些异常的行为,比如犯罪性行为、成瘾性行为、变态性行为等等。
(2)从研究目标上来讲:人类动力学是希望从人类日常行为模式中挖掘出新的统计规律并建立日常行为的动力学机制,而社会心理学则是想从人类异常行为的背后挖掘出这样行为的社会学和心理学机制。以个体之间电子邮件发送与回复行为为例,人类动力学研究的是个体之间发送回复邮件行为中表现出来的特定的统计规律,例如收到邮件的时间间隔的分布和邮件回复时间的间隔分布,并分析出相应的动力学机制;而社会心理学则重点研究的是个体为什么要和其他个体之间电子邮件通信,既包括了心理学上的原因——为了交流,又包括了社会学上的原因——资源整合与信息共享。
(3)从研究方法上来讲:人类动力学是通过人类日常行为所记录下的数据,以一个研究者的身份角度从统计规律方向给出定量的分析结果;而社会心理学的结论主要来自于问卷调查的数据和临床实践的数据,通过分析这些数据得到定性或者简单的半定量结果。
.........................
3.1 网络“基因”图谱的概念来源与定义........................................ 18
3.1.1 网络“基因”图谱的概念来源...................................... 18
3.1.2 网络“基因”图谱的定义与组成.............................. 19
第四章 行为“基因”片段的表达 ................................... 27
4.1 行为“基因”片段的组成 ............................... 27
4.2 行为“基因”片段的结构 .................................. 27
第五章 行为“基因”片段的相似性度量 ............................. 41
5.1 相似性应用 ........................................ 41
5.2 行为片段特征参数统一化 ................................ 41
第五章 行为“基因”片段的相似性度量
5.1 相似性应用
相似性度量,是度量两个事物之间的相似性程度。如果两个事物之间计算出的相似性度量值越大就表明这两个事物越靠近。而当两者之间的相似性度量值很小的时候,就表明这两者越不相似。相似性度量有许多方法,对于不同的领域的数据,不同类型的数据相似性度量的方法不尽相同。行为“基因”片段之间的相似性度量,度量的是两个行为片段之间的相似性,行为“基因”片段相似性度量可以应用在以下几个方面:
(1)可以用来对行为“基因”片段的匹配,通过相似性计算可以从数据库中查询到和该片段相匹配的实体,或者在部分“基因”缺失的情况下,也可以搜索到相匹配的群体,用以实现把虚拟网络行为“基因”和现实空间中个体对应起来。
(2)可以用来对行为“基因”片段的聚类,找出某类群体的共有的特性。比如说,通过分析网络犯罪分子群体的行为“基因”片段,通过片段间的相似性度量,确定这类群体共有的“基因”片段,把这共有的“基因”片段作为具有危险性、破坏性的“基因”片段,在之后如果发现了和这个“基因”片段相似度很高的行为“基因”片段,就可以特别关注该实体的行为,用来打击、预防网络犯罪。
(3)可以用来对行为“基因”片段的分类,针对不同类型的“基因”片段,给出对应的数据采集方向及对应的计算、补全和作用方式。
.............................
第六章 总结与展望
6.1 本文总结
随着互联网的快速发展,人类都在虚拟网络上进行各种各样的行为活动,这些行为所产生的数据都在网络上留下记录。一些不法分子利用网络的隐蔽性和匿名性等特性在网络上进行欺诈和窃取隐私等不法行为。目前对于不法分子识别基本上都是利用社交网络来选取不一样的特征来进行识别,而本文的网络“基因”图谱的概念,是对实体在网络上进行各种行为所产生的数据进行规约出类似于生物基因的稳定的特征,来唯一表征一个实体,这样可以更加准确方便的识别实体。本文主要从以下几个方面进行了研究:
(1)研究了行为“基因”片段的定义与组成,主要是从关系人、位置分布、时间分布着三方面研究,以及行为片段的统一结构。重点给出了手机通信片段、购物片段和微博片段这三个片段的基因表达,分析了他们的数据源,确定有用的数据项,分析了其二项集、三项集的现实意义,以及根据二、三项集统计得到片段中特征的参数。
(2)研究了网络“基因”图谱的构建。网络“基因”图谱是由表征实体性状的、多个相互独立的“基因”片段构成,每个“基因”片段都是决定实体每个方面行为的特性。包括身份“基因”片段和行为“基因”片段,将行为片段按照类型,时间顺序进行拼接到一起在和对应的身份片段拼接构成图谱。
(3)研究了行为片段的相似性度量问题。两个行为片段之间的相似性计算,并根据数据进行了片段之间的相似性计算。
参考文献(略)