第一章 绪论
1.1 研究背景
进入 21 世纪科技大进步以来,网络技术的飞速发展使互联网成为人们与信息互动的主要媒介,社会进入了前所未有的信息化进程。在我国,根据中国互联网络信息中心2018 年公布的《中国互联网发展统计报告》显示,此前,中国互联网用户的数量以及互联网普及率都达到了一个较高水平,而且中国移动互联网用户的数量以及移动互联网用户数所占比例超过 90%。
用户通过访问网站可以获得所需的各种信息和服务,同时也在网络中留下了大量的用户行为日志数据。在互联网环境下衍生的大数据研究,对于当前行业发展来说,是一个新浪潮。凡事都有两面性,社会的发展和网络的进步,对人们的影响有利有弊,巨大利益的反面就是面临的网络安全问题,而且日益严峻,这就给系统的安全管理方面带来了巨大的挑战。
用户行为日志包含大量有用的信息,为了确保网络的安全,来检测异常行为至关重要,监测到异常行为识别恶意用户维护网络安全是一个重要的步骤,日志分析是网络用户行为分析方法之一,大量的 web 日志信息存储在服务器中,个人用户的直接操作行为记录在网络环境中,因此具有很高的研究价值。在其基础上,很多人对入侵检测进行研究。入侵检测就是入侵行为检测,首先需要收集系统中所有点的集合,并分析并提取有用信息的点集合,然后发现正常系统中的异常点信息,最后用以监测轨迹是否安全以及有无攻击迹象。分析方法有很多,其中异常检测方法属于占据重要地位的一类方法,具有重要的意义。然而,随着互联网的不断发展和技术的进步与更新,数据量也在不断增加,无法及时更新所有异常行为。外网访问日志是记录用户行为的一个相对数据量较小的索引式数据集,由于其协议和应用内容相对容易判断和提取,所以通过分析这种日志的行为,不仅用户访问特征的时间序列可以开采,而且访问内容的主题和分类进行分析,然后规律性用户的在线行为、兴趣点、群体关注重点可以开采。针对行为未知的这种未标记问题,本文提出了一种改进的马尔可夫状态转移矩阵,通过改进的马尔科夫状态转移矩阵的求解,利用多种聚类融合的方法检测恶意用户,找出异常行为进行标记,最后利用标记数据集对 SVM 分类器进行训练。实验表明,支持向量机分类器能够较好地检测到异常行为,有望解决数据标记问题。即便“相对数据量较小”的访问日志每天也有上 GB 的容量,人工分析显然是不可能的,因此,其核心问题是用户日志行为信息的自动提取和分类。
...........................
1.2 国内外研究现状
1.2.1 日志分析
如今,互联网大环境下的网络安全问题随着社会和技术的不断进步与发展也变得日趋严峻。像如一些恶意程序软件横行、诈骗信息层出不穷、网站攻击日益增多,对于系统方面的安全管理来说是不小的挑战。在此基础上,对入侵检测的研究者也越来越多,入侵检测就是入侵行为检测,首先需要收集系统中所有点的集合,并分析并提取有用信息的点集合,然后发现正常系统中的异常点信息,最后用以监测轨迹是否安全以及有无攻击迹象。入侵检测的分析方法有很多,其中异常检测方法属于占据重要地位的一类方法,具有重要的意义。通过日志分析检测异常是本文的重点。对日志分析的文章有很多。
王继民等人[1]对北大天网中的用户日志进行了分析和研究。王艳清等人[2]将网络日志通过 JAVA 语言转换为 XML 的标准格式,然后再用 XSL 对 XML 文件进行统计分析,提取有价值的信息来分析日志。周向东等人[3]提出了一种对相关反馈数据进行分析的新方法。郭岩等人[4]通过对网络日志中用户访问的规律性特性的研究,找到了与用户兴趣之间的关系。武斌等人[5]利用改进的 apriori 算法得出关联规则,通过匹配规则检测异常。杜瑾等人[6]提出了一种新的建模方法来解决行为语义的描述问题,首先建立用户行为模型并进行简单说明。魏晨辉[7]等人设计并实现了一个高端容错计算机故障日志分析系统。姚婷等人[8]首次提出了低频查询类别分析框架,为搜索引擎用户行为分析等网络检索研究提供重要基础。
...............................
第二章 相关知识介绍
2.1 互联网下用户行为日志
..............................
2.2 马尔科夫简介
2.2.1 马尔科夫链的特点
因为马尔科夫链的各个状态之间是相互独立的,前一状态与后一状态的发生没有必然联系,这与本文研究对象互联网下用户行为日志的特点相吻合,所以用这个模型进行用户正常行为建模与异常行为检测的工作。
2.2.2 马尔科夫过程
...........................
第三章 基于改进马尔科夫的用户行为日志分析方法 ........................... 11 3.1 用户行为日志数据分析方法概述 ........................ 11
3.2 改进的马尔科夫方法 .......................... 11
第四章 系统设计 ................................... 17
4.1 用户行为日志采集分析系统整体架构 ........................................ 17
4.1.1 基于 New Input/ Output (NIO)的 Netty 网络框架方案 .................................. 17
4.1.2 客户端数据处理方案 ................................. 18
第五章 系统实现 ........................................ 26
5.1 配置要求 ................................. 26
5.2 主功能简介 ............................................ 26
第五章 系统实现
5.1 配置要求
服务器硬件:Intel Xeon-E5 以上处理器,8G 以上内存,500G 以上可用存储空间。
操作系统:Windows7 专业版以上或 WindowsServer2008 以上。
Web 服务器:IIS7.0 以上,且安装.NET Framework3.5 以上版本
本系统主要功能是对客户计算机进行系统关键证据提取,并进行分析。具有证据保存和系统异常项自动分析等功能。本系统具有 Web 服务器一次部署,客户机直接使用的特色,客户机只需要访问网址,安装取证插件,即可进行取证,并将证据保存至服务器。同时本系统具有明确的权限管理,系统分为三个角色,保证了证据的保密性。本系统最终可以导出报告,导出的报告具有条理清晰,美观等特点。
..........................
第六章 总结与展望
信息与数据的关系紧密不可分,可以说数据与信息相互依赖,随着互联网的发展,数据量与日俱增,给人们带来极大便利的同时,也给网络安全带来了极大的冲击,可供分析的数据总量呈现爆炸式增长,用户行为日志中包含大量有用信息,为保障网络安全,对异常行为的检测显得至关重要,通过异常行为识别来监测恶意用户是维护网络安全的重要步骤,但是随着互联网的不断发展与技术的进步与更新,数据量也越来越大,没有办法及时更新所有的异常行为。
针对这个问题,论文设计了一个 c/s 架构的用户行为分析系统,由客户端采集信息上传到服务器,服务器端的分析系统进行分析。采集模块的设计包含不同用户身份的登录以及信息的采集管理规则;通过采集系统采集到的用户行为日志传入分析系统进行分析。首先通过对用户行为日志的采集,经过数据挖掘,利用改进的马尔科夫方法获取用户行为模型,通过多种聚类联合的方式检测出恶意用户,然后再对恶意用户的行为日志进行具体分析,得到行为标签,最后运用支持向量机模型进行异常检测。实验解决了对未知行为的标记难题,通过实验验证,论文中所设计的基于改进马尔科夫的用户行为分析系统具有良好的有效性和可靠性。
本文所设计并实现的基于改进马尔科夫用户行为分析系统,对恶意用户的监测以及用户异常行为的检测方面的研究有极大的实际意义和一定的社会意义。但是,软件和算法都是需要不断完善和更新的,为了是本系统结果更加精确,还需从以下方面改进:
1、论文所用算法在检测准确性上还有待增强,后续需要在预处理的层面加强研究,从而找出最优的模型聚类方法,这样检测到的准确性将会大大提升。
2、翻阅文献可得很多关于用户行为分析的研究,但大都与取证领域不相关。可以尝试学习其他应用的用户行为分析系统的方法拿到本系统中进行借鉴,以查找一种更为精确的分析算法与模型。
参考文献(略)