本文是一篇软件工程论文,本文主要完成的工作如下:(1)提出了一种面向 IDS 的网络流量数据分类机制 CPEL。该机制首先使用 CFS 与 PCA对网络流量数据进行数据预处理。接着,使用多个分类器来进行异常检测,根据分类效果选出最好的三个分类器,在此基础上,使用了多数投票作为决策函数的集成学习方法,进一步提升分类模型的性能。最后通过实验验证,相比于其他的传统模型,该机制与其他现有方法相比有较高的检测率,计算开销也得到了明显降低,可以将其应用到高速网络下的实时入侵检测系统中。
第一章 绪论
1.1 研究背景和意义
伴随着大数据与人工智能技术的进步与发展,微信、支付宝、淘宝、滴滴等手机软件的更新升级,人们的衣食出行越来越离不开手机与互联网,它们也极大地提升了人们的生活体验。2020 年 9 月 29 日,中国互联网络信息中心发布了第 46 次《中国互联网络发展状况统计报告》,截至 2020 年 6 月,我国网民规模为 9.4 亿,较 2020 年 3 月增长 3625 万,互联网普及率达 67%,较 2020 年 3 月提升 2.5%[1]。根据 TrendForce 旗下半导体研究处发布的最新报告,2020 全球智能手机市场虽然受到疫情冲击,但是全年生产总量仍有 12.5 亿部,且在中国政府积极推动 5G 的带动下,全年 5G 智能手机生产总量约达 2.4 亿部[2]。同时 Bankmycell 网站数据显示,截止 2021 年 1 月,全球智能手机用户约为 52.2 亿人,互联网用户数量为 46.6亿,占全球总人口的 66.6%[3]。而智能手机操作系统中,截至 2020 年第三季度为止,安卓操作系统市场占有率为 87.0%[4]。作为开源的移动终端操作系统,这意味着安卓智能手机拥有广泛的用户群体,随着安卓手机的大量使用,安卓应用软件的数量也迎来了大爆发。
大数据时代的来临,数据安全性已成为网络安全性的主要关注点。在网络世界,人的贪欲尤其容易膨胀。为了非法利益,一些黑客不惜敲诈勒索、坑蒙拐骗,把网络当成了谋取非法利益的平台。2020 年 10 月,美国一家网络安全公司 Trustwave 表示,他们发现一名黑客正在出售超过 2 亿美国人的个人识别信息,其中包括 1.86 亿选民的注册数据。网络安全公司Trustwave 表示,他们识别出的大部分数据都是公开可用的,并且几乎所有数据都是可供合法企业定期买卖的。但事实上,他们发现大量有关姓名、电子邮件地址、电话号码和选民登记记录的信息数据在暗网上成批出售。2020 年 11 月,富士康在其位于墨西哥华雷斯城的富士康 CTBG MX 设备遭受了攻击。攻击者在对设备加密之前先窃取了未经加密的文件,不法分子声称已加密约 1200 台服务器,窃取了 100 GB 的未加密文件,并删除 20~30 TB 的备份。消息人士还透露了勒索软件攻击期间在富士康服务器上创建的勒索信,不法分子索要1804.0955 个比特币的赎金,按当天的比特币的价格折算,约合 34686000 美元。2020 年 12月巴西当地媒体 Estadao 再次放出重料:包括在世和已故的在内,有超过 2.43 亿巴西人的个人信息已经在网络上曝光。这些数据来自于巴西卫生部官方网站的源代码,开发者在其中发现了重要政府数据库。该数据库包含巴西人提供给政府的所有个人信息,从全名到家庭住址,从电话号码到医疗详细信息。
............................
1.2 研究内容
本文针对基于机器学习的网络入侵与恶意软件检测机制展开了一系列的研究工作,首先详细介绍了入侵检测系统与恶意软件检测系统的诞生背景、发展历程等,然后详细介绍了国内外对于网络入侵与恶意软件检测系统的研究工作,重点从机器学习、深度学习、数据挖掘等角度开展了研究工作。一方面,对入侵检测系统中检测机制存在检测率低和计算开销高等问题展开研究,提出面向 IDS 的网络流量数据分类机制和面向 WSN 的入侵检测机制。另一方面,恶意软件检测系统中模型的检测效率低,模型复杂度高,普适性差等问题,提出一种基于神经网络的恶意软件检测机制。本文的具体研究内容如下所述:
(1)关于入侵检测系统的研究:首先讨论了入侵检测系统的发展现状,并进一步分析了现有模型的不足之处,然后针对分析的结果提出了一种面向 IDS 的网络流量分类机制。该机制首先使用基于相关性的特征选择(Correlation-based Feature Selection,CFS)与主成分分析PCA 对网络流量数据进行数据预处理。CFS 选出数据中的最佳特征,PCA 来降维与去噪。接着,使用多个分类器来进行异常检测,根据分类效果选出最好的三个分类器,在此基础上,使用了多数投票作为决策函数的集成学习方法,进一步提升分类模型的性能。同时,还研究了入侵检测系统中特征选择方法与特征降维方法对分类模型的影响,对比了不同模型之间的性能。
(2)针对无线传感器网络下入侵检测机制的问题,首先对现有的无线传感器网络下的入侵检测模型进行了分析,然后针对不足之处提出了一种面向 WSN 的入侵检测机制。该方法首先使用序列向后选择算法(Sequential Backward Selection,SBS)降低原始流量数据特征空间上的数据维度,降低模型的计算开销,然后使用高效的梯度提升决策树(Light GradientBoosting Machine,LGBM/LightGBM)算法对网络流量数据进行分类,检测不同的网络攻击。
..........................
第二章 相关背景知识
2.1 入侵检测系统
入侵是指试图破坏目标资源系统机密性、可用性和完整性的行为[24],及时发现网络入侵的行为称作入侵检测。入侵检测系统通过收集安全日志、网络行为等数据,根据定义的安全策略来检查是否有异常攻击行为,在受到威胁之前进行拦截和报警,防止攻击者泄漏、篡改和破坏数据。网络入侵检测系统(Network Intrusion Detection System,NIDS)是一种用于在信息和通信技术(Information and Communications Technology,ICT)中动态检测和分类网络漏洞的工具,实时接收并分析网络数据包,判定是否存在异常行为,入侵检测工作过程如图2.1 所示。
软件工程论文怎么写
.................................
2.2 恶意软件检测
2.2.1 恶意软件现状
Deep Instinct 发布的最新研究报告显示[29],2020 年每天发生数以亿计的网络攻击未遂事件,恶意软件总体增加了 358%,攻击 Android 手机的恶意软件威胁增加了 263%,研究表明,先进的检测逃避策略使攻击变得更加复杂,检测变的更加困难。恶意软件是指以智能手机或其他可联网移动电子设备为目标,安装后会造成系统瘫痪、目标系统中机密信息(用户位置数据、通话记录、照片以及其他各类个人隐私数据)泄露或丢失等严重威胁设备安全以及信息安全后果的应用软件。一般说来,恶意软件具有以下特征:强制安装、难以卸载、广告弹出、恶意收集用户信息、恶意捆绑、侵犯用户知情权与选择权。
2.2.2 恶意软件常见手段
虽然恶意软件种类多种多样,使用的技术也越来越复杂,但其攻击过程通常可归纳为传播、安装、潜伏、提权以及破坏系统等几个环节。为了应对日益先进的恶意软件检测和防范技术,恶意软件也发展出相应的应对手段,以下主要介绍变形、提权和沙箱逃逸三种技术[30]。
(1)变形技术
恶意软件要想实施攻击,首先需要成功通过恶意软件检测顺利被用户安装,为了防止被各种各样的杀毒和检测软件检测出,恶意软件的制作者通常会采取一系列的变形技术来对恶意软件本身进行伪装,通过变化恶意软件的执行代码,隐藏对应恶意行为的代码特征,从而使得恶意软件躲过检测程序的扫描。其中代码混淆是常见的一种恶意软件变形技术。代码混淆是指通过使用代码混淆器改变代码形式,使其完全迥异于正常形态且难以被人阅读和理解,但和原来的代码保持功能上的等价。其主要的混淆方式有:将程序中的变量、类名替换成无意义的符号,加大理解难度;修改部分逻辑代码,使其更加复杂,但功能一致;打乱代码格式,使其难以阅读;增加无用代码;插入部分特别构思的花指令,干扰对程序的反编译工作[30]。
(2)提权技术
恶意软件一般入侵安装成功后,都只具备普通用户权限,其权限许可内可执行的操作很有限,这无疑阻碍了恶意软件对系统的进一步渗透,因此恶意软件制作者都会尝试各种手段来提升恶意软件的权限。针对安卓操作系统,很多恶意软件都会尝试进行 Root 提权,即获得安卓操作系统的最高权限。拥有 Root 权限的恶意软件,可以运行广告软件、安装和删除各类应用以及获取各种隐私数据,甚至可以将恶意软件代码写入只读文件系统,使得用户无法删除该恶意软件,持续地对该设备进行攻击。当一个恶意软件具有了超级用户权限,那么杀毒软件本身就不再具备权限优势,很可能出现杀毒软件检测到了恶意软件,但无法将其删除的情况。据统计,越来越多的恶意软件都拥有提权功能,在安装成功后使用公开的提权代码,从而完全掌控安卓设备[30]。
...............................
第三章 面向 IDS 的网络流量分类机制....................................17
3.1 问题分析.............................................17
3.2 算法描述................................................17
第四章 面向 WSN 的入侵检测机制............................. 29
4.1 问题分析.............................................29
4.2 算法描述..............................30
第五章 基于神经网络的恶意软件检测机制............................ 45
5.1 问题分析.................................................45
5.2 算法描述.......................................46
第五章 基于神经网络的恶意软件检测机制
5.1 问题分析
2021 年,360 发布 2020 年手机安全报告,报告显示 360 安全大脑全年共截获移动端新增恶意程序样本约 454.6 万个,环比 2019 年(180.9 万个)增长了 151.3%,平均每天截获新增手机恶意程序样本约 1.2 万个。从第三季度开始,新增样本量开始逐步增加,11 月达到峰值。移动端新增恶意程序类型主要为资费消耗,占比 85.2%;其次为隐私窃取(8.3%)、恶意扣费(3.9%)、流氓行为(1.2%)、欺诈软件(0.9%)与远程控制(0.5%)[74]。资费消耗针对手机用户的资费,强行定制服务并从中牟利;隐私窃取主要实现短信、通讯录和通话记录的获取、定位以及拍照等功能,收集用户的隐私数据、社交数据以及设备数据;远程控制主要是接收命令控制服务器的控制指令实现指令操纵、信息回传以及本地恶意代码更新等。
2020 年,Atlas VPN 公司发布的过去 30 天内全球恶意软件感染趋势数据显示,全球已发现约 4.04 亿个恶意软件[75],这给移动终端移动设备的使用者带来巨大的安全隐患。恶意软件检测的研究已迫在眉睫,现如今恶意软件检测算法存在以下 3 个主要挑战:
(1) 恶意代码形态多样化。恶意代码制作者通过不断修改恶意软件源码制造出多种类型变种。日趋成熟的混淆技术也使得经过混淆后的恶意代码在保留恶意行为正常执行的前提下,表现形式发生很大改变,从而使得恶意软件的检测越来越难[76]。
(2) 待分析样本数量大。现实情况下安全检测系统每天面临的是成千上万的待分析样本,详细地分析每一个样本是一件耗时费力的工作。近些年还出现了恶意软件工厂,即自动变形恶意软件从而能够全自动化生成大量恶意软件变种,使得恶意软件数量急剧增加。
软件工程论文参考
...........................
第六章 总结与展望
6.1 总结
大数据时代的来临,数据的安全性早已成为了网络安全的主要关注点。虽然入侵检测与恶意软件检测系统在国内外已得到了广泛应用,但是其中的相关功能及技术仍然存在极大的不足。本文使用机器学习的相关技术,在调研、分析和总结了现有研究成果的基础上,对面向 IDS 的网络流量分类、无线传感器网络下的网络入侵检测以及恶意软件检测机制进行了研究,提出了一种面向 IDS 的网络流量数据分类机制、面向 WSN 的入侵检测机制以及一种基于神经网络的恶意软件检测机制。在入侵检测系统中,网络流量数据分类模型能够准确检测出攻击者的异常流量信息并进行相应的应对措施。而在面对海量安卓软件时,恶意软件检测机制可以准确的分析每个软件的信息并将其划分成良性软件与恶意软件。本文主要完成的工作如下:
(1)提出了一种面向 IDS 的网络流量数据分类机制 CPEL。该机制首先使用 CFS 与 PCA对网络流量数据进行数据预处理。接着,使用多个分类器来进行异常检测,根据分类效果选出最好的三个分类器,在此基础上,使用了多数投票作为决策函数的集成学习方法,进一步提升分类模型的性能。最后通过实验验证,相比于其他的传统模型,该机制与其他现有方法相比有较高的检测率,计算开销也得到了明显降低,可以将其应用到高速网络下的实时入侵检测系统中。同时,还研究了入侵检测系统中特征选择方法与特征降维方法对分类模型的影响,经过 EI 特征选择算法后的模型优于 CHI。而对于特征降维方法,则 PCA 整体优于 SVD。
(2)提出一种面向 WSN 中 DOS 攻击的入侵检测机制 SLGBM。该机制首先在数据预处理阶段,使用 SBS 进行选择特征,找到最佳的特征子集来降低模型的计算开销。接着,使用LightGBM 来提高检测的准确率和召回率等指标。基于 WSN-DS 数据集的实验结果表明,本文提出的机制与传统的分类算法相比,不仅具有较高的检测率,而且实现了较少的计算开销和较低的误报率,这使得该机制可以部署在无线传感器网络中。
参考文献(略)