第一章 绪论
1.1 课题背景及意义
近几年,互联网已经融入到人们的生活当中,越来越多的人选择从互联网中选取所需要的信息,这也极大的促进了互联网的蓬勃发展。同时,人们不在仅仅依靠个人计算机来获取网络上的信息,以智能终端为代表的移动设备以其携带方便、使用快捷等优点成为了人们随时随地连接互联网的优先选择。根据近期中国互联网络发展状况统计报告[1]可知,截止到 2017 年底我国网民总数量已有 7.72 亿,而其中手机网民数量达到了 7.53 亿,其占比提升至 97.5%。
由此可以看出中国互联网正在迅速的发展,互联网上的各类信息丰富了人们的生活,人们也乐于在互联网上进行知识分享,因此吸引着更多的人加入互联网大家庭中来。而随着智能终端的迅速发展,其方便快捷的连接网络的特性吸引着众人,而各大传统的互联网公司也逐渐在智能终端上提供着自己的业务,人们也可以通过智能终端随时随地通过连接网络完成查看新闻,观看视频节目,进行网络购物,以及搜索信息等工作。互联网可以满足人们的很多需求,但也会带来一些令人困扰的事情,例如广告骚扰,木马病毒,网络诈骗,以及不良信息传播等。其中不良信息是指违反中华人民共和国相关法律,违背社会道德的各类信息。而不良网站过滤则是为了满足客观需求,对大量网站及其内容进行选择的一个过程。因此针对如何在智能终端实现一种高效准确过滤不良信息的方法,实现自动屏蔽不良网站功能,保障智能手机网民可以在文明和谐的网络上进行冲浪,具有较为重要的意义。
目前国内的网络过滤主流产品研发都聚焦在 PC 端,而几款手机端的过滤软件,只是通过简单的黑白名单对比过滤不良网站。针对智能手机网络过滤方面的,中国电信推出“天翼绿色家园服务”,其运作于中国电信的服务器端,而且仅限于中国电信公司通信网络,
并不是适用于其他电信运营商。在国内的其他产品只是简单的通过设置黑白名单以及敏感词等较为初级的方式进行屏蔽,这类方法不仅显的较为生硬需要人为的设置,同时也会存在误过滤正常网页的情况,而这类产品大多都是在移动端本地进行过滤的,无法对网页信息进行智能化过滤,因此国内市场并没有一款成熟的智能过滤不良信息的手机系统软件。
.....................
1.2 课题来源与本文组织
本文的研究内容来源于校企合作的项目“基于新一代信息技术的手机智能安全系统”。该项目主要是根据不良内容对不良网站进行智能分析,防止移动终端用户浏览不良网站。该项目以云计算为核心技术支撑,对用户在智能终端上浏览的网站进行智能分析,防止用户访问一些不安全的含有不良内容的网站。本人主要负责过滤不良网站的功能实现,对网站的文字以及图片进行识别,鉴别出不良信息,最终完成对不良网站的过滤。
本文的组织结构如下:
第一章 绪论。介绍了本文的课题背景及组织结构。
第二章 相关技术研究。首先介绍了云计算的定义及其在过滤方面的相关应用。接着介绍传统的不良信息过滤技术,包括 URL 过滤技术和关键字过滤技术。最后分析了基于机器学习的对不良内容分类的技术,主要介绍了针对不良文本和不良图片进行智能分析过滤的技术,由此引出了一种基于云架构的智能终端不良网站过滤系统。
第三章 系统总体方案设计。通过分析智能终端的不良网站过滤的需求,提出了一种基于云架构的智能终端不良网站过滤系统。首先对基于云计算的智能终端不良信息过滤系统的整体架构分析设计,接着介绍了客户端以及云端的功能实现,在云端可以对智能终端所访问的网站上的信息进行提取分析并处理,并在移动端上展示不良信息的分析的最终结果,避免用户访问不良信息的网站。然后对云端和终端的交互进行流程设计,最终对数据库进行详细设计。
第四章 研究基于云计算的分类器构建。首先介绍了 spark 云计算平台, 然后通过在Spark 平台上构建改进的 KNN 算法对网页内容进行分类后,分别得到文本分类结果以及图片分类结果,之后再采用决策树方式确定不良网站的最终分类结果。
第五章 实现基于云计算的智能终端不良网站过滤系统的核心模块的功能设计,对不良文本及图片的分析过滤技术分别展开了叙述。
第六章 系统测试。对基于云计算的智能终端不良网站过滤系统进行测试,包括自定义过滤规则、不良网站在线检测以及智能过滤等功能。
第七章 总结与展望。针对基于 Spark 的改进 KNN 算法以及对其分类结果再次进行决策树判断的优势进行了总结,并给出了下一步研究方向。
............................
第二章 相关技术
2.1 云计算
2.1.1 云计算定义
云计算是一种通过互联网络就能够不受空间限制在共享资源池中访问可以配置的系统资源,能够以最少的管理操作提供快速的更高级别服务的信息技术。早在 1993,云计算被用来描述分布式计算的平台,而 “云计算”词汇在 1996 首次出现在康柏电脑公司的内部文件中,到了 2006 年,“云计算”术语在亚马逊公司的推广下云计算逐渐火热起来。国外的 IT 公司 Google,Microsoft,IBM,INTEL 等纷纷投入了大量的人力与物力来研究云计算平台,近些年来国内阿里巴巴,腾讯,百度等 IT 巨头以及中国移动,中国电信等电信运营商也纷纷推出了云计算平台解决方案。
云计算是综合分布式计算,点对点计算网格计算之后一种新的计算模型,它的基本原理是将原先部署在企业机房的系统架构上的应用移植到网络平台上,一些计算量十分庞大的任务会在云端的资源池中被分割为很多比较小的子模块进行分析计算,形成了一个虚拟的,可弹性的资源池,通过互联网络可以像用户提供了计算、存储、软件等服务,如图 2.1所示。云计算的目标正是让用户从这些服务技术中受益,用户不需要有深入的知识和专业技能就能使用云计算上的服务,从而可以减少在计算机基础设施以及系统环境维护上的精力,这样用户能更加专注于自己的核心业务的开发,很大程度上削减前期的系统基础搭建的成本开销。因此,云计算具有访问容易、并行计算,虚拟化,易扩展,开销低等诸多优点。
云计算服务在平常使用中展现了很多特征,其关键特征如下所示:
(1)敏捷性高,云计算可以通过重新配置提高用户的灵活性,增加或者扩大技术基础设资源。
(2)访问便捷,用户只需要通过网络浏览器就可以访问系统,跨越了设备以及地理位置的限制。
(3)效率提升,对于多个用户处理同一个数据时,用户不需要在本地安装相应的软件,而是可以直接在云环境下处理数据,节省了保存上传的时间。
(4)资源利用率高,云计算同时为消费者提供服务,根据不同用户的相对应的需求动态的分配了所需求的资源,不会造成资源闲置情况。
............................
2.2 云端不良网站过滤相关技术
不良信息是指违反中华人民共和国相关法律,违背社会道德的各类信息。不良网站是指存有这些不良信息并以此诱惑用户访问并从中获得相关利益的网站。而基于云计算的不良网站过滤则是为了满足客户需求,对其提供更快速的对大量网站及其内容进行选择的一项服务技术。目前国内外针对不良网站过滤主要技术主要可以分为两大类: 静态过滤技术和动态网络内容分析识别过滤技术。静态过滤技术主要包括基于 URL 过滤以及基于关键字过滤,静态过滤较为常用且已经商业化,主要通过对比数据库来判断是否是不良网站,对不良信息过滤起到了很大的作用,但是同时其时效性以及覆盖率也是需要考虑的问题。动态网络内容分析识别过滤技术包含文本分析技术、图像分析技术,这些技术能够对不良内容进行有效的识别与过滤。
2.2.1 静态过滤技术
静态过滤技术包含两种技术,基于 URL 过滤技术,以及基于关键字过滤技术,这两类技术已经商用,且非常成熟,尤其是基于 URL 过滤技术,已经被诸多网站检测作为最常规的方式对网站进行过滤,而关键字过滤技术则是预先设定好要过滤的关键字,检查文本中是否含有即可,虽然在过滤时有着良好的效果,但也会出现误判的情况。
URL 过滤技术早在上个世纪就已经提出,其目主要功能就是禁止所有发送到某个地址或者从某个地址发过来的数据包。通过对比数据库的已经确认过的不良网站的 URL,判断与当前的提交的 URL 是否一致来决定是否拒绝访问[9]。
黑名单技术使用客户端-服务器架构,由服务器端来维护一个已知的不良网站的黑名单和已认证网站的白名单。目前也有很多商业工具检测网址,包括 McAfee,PhishTank 以及IronPort Web Reputation 提供了这样的服务,用户可以在这些网站输入并核实可疑的 URL,之后写入黑名单。对于黑白名单技术研究主要集中于如何更快更有效的对网址字符串进行匹配[10]。同时也要一部分研究人员将 Bloom Filter[11][12]算法和改进的 Hash 表数据结合用于实现对 URL 的快速过滤。
.........................
3.1 需求分析............................. 16
3.2 总体架构设计............................ 16
3.3 系统功能介绍....................... 17
第四章 基于云计算的分类器构建 ................................ 28
4.1 Spark 云计算平台 ............................ 28
4.1.1 Spark 基本介绍 ................... 28
4.1.2 Spark 架构 ......................... 29
第五章 基于云计算的不良网站过滤系统主要功能实现............................ 42
5.1 文本过滤.............................. 42
5.1.1 文本预处理............................ 42
5.1.2 文本特征提取 ............................ 44
第六章 系统测试
6.1 系统环境
Android 智能终端硬件配置如表 6.1 所示。
.......................
第七章 总结与展望
7.1 总结
本文针对国内外对不良网站的过滤主要局限于传统的过滤方法,并没有和主流的云计算平台结合起来,因此提出了一款基于 Spark 云计算平台的不良网站检测过滤系统,其中智能终端主要负责触发检测任务以及检测结果的展示,主要的过滤分析任务都放在了云端,本文主要完成的工作如下:
(1)首先对云计算的技术进行了初步的了解,并对在云端进行不良网站进行过滤时国内外所采取的相关技术进行了分类汇总。
(2)针对 Spark 平台进行了初步的认识,并提出了基于 Spark 云计算平台的改进的KNN 算法模型,充分利用了 Spark 平台并行计算的诸多优势,尤其是将计算后的数据缓存到分布式数据集中,减少了中间环节从文件读取数据的时间,在 Spark 平台上对 KNN 算法提出了改进,针对在分类过程中,使用加权的方式,除了引进了样本之间的距离还加入了不良类型被投诉的比例这一因子,提高了不良类型分类的准确度。
(3)针对不良网站类型识别可能出现的误判的问题,当使用改进的 KNN 算法分别对文本以及图片分类后,使用基于 Spark 云计算平台的决策树算法模型对这文本以及图片进行再次分析,最终判断不良网站的类型,减少了对不良网站类型误判的情况。
(4)研究了不良文本以及不良图片的过滤技术,并将这些技术运用在 Spark 云计算平台上,提升了不良文本以及不良图片的特征提取效率,最后结合基于 Spark 平台的改进 KNN算法模型完成过滤。
参考文献(略)