基于WEB日志的用户画像及可视化之软件工程分析

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329943 日期:2023-07-22 来源:论文网
本文是一篇软件工程论文,本文以教育统计平台为应用背景,将用户画像用于软件开发领域。由于该平台发布的第一版本的设计排版等并不能完全满足用户需求,所以需要根据第一版本用户的真实反馈对二期软件进行优化。通过采集该平台用户的行为数据,对该数据进行处理,再从中挖掘出用户的行为轨迹、常用操作、隐藏行为等信息。

1 绪论

1.1 选题背景及意义
本章节由大数据时代各个行业所面临的问题引出了用户画像技术,并对本课题中用户画像的研究背景进行论述,最后对研究用户画像所具有的实际意义做出说明。
1.1.1 研究背景

现今,互联网产业发展已经进入鼎盛时期,伴随着网络用户的飞速增长,大量的数据信息也随之产生。目前互联网产业中开发应用型软件的技术较为成熟,行业发展速度因为技术方向而有所限制。市场上数据信息泛滥,若能很好的利用数据信息,将会为产业发展开辟新的路径,互联网产业的发展也会进入下一个新的繁荣阶段。大数据已经变为影响企业成长的重要因素并且已经流转到不同行业及领域。当今市场,企业之间的竞争越来越激烈,企业制胜的关键是留住用户。市面上提供同类型服务的网站可能比较多,基本功能相近,这时在同类产品中留住客户的关键就是网站带给用户的体验。如果网页布局不合理,操作方式比较局限,给用户带来的体验比较差,将会导致客户流失,所以对用户的各方面属性进行深入分析变得尤为重要。怎样从高速增长、异构多源和实时高频的数据中获取有用的信息进一步了解到用户的真实需求,是大数据时代各行各业面临的重大问题[1]。

随着数据信息产业的飞速发展,大数据所应用到的行业也越来越广泛。最初,数据挖掘技术应用于电商领域,随着技术的逐渐成型,现在各个行业都将数据挖掘结果作为行业发展的指导方向。由于用户需求日益提高,激发出的大数据应用方向也不断增加。例如,

大数据的挖掘成果用于信息推送、商品推荐和市场营销等。在互联网产品开发领域,开发出的软件往往不能满足用户的要求,需要后期不断和用户沟通,再反复修改。在产品定型期间,用户并不一定能完全表达出自己是需求,开发人员也不一定能正确理解用户的需求,反复进行沟通会导致浪费大量精力也并不一定能让用户满意。在产品后期优化过程中怎样才能了解到用户真实的需求,这就要用到用户数据挖掘技术。通过采集用户操作系统时的行为信息,再对行为数据进行挖掘,开发人员就能够得到用户最真实的信息反馈。在产品开发优化中可以用到用户画像技术,该技术也是数据应用的一个方向。用户画像的目标是从多个维度出发,构建特定用户或群组用户的标签系统。用户画像技术近几年刚兴起,最常用于网络安全中的入侵检测、电商网站的商品推荐和门户网站的信息推送等领域。

..............................


1.2 用户画像在国内外研究现状
用户画像这一概念起源于产品设计/交互设计领域。交互设计之父 Alan Cooper[1]首先提出了用户画像的概念。他指出,用户画像是根据真实数据构建出的用户信息模型,是将用户虚拟化的表示形式。Alex Sundt 和 Erin Davis[2]也指出用户画像可以作为帮助交流用户体验,发现用户知识,指导设计过程的工具。Cynthia Lewis 和 Jacline Contrino[3]将用户画像用于探索数字图书馆用户与设计者的心理模式之间的差距,通过创建用户的感知和障碍心理模型,并对模型进行分析,使图书馆能够对设计学习对象和网站做出基于证据的决策。

用户画像可以应用于隐私保护和入侵检测领域。互联网上的用户隐私问题是一个重要且尚未解决的问题,到目前为止还没有足够全面的解决方案来帮助用户在使用互联网时保护自己的隐私。关于该问题的解决方案主要集中在服务提供商方面,常见方法的是存储加密或数据转换,但这些数据仍可以通过分析被破解。这些解决方案存在的一个主要缺陷是它依赖于服务提供商来做到这一点,用户没有机会主动保护自己的隐私。Wicker 和Kramer[4]将用户画像用于解决互联网上的用户隐私问题,使用户能够利用另一方拥有的相同工具,即数据挖掘来生成模糊用户配置文件的数据,将这种方法应用于搜索引擎查询,并在类似于强化学习的算法中使用搜索引擎的个性化广告的反馈来生成可能使搜索引擎混淆的新查询。赖建华和唐敏[5]通过日志数据勾勒出用户画像,进而对用户行为进行分析以检测出异常操作与攻击。杨沛安和刘宝旭等[6]将构建用户画像的思路引用到了攻击识别中,通过构造识别攻击模型并结合要素融合算法对情报画像进行分析。赵刚、姚兴仁[7]将大数据技术的特点融入入侵检测技术中,将用户画像用于入侵检测领域中,提出了基于用户画像的入侵检测模型并对检测粒度进行细分,挖掘出网络中存在的潜在性研究。朱佳俊和陈功等[8]将用户画像用于异常行为检测,建立了检测模型,通过提取用户的行为特征,使用相关算法学习用户行为,并通过孤独森林算法和马氏距离检测用户行为是否异常。郭渊博和刘春辉等[9]将用户画像用于检测企业内部系统中存在的威胁,构建出基于检测行为画像的框架,再将局部的行为细节与全局预测结果相结合,提高了威胁检测的准确性

..............................

2 相关理论与技术应用研究

2.1 WEB 挖掘技术概述
WEB 挖掘是数据挖掘的一部分,是使用数据挖掘技术从 WEB 文档中提取出潜藏的有用信息。WEB 挖掘主要分为三类:WEB 内容挖掘、WEB 结构挖掘和 WEB 使用挖掘[27][28]。关于 WEB 挖掘的详细分类及信息如表 2-1 所示。

在本研究中所用到的 WEB 挖掘技术主要涉及 WEB 内容挖掘和 WEB 使用挖掘。在用户动态画像的构建中,需要挖掘出用户访问路径,包括点击的页面和方法;使用prefixSpan 算法挖掘出用户访问网页的行为规则,这一部分工作属于 WEB 使用挖掘。在挖掘出访问路径和序列模式后,需要将其标签化表示,并为标签设置权重,这时会将所有标签作为文本,并利用文本挖掘算法来计算标签权重,这一部分工作属于WEB内容挖掘。第三章的实验将主要围绕挖掘用户访问行为模式来构建用户画像。
...........................

2.2 用户画像概述
在因特网行为分析领域,用户画像被标记为用标签表示用户信息。用户画像是通过搜集和分析用户行为喜好、静态属性信息和消费习惯信息等数据,将用户的特征信息抽象化的进行展示[1]。用户画像是将用户信息的可视化表示,可以理解为用一系列用户标签对用户特征进行简短生动的描述。用户画像的标签表征用户的兴趣、爱好、习惯特点,为标签计算权重来表示用户对标签特征的需求程度,使用户的特征得到量化[29]。用户画像的标签不只是一个符号,而且与现实的业务密切相关。用户画像的官方名称是 User Profile,在中文命名中经常与用户角色(User Persona)混淆。我们称之为用户画像(User Profile)是每个用户都可以用标签和数据来描述,它包括用户的静态信息数据,如姓名,地址,邮箱,职业等;也包括动态信息数据,如:访问页面、浏览路径、用户评论、收藏等。

在用户画像建模过程中,由于画像的需求和使用场景不同,所使用的建模数据也不同。获取到的数据中可能包括比较明确的数据,如:性别、年龄、操作方法、浏览页面链接等,也可能包括一些意图不明确的文本信息。所以,在用户画像建模的过程中所用到的方法根据实际需求也有所不同。如果原始数据中包含大量用户的基本属性信息,我们可能需要用到分类和聚类算法对用户进行群组划分,并用以预测新用户。如果原始数据包含用户对网页的操作行为,则可能需要使用序列模式挖掘算法来发现用户的行为轨迹并根据用户的操作规则优化网站结构。如果原始数据中包括大批的文本信息数据,一般文本的意图不太明确,想要从中挖掘出关键词作为用户画像的标签,就需要用到文本挖掘相关算法来对文本的语句进行切分,再从语句中切分出关键词,按照出现的次数对关键词排序,以找出合适的标签。如果将用户画像用于产品营销领域,就需要用到推荐算法,根据用户最近的访问行为,挖掘出与该行为相关联的信息及时推送给用户,要注意信息的及时性,以达到精准营销。

...............................

3 基于 WEB 日志的用户行为建模方法研究 ................................ 15
3.1 实验环境和数据 .................................... 15
3.2 序列模式挖掘算法分析 ............................ 16
3.3 用户行为建模 .......................... 17
4 计算标签权重方法研究 ............................ 29
4.1 标签权重算法分析 .............................. 29
4.2 计算标签权重 ...................................... 30
5 用户画像在教育统计平台中的应用 ....................................... 49
5.1 搭建用户画像应用系统 ........................ 49
5.1.1 系统概述 .............................. 49
5.1.2 数据库设计 ............................... 49

5 用户画像在教育统计平台中的应用

5.1 搭建用户画像应用系统
5.1.1 系统概述
本文所搭建的用户画像应用系统是以教育统计平台为背景。由于教育统计平台已上线,目前用户类型比较固定,在此基础上采集到用户的行为日志信息,对日志数据进行挖掘,并构建出用户画像。通过对用户画像结果的分析,提供可行性的改进意见,对统计平台的网站进行优化设计,以提高网站性能和用户体验。
本系统的用户类型根据用户角色大致分为:幼儿园类型、小学类型、中学类型、职业学校类型、特殊教育类型、教育中心类型、教育局类型。每种类型的用户具有相似的行为,但每个用户又有自己独立的信息。所以,可将用户画像分为:群组用户画像和个人用户画像。本系统从用户基本属性画像、用户活跃信息画像、用户行为画像、用户地理分布画像四个方面对用户画像进行可视化展示。

.......................

6 总结与展望

6.1 全文总结
现阶段信息技术已经渗透到人们生活的方方面面,用户对网站设计有了更高的要求。现代网站设计中,设计者往往不能确切的把握用户的爱好,无用的、花哨的设计很快就被用户淘汰。用户如何从网页中得到更实用更有新意的体验,这就需要设计者从用户的角度出发,考虑网站的使用场景和用户的实际需求,合理对网页的版式结构、视觉效果、操作方法等进行设计,让用户在感官、实用性、可操作性等方面得到享受。本文提出了使用用户画像的方法对网站设计中存在的问题提出改进意见。本研究中所做的主要工作如下:
(1) 研究构建用户画像的相关技术。首先,对用户画像建模的几类方法进行分析;接着,从多个维度刻画用户画像,本文选择从基本属性、设备属性、地理属性、行为属性、隐含属性五个维度刻画用户画像;然后,对建立标签体系的方法进行研究,本文选择使用非结构化标签体系;接着,对构建用户画像的流程描述;最后,对用户画像的评估方法进行理论研究。

(2) 对用户行为建模。通过对序列模式挖掘的一系列算法进行对比分析,选择了PrefixSpan 算法进行实验。该算法存在的缺点是:构造投影数据库时要浪费较大的时间和空间,而且在获取序列元素时需要对投影数据库进行反复扫描。针对以上缺点提出了改进的 PW 算法,该算法提供了支持度和权值的双重过滤,经实验验证,改进的 PW 算法在时间效率和精确率上优于 PrefixSpan 算法。
(3) 计算标签权重。在挖掘出用户的行为序列后,将实验结果保存在文本中作为标签权重算法的输入。本实验通过对标签权重计算方法 TF-IDF 和 BM25 进行研究,并对实验结果进行对比,结果表明,BM25 算法的综合性能优于 TF-IDF 算法。本文最终选择 BM25算法作为计算标签权重的方法。

(4) 对用户行为进行可视化分析。从用户的行为数据中统计用户的月访问频率、系统的周访问量、天访问量、固定时段访问量,并通过饼图、折线图、条形图对其进行可视化分析,从中得出用户的活跃度信息,判断用户的活跃等级;根据序列模式算法和标签权重算法挖掘出的标签及权重结果,使用词云图和旭日图对其可视化展示并对结果进行分析;统计出用户的地域分布和固定时段上线用户的分布,利用地图和雷达图进行可视化展示和分析。

参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100