第一章 绪论
1.1 课题研究背景
自 1990 年起,电子商务[1]开始进入中国市场,经过将近三十年的发展,伴随着智能手机、互联网的迅速崛起,电子商务也由原先的无人问津,到如今的空前盛况,中国电商行业的网购用户规模和电商公司数目以及交易规模均呈现出持续攀升的现象,电商涉及领域也逐渐扩大,天猫、京东、拼多多等各大电商平台相继崛起,争夺商家与用户资源,随着电商平台支付便捷性的发展以及商品种类与规模的完善,越来越多的人开始加入网购大军。与传统的线下购物模式相比,网购具有其独特的优势,如线上交易、无空间性、实时性、便利性等诸多优势,越来越多的商家看到了电商行业巨大的发展潜力,纷纷加入其中。
但是,网络购物行为给人们带来便利和机遇的同时,也不可避免的带来了一些困难和挑战[2]。一方面,网购平台商品种类与数量繁多,往往用户耗费巨大的时间成本也无法寻觅到符合自己心意的商品[3];另一方面,针对商家而言,面对如此庞大的消费群体以及随之产生的后台数据,如何定位目标人群进行精准营销,尽最大可能提升投入产出比,是商家目前遇到的不可避免的最大挑战。因此,为了找到更好连接用户与商家的方式,增加用户满意度,促使平台成交更多的订单,在 1997 年,Resnick 等[4]给出了推荐系统的定义,推荐系统的出现丰富了用户信息获取的方式,由简单的数据搜索转变为“搜索+推送”的信息获取方式,此后,推荐系统的研究步入正轨,越来越多的平台开始建立相应的智能化推荐系统,根据用户信息及用户历史行为数据分析用户偏好,定制个性化标签,为用户进行智能商品推荐。自此,推荐系统在电商平台上的应用取得了巨大的成功(如淘宝的“千人千面”)。
重复购买预测就是根据用户历史数据来预测用户重复购买商品的可能性大小,商家便可以利用该预测结果对重购可能性高的用户进行广告精准投放,从而节省营销费用,提升投资回报率,同时也可以及时准确向用户推荐所需的商品,增强用户满意度,促使用户、商家与平台三方构建更加稳定的关系。
...........................
1.2 国内外研究现状
1.2.1 推荐系统的研究现状
推荐系统被定义为在复杂信息环境[7]下的用户的决策策略。同时,推荐系统从电子商务的角度被定义为一种工具,可以帮助用户搜索与用户的兴趣和偏好相关的知识记录[8]。推荐系统也被定义为在没有足够的个人知识或经验时,帮助和增加利用他人的建议做出选择的社会过程的一种积极手段[9]。推荐系统通过向用户提供个性化、排他性的内容和服务推荐来处理用户通常遇到的信息过载问题。截止目前,已经开发了各种构建推荐系统的方法,可以利用协作过滤、基于内容的过滤或混合过滤[10-12]。
协作过滤技术是最成熟和最常见的实现方式。协同过滤通过识别其他具有相似品味的用户来推荐项目,使用他们的意见来给正在处于活动状态的用户推荐项目。协作推荐系统已经在不同的应用领域中实现了。GroupLens 是一种基于新闻的架构,它使用了协作的方法来帮助用户从海量新闻数据库[13]找到文章。Ringo 是一个在线社会信息过滤系统,它使用协作过滤来根据用户对音乐专辑的评级建立用户配置文件。亚马逊使用主题多样化算法来改进其推荐系统[14]。该系统使用协同过滤方法,通过生成一个类似的表来克服可扩展性问题,通过使用项目对项目的矩阵进行调整。然后,系统会根据用户的购买历史记录,推荐其他类似的在线产品,另一方面,基于内容的技术将内容资源与用户特性匹配。
基于内容的过滤技术通常基于用户的信息进行预测,而忽略了其他用户的信息贡献,就像协作技术[15-16]的情况一样。Fab 在很大程度上依赖不同用户的评分来创建一个训练集,它是基于内容的推荐系统的一个例子。其他使用基于内容的过滤功能来帮助用户在互联网上找到信息的系统还包括 Letizia [17]。该系统使用了一个用户界面,以帮助用户浏览该界面,它能够跟踪用户的浏览模式,以预测他们可能感兴趣的页面。Pazzaniet等人[18]设计了一个智能代理,它试图通过使用朴素贝叶斯分类器来预测哪些网页会让用户感兴趣,代理允许用户通过将不同的页面评级为热或冷来提供培训实例。
.......................
第二章 相关知识与理论
2.1 电子商务中数据挖掘过程
2.1.1 数据挖掘在电子商务中的应用
在电子商务数据挖掘中,有几个重要的过程,数据必须通过这些过程才能转化为知识或应用,包括明确业务目标、收集相关数据、数据预处理、模型构建与训练、结果分析与总结这几个主要过程。
(1) 明确业务目标。
电子商务中的数据挖掘第一步就是明确业务目标,因这个方向的数据挖掘主要目的是为了更好的指导平台的业务发展,因此研究与业务场景紧密相关,需要我们充分了解业务问题,明确挖掘的目的,否则,脱离开业务场景下的数据挖掘是盲目的,只会耗费人力物力财力,得不偿失。
(2) 收集相关的数据。
明确了此次挖掘的目的后,就需要收集所有与研究相关的数据,作为实验的数据源。电子商务数据挖掘的数据源一般是用户注册登录信息和服务器中存储的浏览、点击、购买等行为数据,对于一些大型电子商务企业而言,这个数据量是庞大的,一般成百上千万,这就对企业数据存储和运算能力有较大的要求。
(3) 数据预处理。
数据预处理会包含数据的选择、清理、变换,这个过程的目的是为了提高整个数据挖掘过程的性能[25]。数据选择是从收集的数据中进一步选择出适合挖掘的数据,删除不相关或者不适合的数据;数据清理是通过填补缺失值、删除异常点等清理数据,常用的填补缺失值的方法有均值填充、众数填充、模型预测等;数据转换是通过消除噪声、转换数据类型、数据标准化等操作,来根据需求重新组织数据,使数据集适合用来数据挖掘,为接下来的挖掘做准备。通常,如果公司已经有了一个现有的目标数据仓库的话,数据预处理的过程就会相对简单容易,但如果没有,这个过程将会消耗至少 80%的时间进行数据的选择、清理和转换,这就是数据预处理的过程。
.........................
2.2 逻辑回归算法
逻辑回归算法[27-28](Logistic Regression)是一种广义的线性回归模型,在线性回归模型的基础上使用 Logistic 函数来预测分类问题,逻辑回归算法是预测分类问题常用的算法,输入自变量可以是连续、离散、分类的,预测值是分类变量(二分类或多分类),这也是逻辑回归算法与线性回归最大的区别。其中,我们最常用在二分类问题上,预测值一般为 0 或 1,0 表示失败,1 表示成功,在现实中应用时往往有更丰富的含义,比如,是/否,好/坏,合格/不合格,患病/不患病等。下面就对逻辑回归算法进行简单的介绍。
首先讲一下二元分类下的逻辑回归算法,当然多元分类也是可行的,多元的情况是建立在二元的基础之上。
二元分类下,预测值有两个取值,即 y =0,1 ,通常我们还需要设置一个基准值,如 0.5,如果预测值为 1 的概率大于 0.5,则该样本属于 1 类别的可能性更大,模型就会将该样本预测为 1 类样本,反之亦然。
因此,我们对预测函数模型就有以下需求,值域要在 0 到 1 之间,当计算出的预测值大于基准值时,则预测结果为 1,小于基准值时,预测结果为 0,在这样的需求下,发现 Sigmoid 函数适用于二元分类算法。
MBA论文怎么写
第四章 特征工程
4.1 特征提取
特征工程一般包括特征的提取和选择,这是数据挖掘中非常重要的过程。在本次实验中,用户活动日志表包含五个实体:用户、商家、品牌、类别和商品信息,这些实体的特征及其相互作用所组成的特征可以预测类标签,也就是预测双十一期间新用户是否会在六个月内转化为该店铺的重复购买用户。例如,在六个月内,与电子商品相比,用户更有可能从销售零食的商人那里重复购买,而不是从销售电子产品的商人那里重复购买,因为零食比电子产品便宜并且消费得更快。我们生成了大量特征来描述五种类型实体的特征及其相互作用。在本节中,我们先概述所有生成的特征类别,然后详细描述不同类别下的这些特征。
本文将会从三个方面提取特征:与用户相关的特征,与商家相关的特征以及用户与商家之间的交互特征。
4.1.1 用户相关特征
这种特征描述了用户的属性,我们将与用户相关的特征组分为三个子类别:用户配置文件特征,用户统计特征和用户比率特征。 用户配置文件特征:从提供的用户特征表中,我们可以找到用户的个人信息,例如年龄和性别。这些信息非常有用,在前面数据可视化阶段,我们发现具有不同年龄和性别的用户具有不同的概率成为重复买家。因此,我们选取了年龄范围和性别特征。
用户统计特征:这种特征考虑了在“双 11”之前和“双 11”当天的四种行为(即点击,添加到购物车,购买和添加到收藏夹)的统计数量。因此,我们通过计算用户的行为(例如,用户在“双 11”之前和在“双 11”当天的点击次数)来生成特征。
此外,用户在不同的商品、类别和品牌上可能会有不同的行为。当用户与不同的商品、类别和品牌有很多互动时,他可能是重要的用户。因此,我们计算了用户进行过互动的商品、类别和品牌的数量。
此外,曾经作为重复购买者的用户我们猜测其更有可能再次成为重复购买者,因此我们计算了用户成为重复购买者的总次数。同时,我们计算用户拥有购买记录的总天数。
用户比率特征:通过分析数据,我们发现 11 月份某些用户的行为与 11 月份之前的行为有很大不同,有些用户仅在十一月才有很多行为,这是合理的,因为淘宝在 11 月至 11 月 11 日期间都有大量促销活动。因此,我们考虑了 11 月用户在不同商品、类别和品牌上的行为以及在其他时间的这些行为的差异。
..................................
第三章 数据预处理 ................................... 19
3.1 数据介绍 ........................................... 19
3.1.1 数据来源 ........................................... 19
3.1.2 数据集变量描述 ..................................... 19
第四章 特征工程 .......................................... 31
4.1 特征提取 ........................................... 31
4.1.1 用户相关特征 .............................................. 31
4.1.2 商家相关特征 ..................................................... 32
第五章 模型训练与验证 .................................................. 35
5.1 模型搭建前的准备工作 ............................................. 35
5.1.1 模型评估指标 .............................................. 35
5.1.2 训练集和测试集的构建 ...........................................35
第五章 模型训练与验证
5.1 模型搭建前的准备工作
5.1.1 模型评估指标
本次实验采用 AUC 值作为模型好坏的评估指标,接下来就介绍一下 AUC 的定义。
在了解 AUC 之前,首先要了解混淆矩阵。通常,我们会把预测类别为 1 的称为Positive,预测类别为 0 的称为 Negative,若预测值与真实值相同,则为 True,若不相同,则为 False,对上述进行组合,这样我们就得到了如图 5.1 所示的混淆矩阵
MBA论文参考