1。1。2 研究意义
推荐系统的目的是跟据用户的历史行为判断用户喜好,结合相关推荐算法向用户推荐商
品,帮助电商更好的使用用户资源,创造更大的效益。但随着时间的推移,数据量呈现指数级增长,数据类型的急剧增加,计算机的计算速度大幅度提升,推荐系统也面临着挑战,比如:如何提高推荐系统的效率等。可以根据用户的历史行为构造更为有价值的特征,在推荐算法中尝试更多的算法和数据融合技术,使其能够更好的胜任在大数据的背景下为用户和电商推荐工作。
1。2 国内外研究现状
1。3 研究内容及结构安排
本文使用阿里巴巴天池大数据平台提供的移动推荐数据集,对数据进行了预处理、特征工程,使用相关算法和融合技术构造推荐模型,并在此基础上进行了大量的实验,对不同的算法、参数进行了性能上的比较。
本文的对文章结构做了如下安排:
第一章陈述了文章的研究背景和研究意义,并对推荐算法的研究现状进行了简单介绍,最后说明了本文的研究内容和文章结构安排。
第二章介绍了本次设计的具体背景,设计出此次算法研究的主要算法框架,并对数据预处理、特征工程、单模型预测和模型融合各阶段进行了简要的功能阐述。然后对本次设计的数据预处理阶段的数据清理和数据归约进行了介绍。
第三章详细介绍了此次设计的特征工程部分。对实验中构造的具体特征进行了列表说明,并陈述了特征选择的方法以及模型预测的特征维数。
第四章主要介绍了逻辑回归、随机森林和GBDT等算法的原理和学习过程,简单介绍了每种算法的特点。
第五章对实验的结果进行了一定的比较和分析。
2 算法框架设计和数据预处理
2。1 设计背景
传统的推荐模型是根据用户的历史行为,判断用户的喜好,为用户推荐符合其喜好的商品。但本此毕业设计的题目不是寻找消费者的兴趣爱好并为消费者推荐商品,而是根据用户的历史行为,对预测日可能发生购买的用户-商品对进行预测。传统的推荐模型可能无法准确的判断出用户在测试日是否会对商品发生购买行为。我们可以把这个问题转变成一个二分类问题,即判断用户对商品会不会发生购买行为。由此分类器在此推荐模型中重扮演了极其重要的角色。本次毕设主要用了逻辑回归、随机森林和Gradient Boosting Decision Tree的分类算法以及Bagging等融合技术。
2。1。1 问题定义
以平台提供的训练数据集(11月18日至12月17日的数据)为基础,使用各种分类技术建立推荐模型,并将各种模型的最终性能进行比较与分析。与传统的推荐算法不同,这次模型目的不是对用户推荐其感兴趣的商品而是输出用户在接下来一天(12月18日)对商品子集的购买行为的预测结果,所以本次构造模型的目的可以转换为一个简单的二分类问题,即预测日用户对某商品发生购买行为为1,反之为0,最后,将预测的正样本集作为最终的预测结果。论文网
2。1。2 原始数据
在现实的业务背景下,由于商品集数量巨大,且商品间存在着类似的分布关系,我们往往只需要对全部商品的一个商品子集构建相应的推荐模型。淘宝平台所提供的真实用户-商品的行为数据包括两个部分:用户与商品全集2014。11。18日至2014。12。18日的交互行为(浏览、收藏、购物车、购买)和要预测用户是否购买的商品子集P。数据具体结构如表2。1和表2。2所示:
表2。1 商品子集