4。2 随机森林算法 18
4。2。1 CART算法简介 18
4。2。2 分类原理 20
4。2。3 模型学习算法 21
4。3 GBDT算法 21
4。3。1 Gradient Boosting算法简介 21
4。3。2 分类原理 23
4。3。3 模型学习算法 23
4。4 Bagging技术 24
4。5 本章小结 24
5 实验结果与分析 25
5。1 实验工具及平台 25
5。2 性能评价度量 25
5。3 训练样本的构造 25
5。4 单模型预测及结果分析 26
5。4。1 单模型参数调整 26
5。4。2 阈值移动 30
5。4。3 预测个数TopN 32
5。5 模型融合及结果分析 35
5。5。1 Bagging 35
5。5。2 平均融合 36
5。5。3 加权融合 37
5。6 本章小结 38
结 论 39
致 谢 40
参 考 文 献 41
1 引言
1。1 课题研究背景和意义
1。1。1 研究背景
随着移动互联网以及PC的发展,数据迎来爆发式增长,据统计,全球数据量正在以50%的速度增长,其中当前数据的80%为近两年的数据。其实,大数据在我们生活中无处不在,从社交网络到网上购物,从地图导航到在线语音都会产生海量的数据。正是数据广泛可用性以及巨大数量使我们进入到真正的数据时代。由于数据之间的关联交互盘根错节 ,传统技术逐渐难以承担高效处理数据的重任,因此,我们需要功能更为强大、通用性更好的工具,从海量的数据中发现有价值的信息并将其转换为知识。经过数年的探索与发展,很多大公司在数据的可用性以及数据的规模实现了突破,能够为人们提供灵活的数据服务。新的商业模式层见迭出,云计算发展的生机勃勃,使得大数据的价值得到了进一步的提升。在我们的日常生活中,我们总要面临着各种各样的选择,比如需要买哪种类型的商品,选择什么网上购物平台进行购物,选择哪种出行方式和出行路线等。在面临选择的同时,我们的选择范围也在迅速的扩大:迄今为止,阿里巴巴旗下的天猫商城已经拥有70000多个品牌,50000多家商户以及4超过亿买家;百度地图提供的导航服务,仅国内就包含400个城市,数以千计的区县等。如何从如此大的选择空间中获得有价值的信息成为一项重大挑战。2015年,移动电子商务领域快速发展。电子商务的规模不断扩大的同时,商品数量和种类也在以惊人的速度增长,消费者需要将大量的时间话费到搜索到自己想买的某件商品上。信息量的增长反而降低信息的利用率的现象被称为信息超载[1]。大量无关的产品和信息会降低用户的满意度,信息超载问题会使顾客数量不断下降,降低电商的收益。推荐系统无疑是解决这些问题的一个好方法。比较常见的推荐系统的概念是:推荐系统是通过电子商务平台向消费者提供商品的各种信息以及建议,帮助顾客决定购买什么商品,模拟商家帮助消费者完成购买过程[2]。换言之,推荐系统能够根据用户的历史行为判断用户的喜好,向用户推荐符合其喜好的商品,帮助电商平台为其消费者购物提供更为人性化的决策支持和信息服务。