另一方面,微博拥有如此巨大的用户参与量,每天的微博数量达到上亿,给我们提供了庞大的实时数据源,从其中挖掘用户兴趣,具有非常重要的研究意义和研究价值。
1。2。2 实践价值
通过微博用户的兴趣建模,用户的实际兴趣被挖掘出来,可以根据已有的兴趣进行相关推荐,这样节省了用户浏览时间,也提升了用户的使用体验。同时,企业和商家能够更好地了解用户需求,提供更有针对性的服务和营销,赢得用户的满意,实现自身盈利。论文网
1。3 本文的研究思路及内容
1。3。1 研究思路
本文总体研究思路如下:
(1)进行文献调研,阅读用户兴趣建模、用户信息行为和微博内容挖掘相关文献,了解现有的用户兴趣建模方法,掌握研究的理论基础。
(2)研究新浪微博数据的采集方法,利用相关软件确保采集到全面准确的微博内容。
(3)学习用户特征提取技术,设计算法进行分词、特征选择和特征表示。
(4)研究融合用户信息行为和微博内容的用户模型,根据特征提取得到的结果设计建模实验,对最终模型进行评估。
1。3。2 研究内容
本文主要就以下两个方面的内容展开研究:
(1)分别基于微博用户行为和微博原创内容进行用户兴趣特征的提取:选取新浪微博中互联网、法律服务、文学、医疗、足球五个类的大V作为研究对象,使用火车头采集器采集大V用户的ID、微博原创内容、点赞内容、转发评论及转发的原文内容数据,其中对微博内容部分进行预处理、分词、计算每个兴趣词语的特征值等步骤,使文本内容转换为表示兴趣特征的向量。
(2)融合用户信息行为和微博内容的用户模型的构建:将特征提取后得到的五个类(互联网、法律、文学、医疗、足球)每个类表示用户转发兴趣、用户点赞兴趣和用户原创微博内容兴趣的三个特征向量,赋予相应的权重,计算出每个用户最终的兴趣特征值,用来表示用户兴趣。
1。4 本文章节安排
本文分为以下五个章节:
第一章为绪论,分析了本文的选题背景,阐释了微博用户建模的研究意义,同时介绍了本文的主要研究思路和研究流程。
第二章为相关研究文献综述,梳理了近年来有关用户建模、用户信息行为和微博内容挖掘的相关文献,以期系统地了解相关领域的研究发展状况,为之后的研究提供一定的参考和借鉴。
第三章为基于用户信息行为和微博内容的用户建模研究,首先进行用户兴趣特征提取实验,通过火车头采集器进行微博大V用户行为信息和微博内容的采集,通过Python编程处理分别得到每个用户行为和内容的兴趣特征向量,之后进行融合用户信息行为和微博内容的建模,将上一步处理得到的行为和内容兴趣特征向量分别赋予相应的权值,加权得到每个用户的每个兴趣特征词的最终特征值,通过特征值的大小可以对兴趣特征进行排序,用来表示用户兴趣。来:自[优E尔L论W文W网www.youerw.com +QQ752018766-
第四章为实证研究,分析上一章处理得到的结果向量,并分别对微博内容融合用户信息行为前后的建模结果以及融合用户信息行为和微博内容的用户建模结果进行评估。
第五章为总结与展望,总结了本文所完成的工作,反思研究存在的不足,并对未来的研究进行展望。