以上提到的工作主要从研究用户标签自身以及标签在网络上的具体应用,但没有对用户标签内容特点、用户标签与其他用户信息如微博内容之间的联系进行充分的研究,这将是本文所关注的主要问题。论文网
3 微博内容挖掘
微博全称是微博客(microblogs),它包括新浪、网易、腾讯微博等,如果没有特别说明,一般是指新浪微博。微博是一种通过关注机制分享实时信息的广播式的社交网络平台,内容比较简短。用户可以组建个人社区,在平台上实现信息分享、传播和获取。随着平台的开放性,低门槛特性,微博用户逐渐增多,用户在平台上的动静态行为形成了庞大的信息流。微博数据由于公开应用程序接口数据获取便捷,且数据源丰富,学者可在微博平台采集大量数据,挖掘有用信息。其中,对微博内容挖掘的研究有话题事件分析[18]、网络关系分析[19]、影响力分析[20]等。微博话题事件分析研究包括事件检测[21]、话题摘要[22]、话题模型[23]等,网络关系主要集中在关系形成机制[24]、关系预测[25]等。
有研究学者从使用微博的行为进行研究如采用何种方式登录微博[26][27]、每天或者每周使用微博的次数以及每次使用多长时间[28][29]、在微博上的发布消息的频率[30][31][32]等用户行为进行研究。微博本身就是基于用户关系的一个分享和交流的平台,因此从用户关系角度进行的研究也比较多,如用户之间的关注、被关注、互粉关系,对同一话题或热点进行评论和探讨所形成的兴趣关系等[33][34][35][36]。对微博内容进行文本挖掘较多从内容语义分析,根据关键词进行提取,多用于获取微博热点话题[37][38][39][40],情感分析[41][42][43],用户兴趣挖掘[44][45]等。
归纳来看,在微博平台上,关于内容挖掘研究主要集中在由用户关系组成的复杂的社交网络结构、用户行为以及微博文本内容角度。而在近几年微博平台上用户标签开始流行使用,目前对用户标签的研究也比较少,因此,可以从用户标签角度进行挖掘。
4用户兴趣发现
用户兴趣发现主要根据用户过去的行为信息:如用户浏览网站的内容信息[46],用户在网页的停留时间[47],鼠标移动速度等[48],通过这些信息的获取,对信息分析挖掘,发现用户真正感兴趣的。此外还有研究者关注用户的兴趣变化,由此发现用户的潜在兴趣[49][50][51]。以上的研究可较准确的发现用户兴趣,但没有考虑兴趣与兴趣之间在语义层面上的关系。为了解决语义关系上的不足,有学者提出了从本体角度出发[52][53]。
以上兴趣发现方法属于较传统的思路,对于近几年新兴的自身具有鲜明特点的社交产品如微博、博客、微信等并不适用。众多社交平台都有自己的特点,本文意在新浪微博上用户建模,下面介绍当前研究者在微博上的用户兴趣发现主要工作。针对微博平台下的用户兴趣发现已经展开研究如Fabian等通过对用户的微博内容和微博中的URL链接的信息抽取关键词来表示用户兴趣[54]。张晨逸等人从转发关系和联系人关系发现用户兴趣[36]。WengJian-Shu等人将用户的微博合成一个文档,运用主题分析,提出基于Twitter-Rank的方法发现用户兴趣[55]。因此,对用户兴趣发现过程中应结合产品自身特点。如何针对微博网络的特点,从蕴含丰富资源的网络中发现用户兴趣信息,从而建立精准的用户模型是本文的关注重点。
5相关研究工作总结
在用户建模信息获取上一般采用隐式和显示相结合的方法,模型表示方法选取是用户建模中重要的环节,合适的表示方法才能体现出用户模型的质量,目前比较流行的是基于向量空间模型的表示法。在社交网络上对用户的兴趣发现也可从多种角度,如在微博平台上,提取微博中的关键词来描述用户兴趣[56][57]、利用用户之间的交互关系为用户推荐标签[58][59],为用户建立分类下主题模型确定用户的兴趣所属[60]。近几年,标签在社交网络上盛行,方便我们对信息进行区分、筛选和分类,特别是用户标签,众多研究者将用户标签应用到个性化服务上,本文将利用用户标签构建用户模型。