当前,很多Web0网站为用户提供标注工作,如Delicious和Flickr等。一些社交网站,如新浪微博平台允许用户对网络资源进行标注,其中还包括用户对自己所标记的关键词即用户标签,用户标签直接体现了用户的兴趣爱好,此外,用户平时所发布的帖子更贴切的体现了用户的近期真实生活。因此,利用好这些信息挖掘出用户兴趣将在个性化服务方面具有重要意义。本文旨在利用微博上用户的标签信息和微博内容信息构建用户模型,接下来对此类相关研究进行简单的概述,主要包括用户建模、社交网络中的用户标签、微博内容挖掘、用户兴趣发现等方面。79504
1 用户建模
用户建模[1]即建立对用户的描述,首先获取到用户相关信息资源,在对这些资源进行整理分析一系列过程从而构建用户模型。随着个性化服务需求的增加,用户建模的应用越来越广,在诸多领域皆有涉及,引得众多学者的关注。目前关于用户建模的研究较多,用户建模的技术多样。在获取用户信息时,有需要用户主动提供兴趣信息和从用户行为中隐式采取不打扰用户这两种方法[2]。用户模型还要考虑将结果用户何种方式展现出来,即用户模型表示方法,一般有以下几种表示法有:关键词列表法,主题表示法,基于神经网络的表示法,基于本体论的表示法和基于向量空间模型的表示法。司新霞等对关键词进行了赋权,用列表法表示兴趣,从而构建用户模型[3]。陈文涛等运用LDA主题模型对虚拟社区twitter用户进行兴趣建模[4]。此外,用户建模方法也各有不同。TiroshiA提出从图的角度构建用户模型,将用户在不同渠道下的不同形式的与用户相关的数据(如浏览网页、邮件等)都用图的形式关联起来,组成一个用图片表示的用户网络[5]。Brickley获取到用户的基本信息、个人信息、网上账户、社区团体、文件图片信息,从这些信息中构建FOAF用户模型[6]。KimH-N等人利用社会化标签,来对用户建模,并利用模型进行内容推荐[7]。
以上用户建模研究大都比较注重对用户信息收集时的全面性,而在当今互联网时代下用户信息遍布各个平台,很难保证用户信息的完整性,因此,我们可以重点关注那些对用户特征具有强代表性的信息,以此来提高用户建模的效率和质量。
2 用户标签
用户标签,一般在7个汉字以内,用于描述用户可以是自身职业、兴趣爱好、性格、年龄等的词语或者短语,新浪微博上每个账户最多可添加10个标签,在一定程度上代表了用户的特征及偏好,方便了有相同偏好的用户找到对方。目前用户标签的相关研究主要集中在两个方面:对标签自身价值的研究,章成志发现微博用户标签和用户所发微博内容具有相关性,不同领域的用户标签的主题表达能力具有一定的差异[8];吕海燕对用户发布的微博内容进行聚类分析后自动生成用户标签[9];WeiWu等人通过TextRank关键词挖掘法从用户微博内容中抽取出关键词,用来表示用户标签[10];TheodorosLappas等人利用用户的粉丝关系,通过对粉丝微博内容建立主题模型,进一步生成用户标签[11];还有研究者通过微博平台上的用户行为信息,如用户之间的关注、互粉、转发评论等信息进行用户标签预测和推荐[12][13][14]。另一方面主要是将用户标签应用在信息检索和信息推荐等个性化服务上。其中有较多研究利用用户标签进行用户建模,通过用户模型来有针对的提供信息满足用户需求。毛进提出了利用由用户标签组成网络来发现用户的兴趣,构建用户兴趣模型[15];丁婉莹利用用户标签,结合网络词表WordNet构建用户的个人本体[14];阎春霖构造用户标签兴趣向量,实现聚类分析,完成社区发现[16];张红将用户标签的聚类层级结果应用于网站分类目录,从而改善网站检索导航性能,提高用户体验度[17]。