4.7.3 社区搜索 27
5 系统测试 29
5.1 测试目的 29
5.2 单元测试 29
5.2.1 提取关键词语义分析模块测试 29
5.2.2 兴趣网络构建模块测试 30
5.2.3 搜索内容扩展模块测试 30
5.2.4 兴趣网络社区划分模块测试 31
5.2.5 百度搜索模块测试 32
5.2.6 兴趣搜索模块测试 32
5.2.7 社区搜索模块测试 33
6 结论 34
6.1 系统完成情况 34
6.2 系统的进一步研究 34
6.3 心得和体会 34
致 谢 36
参考文献 37
1 绪论
1.1 课题研究目的和意义
随着网络的迅速发展、用户基数的不断增加,网络所蕴含的信息量变得异常巨大,大数据时代已然到来。网络搜索引擎作为信息检索的媒介和工具在互联网中扮演着重要角色,甚至从某种程度上来说,我们已经离不开搜索引擎了,它能帮助我们更好地获取我们所需要的信息资源。
然而,由于网络中的信息量实在是过于庞大,作为用户,我们虽然可以通过搜索引擎去指定搜索某类信息,但是返回的结果仍有可能是数以千万甚至以亿的数据量,用户不可能一个个去查看,所以如何更为精准的优先提供用户真正需要的信息一直是搜索引擎研究的一个重要方向。论文网
通过查阅相关资料以及实际的观察,我们不难发现传统的信息搜索系统所采用的方式是一种基于长时兴趣模型的用户需求定位,即要求用户建立私人账号,系统对用户平时的搜索和浏览进行跟踪,不断记录用户的访问数据和访问信息,以此来计算提供用户最需要的搜索结果,这需要大量用户的使用数据作为基础,换言之,也需要用户经常使用,使用得越久,提供的搜索结果往往也能更为精准。但对于短时用户来说,此模型有着致命的缺陷,当用户的使用数据并不足以构建一个长时兴趣模型时,往往就会导致该系统的搜索效率降低;对于长期用户来说也同样存在着致命的弱点,那就是隐私的泄露隐患,这需要系统消耗大量的精力去保护用户隐私。
本次课题的主要目标便是研究实现一个避免长时兴趣模型缺陷的信息搜索系统:在保护用户隐私的前提下,对用户的兴趣进行分析,无需用户注册账号, 力求在数据量较少的情况下仍然能高效运作。为此,我们针对性的设计了一个短时兴趣模型,本模型仅借助用户短期内搜索、浏览记录,首先构建出一个短时兴趣网络,采用算法对已经存在的用户短时兴趣网络图进行优化,然后通过用户短时兴趣网络,参考语义词典,与多用户兴趣网络进行交互分析,对搜索内容进行扩展,最后执行搜索,对返回后的搜索结果进行优化,提供用户优化处理后的结果。