1.2 国内外研究现状与水平
2 需求分析
2.1 概述
本系统旨在建立一个基于短时用户兴趣模型的信息搜索系统,信息来源使用网络爬虫技术从百度搜索引擎中获取。
提取用户所输入内容的关键词,作为重要参考存储到用户兴趣网络图中,对这些关键词用一系列算法进行处理,作为用户下次搜索的参考。
最后再把从百度搜索中获取的结果集逐一与用户输入的内容进行相似度计算,优先推送最符合用户输入的内容,并对相似的结果集进行去重。
用户可以在搜索之前选择语义词典兴趣扩展或者多用户协同兴趣扩展,这两种不同的扩展方式都将以各自的方式扩展与用户输入内容相关的词条。
2.2 系统功能需求
2.2.1 构建短时兴趣网络
功能描述:
1) 能从用户输入的搜索内容中提取出关键信息。
2) 将关键信息存入兴趣网络。
3) 系统将依据这些关键信息构建出一个兴趣网络。
4) 将形成后的网络图显示到界面中。
2.2.2 短时兴趣网络优化
功能描述:
1) 在已有的用户兴趣网络中,对兴趣网络进行优化。
2) 将优化后的网络同样显示到界面中,与未优化之前的图形成对比
2.2.3 兴趣扩展
功能描述:
1) 系统可以依据用户输入的搜索内容结合兴趣网络,进行内部扩展。
2) 用户也可自行选择从系统外部加载相关信息作为参考,进行外部兴趣扩展。
3) 返回用户扩展的结果。
2.2.4 短时用户兴趣查看
功能描述:
1) 对用户搜索过的内容进行分析,对用户兴趣进行分类归纳,获取用户的兴趣分布。
2) 以图表的方式显示用户兴趣分布。
2.2.5 搜索结果优化
功能描述:
1) 根据搜索内容,抓取百度搜索结果。
2) 对抓取的结果进行过滤和优化。
3) 返回用户优化后的结果。
2.3 可行性分析
2.3.1 技术可行性
本课题旨在实现一个基于短时兴趣模型的信息搜索系统,是在现有的搜索引擎如百度的基础之上,对百度的搜索结果信息进行抓取,再结合用户短时兴趣模型进行分析,为用户提供最符合用户要求的搜索结果。文献综述
伴随互联网信息采集技术的快速发展,通过网络爬虫抓取互联网相关的信息已经不再是很大技术难题。可以通过网络爬虫技术从百度搜索引擎中抓取符合用户搜索内容的相关信息作为搜索结果,然后采用文本相似度计算方法,对采集结果进行优化过滤。在数据挖掘领域中的常用的相似度计算方法有如下几种:1. 欧氏距离(Euclidean Metric);2. 曼哈顿距离(Manhattan Distance);3. 余弦相似度(Cosine Similarity) 等等。