摘要进入 21 世纪,步入了高速信息时代,人们面对的信息量呈指数级成长,信息检索技术应运而生。存在着更大研究价值和广泛应用前景的文本检索技术已成为信息检索的重要分 支,文本检索领域最常用的文本检索模型——向量空间模型(Vector Space Model, VSM)吸引 了大量的研究人员对其进行研究,其中 TF-IDF 权重度量方法和文本排序算法是向量空间 模型中最集中研究的方向。
本文基于 TF-IDF 权重度量方法和余弦相似度排序准则,使用 Python 编程语言及结巴 分词等第三方开源库,实现了 web 内容的文本检索排序。以精确率、召回率、前 10 个结果 的正确率及前 10 个结果是否出现所找的内容为评价本检索算法的标准,经实验表明,该算 法的检索结果精确率极高,可正确返回要搜索的内容。76144
毕业论文关键词: 信息检索 排序 向量空间模型 TF-IDF 余弦相似度
目 次
1 引言 1
1。1 研究背景及意义 1
1。2 信息检索的问题难点 1
1。2。1 数据爬取 2
1。2。2 文本分词 2
1。2。3 索引的建立 2
1。2。4 查询处理 2
1。3 本文的主要工作与内容安排 3
2。 文本检索相关技术分析 4
2。1 引言 4
2。2。1 文本检索概述 4
2。2。2 文本检索过程 4
2。2 文本表示模型 5
2。2。1 文本解析 5
2。2。2 词项权重计算 6
2。2。3 向量空间模型 8
2。3 检索排序算法 8
2。4 检索效果评价 10
2。4。1 召回率 10
2。4。2 精确率 10
2。4。3 召回率与精确率的关系 11
3。 实验设计与结果分析 12
3。1 实验环境 12
3。1。1 实验平台 12
3。1。2 开发工具及函数库介绍 12
3。1。3 实验数据 13
3。2 实验程序设计 13
3。2。1 程序组成说明: 14
3。2。2 程序模块介绍 15
3。3 实验结果分析 16
结论 18
第 II 页 本科毕业设计说明书
致 谢 19
参 考 文 献 20
本科毕业设计说明书 第 1 页