摘要:文本关键词提取是文本自动化处理常用的一项关键技术,若能对海量的文本资源做关键词标注,并且对其归纳整理,即可实现文本资源的高效管理以及便捷使用。本设计的工作主要包括两部分:文本关键词的提取以及优化方法的研究,以及关键词提取软件的设计与实现。本设计使用TF-IDF算法实现了文本关键词的提取,利用先验知识实现了关键词提取的优化。本设计实现的关键词提取软件包括三个模块:分词模块、关键词提取模块和网络服务模块,分别完成文本的预处理工作、关键词的提取工作、以及提供关键词提取的网络服务接口。测试结果表明了该系统能够较好地实现关键词的提取任务。20481 毕业论文关键词: 中文分词;关键词提取;关键词优化;TF-IDF
Text Keyword Extraction and it’s Optimization
Abstract: Text keyword extraction is one of the key technologies of text automatic processing and the keyword annotation is the basis of text resources management and using. The paper consists of two main parts: the research on keyword extraction method and how to optimize the extracted keywords. The paper takes advantage of TF-IDF to realize the keyword extraction and uses the priori knowledge to optimize the process of keywords extraction. The developed keyword extraction software consists of three modules: word segment module, keyword extraction module, and web services module, which realize the preprocessing of the text, the extraction of keywords, and the network interface of keywords extraction respectively. The test results show that the developed software can better realize the keyword extraction.
Keywords: Chinese word segment; keyword extraction; keyword optimization; TF-IDF
目 录
1 绪论 1
1.1 课题背景与意义 1
1.2 国内外研究现状 1
1.3 本课题的研究内容 2
1.4 论文组织安排 2
2 相关技术 3
2.1 文本预处理 3
2.2 关键词提取 3
2.3 中文分词技术 4
3 关键词提取 8
3.1 关键词的特征 8
3.2 关键词提取的应用 8
3.3 中文关键词提取存在的问题 9
3.4 关键词提取所面临的挑战 10
3.5 常用的关键词提取方法 11
3.6 TF-IDF算法 11
4 关键词提取软件设计与实现 13
4.1 概述 13
4.2 功能模块 13
4.3 系统流程 13
4.4 数据库设计 15
4.5 模块1—分词 16
4.6 模块2—提取关键词 18
4.7 模块3—网络服务 21
5 关键词提取算法优化 24
5.1 关键词提取的先验知识 24
5.2 关键词提取算法优化 24
5.2.1 关键词的语义距离 24
5.2.2 关键词质量评价方法 25
5.3 基于先验知识指导的关键词提取算法 25
6 总结 26
6.1 小结 26
6.2 心得体会 26
6.3 未来工作 27
致 谢 28
参考文献 29
1 绪论
1.1 课题背景与意义
如今,随着网络的飞速发展,使得网络上电子形式的文本信息量飞速增长,电子版书籍以及电子邮件等在我们生活中已经相当普及了。在面对的网页文本、电子书、邮件等电子文本形式的信息资源也日益增多,我们在浏览这些大量信息的同时,也必须花更多的时间以及精力来对它们进行挑选和辨别。所以,当下迫切需要解决的问题就是怎么样才能够快速而且高效地获取、管理以及使用这些网络资源。传统的人工处理方式已经不能满足当下社会发展的需要,所以研究和开发自动、准确、高效的自动化文本处理技术(关键词提取)显得十分迫切。