1958年,Luhn提出了采用词频统计来提取摘要的思想。他采用词语的频率与分布信息来估计每个词语的相对重要度。然后再估计每个句子的相对重要度,得分高的句子就被抽取为摘要。
60年代,Maron的工作把文本分类向前推进了一大步。他开创性地采用了贝叶斯公式来进行文本分类,用一组标引词来代表一篇文档,统计每个标引词在每个类别下的概率,计算该组标引词同每个类别的后验概率,最后挑选后验概率最大的类别作为该篇文档的类别。5773
从60年代到80年代,采用知识工程的文本自动方法一直处于领导地位。这一阶段的主要特点是采用人工的方式来构建分类器。
90年代以后,基于机器学习的自动文本分类方法逐步占据统治地位。因为基于机器学习的自动文本分类的正确性完全可与人工专家相当,但分类速度却要远远高于人工专家。几乎所有重要的机器学习算法都被引入到文本领域中来。比如最小二乘拟和回归模型、最近邻、贝叶斯、决策树、神经网络、线性分类器等等。
90年代中期Vapnik提出了著名的支持向量机。支持向量机利用了结构风险最小化的原则,对有限样本情况下的分类器设计具有很好的效果。Joachims率先将其引入到文本分类中来。在这以后的很多文献中,支持向量机都表现出了较好的分类质量[1]。
国外对于文本分类的研究开展较早,在以下一些方面取得了不错的研究成果。
a) 向量空间模型的研究日益成熟。
b) 特征项的选择进行了较深入的研究。
c) 完整的分类算法的研究和比较。
d) 逐渐开始研究未标记文本对文本分类系统的影响。
e) 逐渐将文本分类技术应用到某些特定的信息服务中。
国内对于文本分类的起步较晚,而且中英文之间存在较大差异,国内的研究无法直接参照国外的研究成果,所以中文文本分类技术还存在这一些问题。
a) 缺少统一的中文语料库不存在标准的用于文本分类的中文语料库。
b) 向量空间模型的研究还不十分成熟。
c) 文本分类算法的研究不十分完整每个分类器通常只实现一种分类算法,然后进行测试和分析,缺少完整的多种分类算法性能的比较和测试。
d) 文本分类技术与其他信息技术尚未很好结合
- 上一篇:滤波器国内外应用现状与发展趋势
- 下一篇:步进电机驱动技术研究现状及发展趋势
-
-
-
-
-
-
-
油画创作《舞台》色彩浅析
高校计算机辅助教学英文文献和中文翻译
糖基化处理对大豆分离蛋白功能的影响
浅议电视节目主持人的策划意识
msp430g2553单片机高精度差分GPS技术研究
浙江省嘉兴市典型蔬菜基...
慕课时代下中学信息技术课程教学改革
洪泽湖常见水生经济动物资源现状的调查
数据采集技术文献综述和参考文献
松节油香精微胶囊文献综述和参考文献