2007年度,在文本表示模型方面,Taeho和Malrey提出了一种将文本用字符串向量进行表示,同时对于向量机文本分类方法进行改进,取得了很好的效果,使得该处理算法能够适用于该模型[21]。对于分类器的参数调整方面,以前的文章中从未提过,只是认为参数的选择只是起到次要的作用,经典的常用的Rocchio方法使用的文本分类器的参数千篇一律,因此,Koster和Beney等人结合该方法与Winnow方法进行改进,从而提出了改变分类器参数的思想[22]。对于文本类别分布不均衡的文本集,前期作者都不太关注,而Verhein和Chawla等人在前人结论的基础之上,通过改进关联分类方法从而提出了一种新的处理此种文本集的文本分类处理方法[23]。
同年,Hirasawa和Suzuki将词频比较方法进行累计处理提出了一种新的文本分类方法[24]。在对文本进行特征选择方面,Lee和Wong等人基于进化方法提出了一种新的特征选择处理方法。在对文本特征进行加权处理方面,Lebanon等人通过改进现有的文档词袋表示方法[25],提粗了一种新的特征词加权结构。对于文本分类算法导致的组合优化处理方面,Bosio和Righini等人提出了一种新的解决方法[26]。Joshi和Lam比较了不同的文本分类方法中基于向量机的分类方法,并提出了各自的优缺点。
于2008年度,对于文本分类处理算法的复杂度过高问题,Janik和Kochut等人提出了一种全新的文本分类处理方法[27],与传统的文本分类处理方法相比,该方法最大的优点在于不需要训练文本集。基于最小二乘法和多重线性向量机处理方法,结合这两种处理方法,Park提出了一种新的解决两类文本分类问题[28]。
2 国内研究概况
国内文本分类研究相对较国外起步比较晚,一方面是由于计算机于90年代才引进中国,相对国外,计算机引进较晚,掌握技术相对落后。另一方面,中文与英文差别较大,英文文本词与词之间是分开的,而中文是连贯起来的,所以在进行文本分类的时候,必须进行文本预处理。因此,增大了分类研究的难度。
南京农业大学的候汉清教授于1981年首先介绍了国外运用计算机技术对文本内容进行分类处理的概括。国内比较出名的中科院、清华大学、哈尔滨工业大学等重大科研机构院校等先后建立了专门处理中文文本分类的重点实验基地,专注于对中文文本进行分类处理研究,都取得了比较好的效果。
现阶段国内的文本分类研究取得了巨大的进展,并最先应用于中国的各大网站中, 例如百度等搜索引擎中。并且也得到了相关部门对信息分类研究的重视。国际中文计算机学会、中国中文信息学会、国内的计算机核心期刊和若干所著名高校计算机系的中文信息处理实验室等都对中文文本分类技术进行了深入的研究。
参考文献
[1] 汤玲. 基于HMM模型的语音识别系统研究[D]. 国防科学技术大学, 2005.
[2] 汪建华. 中文文本分类技术研究[n]. 吉林大学, 2007.
[3] 牛罡,罗爱宝,商琳. 半监督文本分类综述[J]. 计算机科学与探索,2011,04:313-323.
[4] 刘伍颖. 面向垃圾信息过滤的主动多域学习文本分类方法研究[D].国防科学技术大学, 2011.
[5] 郭永辉. 面向短文本分类的特征扩展方法[D].哈尔滨工业大学, 2013.
[6] 吴芬琳. 自适应加权KNN文本分类[D].华侨大学, 2014.
[7] 卫洁. MapReduce.框架下的贝叶斯文本分类学习研究[D].山西财经大学, 2012.
[8] 郑俊飞. 文本分类特征选择与分类算法的改进[D].西安电子科技大学, 2012.
- 上一篇:政府宏观经济政策效果传导文献综述和参考文献
- 下一篇:纪录片与国家形象的文献综述
-
-
-
-
-
-
-
g-C3N4光催化剂的制备和光催化性能研究
现代简约美式风格在室内家装中的运用
中国传统元素在游戏角色...
巴金《激流三部曲》高觉新的悲剧命运
上市公司股权结构对经营绩效的影响研究
NFC协议物理层的软件实现+文献综述
C++最短路径算法研究和程序设计
高警觉工作人群的元情绪...
浅析中国古代宗法制度
江苏省某高中学生体质现状的调查研究