目前,文本分类技术已经有很多相关的研究,其中大部分是关于传统的数据挖掘算法(如本文2。1中介绍的朴素贝叶斯分类算法[1]、k-近邻算法[2]、支持向量机[3]等)的。不可否认,这些算法已经普遍的应用于许多工业场景下。但是随着数据量增大,分类准确率要求提高,传统的文本分类算法本身存在的问题也逐渐地显示出来。例如:朴素贝叶斯分类算法[1]的属性条件独立性假设在很多情况下是不合理的,k-近邻算法[2]对异常值不敏感且计算的时间和空间复杂度较高,支持向量机[3]在大量数据下的训练速度不快而且在多类别问题上分类效果不佳。79045

在最近十年,深度学习在许多问题上都有很好的进展论文网。深度学习有很强的拟合能力,而且学习规则简单,便于计算机实现。目前,许多研究都在围绕着深度学习展开,例如最近比较热门的人工智能程序Alphago就是基于深度学习算法开发的。

参 考 文 献

 

[1] 周志华。 机器学习[M]。 清华大学出版社, 2016。 

[2] Cover T M, Hart P E。 Nearest neighbor pattern classification[J]。 Information Theory, IEEE Transactions on, 1967, 13(1): 21-27。 

[3] Cortes C, Vapnik V。 Support-vector networks[J]。 Machine learning, 1995, 20(3): 273-297。 

[4] Chang C C, Lin C J。 LIBSVM: A library for support vector machines[J]。 Acm Transactions on Intelligent Systems & Technology, 2011, 2(3):389-396。 

[5] Fan R E, Chang K W, Hsieh C J, et al。 LIBLINEAR: A library for large  linear classification[J]。 The Journal of Machine Learning Research, 2008, 9: 1871- 1874。 

[6] Lecun Y, Bengio Y。 Convolutional networks for images, speech, and time series[J]。 The Handbook of Brain Theory & Neural, 1997。 

[7] Hochreiter S, Schmidhuber J。 Long short-term memory[J]。 Neural  computation, 1997, 9(8): 1735-1780。 

[8] Cho K, Merrienboer B V, Gulcehre C, et al。 Learning Phrase   Representations using RNN Encoder-Decoder for Statistical Machine Translation[J]。 Eprint Arxiv, 2014。 

[9] 化柏林。 知识抽取中的停用词处理技术[J]。 现代图书情报技术, 2007, 2(8): 48-51。 

[10] Salton G, Buckley C。 Term-weighting approaches in automatic text retrieval[J]。 Information processing & management, 1988, 24(5): 513-523。 

[11] 张玉芳, 彭时名, 吕 佳。 基于文本分类 TFIDF 方法的改进与应用[J]。 计算机工程, 2006, 32(19): 76-78。 

[12]  Hinton G E。 Distributed representations[J]。 1984。 

[13] Mikolov T, Chen K, Corrado G, et al。 Efficient Estimation of Word Representations in Vector Space[J]。 Computer Science, 2013。 

[14] Salton G, Wong A, Yang C S。 A vector space model for automatic indexing[J]。 Communications of the ACM, 1975, 18(11): 613-620。 

[15] 孙茂松,李景阳,郭志芃,赵宇,郑亚斌,司宪策,刘知远。 THUCTC:一个高效的中文文 本分类工具包[EB/OL]。 http://thuctc。thunlp。org/, 2016。 

[16] 方明 , 刘培玉 。 基于最大熵模型的评价搭配识别 [J]。 计算机应用研究 , 2011, 28(10):3714-3716。 

[17] Zhang H P, Yu H K, Xiong D Y, et al。 HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17。 Association for Computational Linguistics, 2003:  184-

上一篇:RGB-D图像视线跟踪数据国内外研究现状
下一篇:企业的退货策略定价策略供应链协调国内外研究现状

多媒体技术对教学影响的国内外研究现状

3D打印技术国内外研究现状和参考文献

生态浮床技术国内外研究现状

HTML5三维全景展示技术国内外研究现状

转向架安全监测技术的研究现状

激光焊接的技术研究现状

铝合金的焊接技术研究现状

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

我国风险投资的发展现状问题及对策分析

LiMn1-xFexPO4正极材料合成及充放电性能研究

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

老年2型糖尿病患者运动疗...

张洁小说《无字》中的女性意识