自然语言处理中的对于中文信息处理落后于对于英文信息处理,英文中可以省去分词的步骤,大大简化了信息处理的难度。中文分词是中文信息处理的必要步骤,中文分词的应用之一就是搜索引擎的应用。其他的比如信息检索、汉字的智能输入、自动摘要、机器翻译(MT)、语音合成、自动分类、自动校对等,都需要中文分词技术。由于中文有分词的必要,带来了新的研究方向,丰富了学科的研究内容,也给很多的互联网企业带来了机遇和挑战。中文信息的处理,作为中国人具有明显的优势。61630

最近几年的网络的发展,互联网上的中文信息爆炸式增长,各种信息混合在一起,我们要对信息进行合理的筛选和分类。这项工作是我们需要去解决的,虽然早期的yahoo搜索是通过人工干预的方法进行分类,但是今天如果还使用同样的方法显然是这样的搜索引擎是不可以作为商业使用的。这就需要机器自己去识别用户输入的句子进行文本分类,一个好的搜索引擎,技术上来说,对于分词的效果要求比较高,既有效率上的要求又有准确性的要求。搜索引擎要求分词的效果快速且准确,只有这样才能从数以亿计的文本中提取到有用的信息。一旦得到了分词,后续工作难度降低了很多,可见分词显得尤为重要。

中文分词的研究现状

目前例如大型的商用的搜索引擎有雅虎,谷歌和百度,其中雅虎采用自己开发的分词技术,谷歌采用美国Basis Technology提供的中文分词技术,百度采用的自己开发的分词技术。这些大型的搜索引擎基本都是采用机器学习的算法,才开发出来有效的论文网,高速准确的分词技术,来服务于信息的检索。目前国内的分词系统,经典的比如ICTCLAS是中科院计算所研制的汉语词法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System)。[1]集成了中文分词、词性标注、命名实体识别、新词识别和用户词典等功能。ICTCLAS有开源版(无用户词典)、共享版、商用版和行业版(有行业词典)等版本。

目前的分词规范有两个,1993年国家技术监督局公布了《信息处理用现代汉语分词规范》,作为国家标准。1995年,台湾中研院制定了《资讯处理用中文分词规范》。

目前的分词的测评也有很多,例如“863中文与接口技术”汉语自动分词与词性标注一体化测评,共有5个单位参与,测试语料约为40万个汉字。还有国际中文自然语言处理Bakeoff,SIGHAN是国际计算语言学会(ACL)下属“中文处理专业委员会”的简称。Bakeoff是国际中文自然语言处理的品牌。

上一篇:图像融合国内外研究现状概况
下一篇:USB-CAN转换器国内外研究现状

教材的比较研究现状

社区的三维可视化国内外研究现状

不同形貌SnO2纳米材料的光...

国内外列车旅游的发展研究现状

中小民营企业的融资问题国内外研究现状

二噁英暴露的生物标志物意义和研究现状

植物抗旱机制的研究现状进展

我国风险投资的发展现状问题及对策分析

张洁小说《无字》中的女性意识

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

老年2型糖尿病患者运动疗...

LiMn1-xFexPO4正极材料合成及充放电性能研究

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究