1)分词精度。分词精度是指切分的正确率。它是自动分词系统的一个重要技术指标。由于中文文本是按句连写,词间无空格,因而在中文文本处理中,首先遇到的问题是词的切分问题。分词的正确率将直接影响更高一级的处理。影响分词正确率的主要因素有两个:歧义切分问题和中文姓名、地名、机构名等专有名词的识别。为了提高分词系统切分正确率,应该从整体性能,歧义处理和专业词识别等三个方面进行性能测试。论文网

2)分词速度。分词速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用了辅助手 如联想,基于规则的,神经网络,专家系统等方法更应注意这一点。影响分词速度的因素有:汉字串机械切分时查词典的时间、歧义字段的查找和歧义字段的校正。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统总开销合理。在人机交互方式下处理歧义问题的策略和人机接口的设计,有时会严重地影响切分速度,这也是应考虑的因素。

3)功能完备性。自动分词系统除了完成分词功能外,还应具备词库增删、修改、查询和批处理等功能。

4)可维护性。该属性包括改正性维护、适应性维护和完善性维护等。这是提供数据存储和计算功能扩充要求的软件属性,包括词库的存储结构,输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及自描述性等软件质量准则有直接的联系,对于研究实验性质的软件是非常重的,因为这类软件需要不断提高与改进,使之适应中文信息处理的各种应用。

5)可移植性。可移植性是指应用系统能从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词系统不应该只能在一种环境下运行,而应该稍作修改便可在另一种环境下运行,使它更便于推广。

2.2中文分词的研究现状

3  中文分词主要算法

从开始研究中文分词算法到现在,虽然没有出现非常完美的分词算法,但是也还是出现了许多比较好的分词算法,目前的分词算法主要包含基于字典的分词算法,基于统计的分词算法和基于理解的分词算法。

3.1基于字典的分词算法

基于字典的分词算法又叫机械分词算法,这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)[4]。根据扫描方向的不同分为正向匹配和逆向匹配;根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配;根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下:

1)逐词匹配法。逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。

2)正向最大匹配法(Maximum Matching Method)通常简称为MM法。其基本思想为:设D为词典,MAX表示D中的最大词长,string 为待切分的字串。MM法是每次从string中取长度为MAX的子串与D中的词进行匹配。若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。

3)逆向最大匹配法(Reverse Maximum Matching Method)通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,显然RMM法在切分的准确率上比MM法有很大提高。基于词典的分词算法,对于在词典中的词分词的精确度很高,但是不能很好的解决歧义问题,经常和其它分词算法结合在一起应用。

上一篇:基于python的虚拟仪器技术研究及实现
下一篇:火炮弹道参量数据库设计

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

我国风险投资的发展现状问题及对策分析

ASP.net+sqlserver企业设备管理系统设计与开发

互联网教育”变革路径研究进展【7972字】

网络语言“XX体”研究

新課改下小學语文洧效阅...

老年2型糖尿病患者运动疗...

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

安康汉江网讯

麦秸秆还田和沼液灌溉对...