命名实体识别的方法主要有两种:一种是基于规则的方法[4],当提取的规则适用于当前 领域时,识别效果较好,但此类方法大多依赖于人工定制规则,耗费大量的时间,且系统的 移植性较差;另一种是基于统计的,此类方法是利用人工标注的语料进行训练,移植性较好, 但对语料库的依赖较大。基于统计机器学习的方法主要有:隐马尔可夫模型(Hidden Markov Model)[5~7]、最大熵模型(Maximum Entropy Models)[8]、支持向量机(Support Vector Machine) [9]、条件随机场(Conditional Random Fields)[10]等。
本文采取的是基于层叠隐马尔可夫模型的机器学习方法,该层叠模型分为四层,每层之 间互相联系,自底向上分别是人名识别层、简单地名识别层、嵌套地名识别层和机构名识别 层。底层的结果作为高层的输入。每层根据语料库中的词性标注对词语进行角色标注,在角 色标注的基础上实现隐马尔可夫模型。
本文共分为六章。其中第一章为引言部分。第二章介绍了前人工作的相关文献,中英文 标注语料、评测指标等资源。第三章概括说明了中文命名实体的特点,其中详细分析了人名、 地名、机构名各自的特点。第四章从组成、应用等方面介绍了隐马尔可夫模型的方法。第五 章详细介绍了本文采取的基于层叠隐马尔可夫模型的识别方法。第六章对实验结果进行了分 析。
2 命名实体识别研究文献和资源综述
2。1 文献综述
2。2 资源综述
2。2。1 标注语料
2。2。2 评测指标
3 中文命名实体的特点
中文命名实体具有类型多样、数量众多、构成规律复杂、嵌套情况复杂、长度不确定等 特点,相比英文命名实体的识别更加困难。
由命名实体识别的定义可知,命名实体主要有以下七类:人名、地名、机构名、时间、 日期、货币、百分比。其中后四种可以通过模式匹配的方法获得较好的识别结果,而前三类 的识别最难,也是研究的重点。
3。1 人名的特点
人名的数量众多,从整体人名来看,具有很大的随意性,而且未登录词中的大多数词都 属于人名。对《人民日报》1998 年 1 月的语料库(共计 2 305 896 字)进行统计,共计人名
19965 个,平均每 100 个字中有未登录词 1。192 个(不计数词、时间词),其中 48。6%的未登 录词是中国人名[19]。
关于人名的分类,中文中最主要的就是中国人名,此外,还含有部分日本人名和音译人 名。 论文网
中国人名识别的主要的难点在于以下三点:(1)人名构成具有多样性;(2)人名内部可 能组成新词;(3)人名与上下文可能组成新词[19]。
中国人名构成的形式主要有以下几种:(1)姓+名,如:“郎/平”、“雷/志/敏”;(2)只 有姓,如:“张”;(3)只有名,如:“杰”,“泽/秀”;(4)前缀+姓,如:“小/张”;(5)姓+ 后缀,如:“刘/伯”。
组成新词指的是在句子中,按照句子顺序,人名的部分片段本身或者与其他上下文片段 可能重新组合成存在于核心词典中的词。在进行分词时,因为这些词较为常见,使用度高, 使得人名极有可能会被错误分割。具体情况有以下几种。
中国人名内部组成新词可以分为:(1)姓与单名成词,如:“汪洋”;(2)姓与双名的首 字成词,如:“王国/维”;(3)双名本身成词,如:“刘/海军”。