基于统计机器学习命名实体识别技术研究(2)

命名实体识别的方法主要有两种：一种是基于规则的方法[4]，当提取的规则适用于当前领域时，识别效果较好，但此类方法大多依赖于人工定制规则，耗费大量的时间，且系统的移植性较差；另一种是基于统计的，此类方法是利用人工标注的语料进行训练，移植性较好，但对语料库的依赖较大。基于统计机器学习的方法主要有：隐马尔可夫模型（Hidden Markov Model）[5~7]、最大熵模型（Maximum Entropy Models）[8]、支持向量机（Support Vector Machine） [9]、条件随机场（Conditional Random Fields）[10]等。

本文采取的是基于层叠隐马尔可夫模型的机器学习方法，该层叠模型分为四层，每层之间互相联系，自底向上分别是人名识别层、简单地名识别层、嵌套地名识别层和机构名识别层。底层的结果作为高层的输入。每层根据语料库中的词性标注对词语进行角色标注，在角色标注的基础上实现隐马尔可夫模型。

本文共分为六章。其中第一章为引言部分。第二章介绍了前人工作的相关文献，中英文标注语料、评测指标等资源。第三章概括说明了中文命名实体的特点，其中详细分析了人名、地名、机构名各自的特点。第四章从组成、应用等方面介绍了隐马尔可夫模型的方法。第五章详细介绍了本文采取的基于层叠隐马尔可夫模型的识别方法。第六章对实验结果进行了分析。

2 命名实体识别研究文献和资源综述

2。1 文献综述

2。2 资源综述

2。2。1 标注语料

2。2。2 评测指标

3 中文命名实体的特点

中文命名实体具有类型多样、数量众多、构成规律复杂、嵌套情况复杂、长度不确定等特点，相比英文命名实体的识别更加困难。

由命名实体识别的定义可知，命名实体主要有以下七类：人名、地名、机构名、时间、日期、货币、百分比。其中后四种可以通过模式匹配的方法获得较好的识别结果，而前三类的识别最难，也是研究的重点。

3。1 人名的特点

人名的数量众多，从整体人名来看，具有很大的随意性，而且未登录词中的大多数词都属于人名。对《人民日报》1998 年 1 月的语料库（共计 2 305 896 字）进行统计，共计人名

19965 个，平均每 100 个字中有未登录词 1。192 个（不计数词、时间词），其中 48。6%的未登录词是中国人名[19]。

关于人名的分类，中文中最主要的就是中国人名，此外，还含有部分日本人名和音译人名。论文网

中国人名识别的主要的难点在于以下三点：（1）人名构成具有多样性；（2）人名内部可能组成新词；（3）人名与上下文可能组成新词[19]。

中国人名构成的形式主要有以下几种：（1）姓+名，如：“郎/平”、“雷/志/敏”；（2）只有姓，如：“张”；（3）只有名，如：“杰”，“泽/秀”；（4）前缀+姓，如：“小/张”；（5）姓+ 后缀，如：“刘/伯”。

组成新词指的是在句子中，按照句子顺序，人名的部分片段本身或者与其他上下文片段可能重新组合成存在于核心词典中的词。在进行分词时，因为这些词较为常见，使用度高，使得人名极有可能会被错误分割。具体情况有以下几种。

中国人名内部组成新词可以分为：（1）姓与单名成词，如：“汪洋”；（2）姓与双名的首字成词，如：“王国/维”；（3）双名本身成词，如：“刘/海军”。

上一篇：多目标优化遗传算法NSGA-II的研究与实现

下一篇：FKP基于局部梯度直方图的指关节纹识别

基于统计机器学习命名实体识别技术研究(2)

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

浅析机器學习的通信网络...

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

LiMn1-xFexPO4正极材料合成及充放电性能研究

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

张洁小说《无字》中的女性意识

安康汉江网讯

我国风险投资的发展现状问题及对策分析

互联网教育”变革路径研究进展【7972字】

ASP.net+sqlserver企业设备管理系统设计与开发