基于统计机器学习命名实体识别技术研究(3)

中国人名与上下文组成新词可以分为：（1）人名与上文成词，如：“/为[何/林]”；（2）人名与下文成词，如：“[张/平]等/同学”。

3。2 地名的特点

中文地名不仅数量大，无法完全统计。除此之外，地名也没有确切的定义，通常意义上的地名主要指区域划分的词，而自然景观名、建筑名等也可归属为地名的概念中。

地名的主要特点有以下几个：

（1）用词较为分散，但部分地名的结尾词为特征词，如：“镇”、“乡”、“路”、海”。

（2）一些单字汉字经常在地名中出现，如：“会/昌/县”、“昌/平/区”中都出现了“昌” 字。

（3）地名中存在着多字成词的现象，如：“牡丹/县”。

（4）地名存在着嵌套简单地名和人名的情况。如：“汉口/火车站”（嵌套地名）、“周恩来/纪念馆”（嵌套人名）。

（5）地名经常接连出现。如：“安徽庐江县陈埠乡”。

3。3 机构名的特点

机构名泛指机关、团体或者其他企事业单位，包括政府、集团、公司、学校等名称[20]。中文机构名与中文地名同样，数量很大，而且比起地名，其更新频率更快，更加难以统计。与人名识别和地名识别相比，尤为困难。

机构名的主要特点有以下几个：

（1）构成方式复杂，没有固定的模式。而且种类很多，各类机构在命名时的用词也各不相同。

（2）机构名大量嵌套地名，甚至有时会嵌套另一个机构名。如：“济南军区”（嵌套地名）。

（3）机构名长度边界难以确定，长度变化范围极大，而且机构名存在着简称与全称的区别。较短的机构名如“心协”“美联储”，较长的机构名如“乌鲁木齐石油化工总厂警卫中队”。

（4）中文机构名用词非常广泛。如 1998 年 1 月人民日报语料中的 10 817 个机构名中含文献综述

有的 19986 个词，经统计，这些词按词性类型分共计 27 种，其中名词最多（9941 个），地

名其次（5 023 个）[20]。

4 隐马尔可夫模型

4。1 概述

隐马尔可夫模型是一个统计模型，是用来描述含有隐藏状态的马尔可夫过程的。一个隐马尔可夫模型包含两层：一层是可观察层，指的是能够直接观察看到的序列；一层是隐藏层，指的是不可见的状态序列。

一阶的隐马尔可夫模型的成立有以下两个前提：

一是由 t 时刻的状态qt 变化为 t+1 时刻的状态qt 1 ，其概率只与状态qt 有关，而与其他任意时刻的状态都无关。

二是 t 时刻的隐含状态表现为观测值ot ，其概率只与 t 时刻的状态qt 有关，而与其他任意时刻的状态都无关。

4。2 组成

隐马尔可夫模型是一个五元组, S 表示隐含状态集，是模型中实际所含有的隐藏状态，一般情况下是不可见的；O 表示可观测状态集，每个状态都与 S 中的状态相联系，在研究的问题中一般是可见的；Π 表示初始状态概率矩阵，指的是 S 中的每个状态在初始条件（初始条件随研究问题不同而不同）下的

概率所组成的矩阵；A 表示隐含状态转移概率矩阵，指的是 S 中的状态si ，在下一时刻变化为状态sj 的概率所组成的矩阵；B 表示观测状态输出概率矩阵，指的是某个时刻，已知其隐含状态qt 为sj ，其所对应的观测值ot 表现为v k 的概率所组成的矩阵。来`自+优-尔^论:文,网www.youerw.com +QQ752018766-

上一篇：多目标优化遗传算法NSGA-II的研究与实现

下一篇：FKP基于局部梯度直方图的指关节纹识别

基于统计机器学习命名实体识别技术研究(3)

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

浅析机器學习的通信网络...

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

LiMn1-xFexPO4正极材料合成及充放电性能研究

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

张洁小说《无字》中的女性意识

安康汉江网讯

我国风险投资的发展现状问题及对策分析

互联网教育”变革路径研究进展【7972字】

ASP.net+sqlserver企业设备管理系统设计与开发