中国人名与上下文组成新词可以分为:(1)人名与上文成词,如:“/为[何/林]”;(2) 人名与下文成词,如:“[张/平]等/同学”。
3。2 地名的特点
中文地名不仅数量大,无法完全统计。除此之外,地名也没有确切的定义,通常意义上 的地名主要指区域划分的词,而自然景观名、建筑名等也可归属为地名的概念中。
地名的主要特点有以下几个:
(1)用词较为分散,但部分地名的结尾词为特征词,如:“镇”、“乡”、“路”、海”。
(2)一些单字汉字经常在地名中出现,如:“会/昌/县”、“昌/平/区”中都出现了“昌” 字。
(3)地名中存在着多字成词的现象,如:“牡丹/县”。
(4)地名存在着嵌套简单地名和人名的情况。如:“汉口/火车站”(嵌套地名)、“周恩 来/纪念馆”(嵌套人名)。
(5)地名经常接连出现。如:“安徽 庐江县 陈埠乡”。
3。3 机构名的特点
机构名泛指机关、团体或者其他企事业单位,包括政府、集团、公司、学校等名称[20]。 中文机构名与中文地名同样,数量很大,而且比起地名,其更新频率更快,更加难以统计。 与人名识别和地名识别相比,尤为困难。
机构名的主要特点有以下几个:
(1)构成方式复杂,没有固定的模式。而且种类很多,各类机构在命名时的用词也各不 相同。
(2)机构名大量嵌套地名,甚至有时会嵌套另一个机构名。如:“济南军区”(嵌套地名)。
(3)机构名长度边界难以确定,长度变化范围极大,而且机构名存在着简称与全称的区 别。较短的机构名如“心协”“美联储”,较长的机构名如“乌鲁木齐石油化工总厂警卫中队”。
(4)中文机构名用词非常广泛。如 1998 年 1 月人民日报语料中的 10 817 个机构名中含文献综述
有的 19986 个词,经统计,这些词按词性类型分共计 27 种,其中名词最多(9941 个),地
名其次(5 023 个)[20]。
4 隐马尔可夫模型
4。1 概述
隐马尔可夫模型是一个统计模型,是用来描述含有隐藏状态的马尔可夫过程的。一个隐 马尔可夫模型包含两层:一层是可观察层,指的是能够直接观察看到的序列;一层是隐藏层, 指的是不可见的状态序列。
一阶的隐马尔可夫模型的成立有以下两个前提:
一是由 t 时刻的状态qt 变化为 t+1 时刻的状态qt 1 ,其概率只与状态qt 有关,而与其他任 意时刻的状态都无关。
二是 t 时刻的隐含状态表现为观测值ot ,其概率只与 t 时刻的状态qt 有关,而与其他任意 时刻的状态都无关。
4。2 组成
隐马尔可夫模型是一个五元组, S 表示隐含状态集,是模型中实际所含有的隐藏状态,一般情况下是不可见的;O 表示可 观测状态集,每个状态都与 S 中的状态相联系,在研究的问题中一般是可见的;Π 表示初始 状态概率矩阵,指的是 S 中的每个状态在初始条件(初始条件随研究问题不同而不同)下的
概率所组成的矩阵;A 表示隐含状态转移概率矩阵,指的是 S 中的状态si ,在下一时刻变化 为状态sj 的概率所组成的矩阵;B 表示观测状态输出概率矩阵,指的是某个时刻,已知其隐 含状态qt 为sj ,其所对应的观测值ot 表现为v k 的概率所组成的矩阵。 来`自+优-尔^论:文,网www.youerw.com +QQ752018766-