中国科学院计算机技术研究所的中文分词技术以多层隐马尔可夫模型的汉语词法分析系统ICTCLAS为基础,包括分词、词性标注、命名实体识别和新词识别功能,目前已有ICTCLAS3.0版本,可能是当前最好的汉语词法分析器。

总的来说,还是没有一个系统权威性的分词系统出现,致使中文信息处理遭遇瓶颈[5]。国外的信息处理技术的借鉴也要在对文本进行分词之后。中文是一种相当复杂的语言,对于同一篇文本,不同的人有不同的分词方法。即便是同一个人在不同的时间对同一篇文本的分割也不尽相同。中文表达的复杂性是分词的主要困难,中文中几乎所有的单个的字可以当作词使用,同时它们也可以和其他的字一起组成复合词。复合词在现代中文信息中占有相当重要的地位,很多时候我们很难区分低频复合词是单个的字还是一个词语。词典也不可能涵盖所有的低频复合词。同样的意思可能有很多不同的表达方式,固定的短语、俗语只要稍稍改变词语的位置语义就有可能会发生很大的变化就像“鸡蛋”和“蛋鸡”,更别提还有一些特定名词。

上一篇:RFID技术国内外研究现状概况和发展趋势
下一篇:图像超分辨率技术的研究现状

微课国内外研究现状和发展趋势

国内外列车旅游的发展研究现状

幼小衔接工作国外研究现...

乡村旅游业国内外发展研究现状

AD的发病机制研究现状和发展趋势

党员干部守纪律讲规矩研究现状和发展趋势

电子竞技产业国内外研究现状和发展趋势

医院财务风险因素分析及管理措施【2367字】

承德市事业单位档案管理...

公寓空调设计任务书

志愿者活动的调查问卷表

C#学校科研管理系统的设计

AT89C52单片机的超声波测距...

10万元能开儿童乐园吗,我...

神经外科重症监护病房患...

中国学术生态细节考察《...

国内外图像分割技术研究现状