2.5 基于Hownet的应用
虽然Hownet作者声明Hownet并不是一部义类词典,但Hownet中所定义的关系都是基于语义定义的,从语言学的角度,Hownet也可认为是语义研究的成果[23]。
迄今为止,出现了不少基于Hownet的研究,如香港科技大学利用Hownet进行了汉语语料库的语义标注研究[24],台湾中央研究院进行了一些基于知网的基础研究,包括建立事件关系库、角色转换库、典型演员库和基于Hownet事件框架的中文动词句法[25];山西大学利用Hownet统计出现频率而达到词义排歧的目的[26];中国科学院计算技术研究所刘群、李素建进行了基于Hownet的词汇语义相似度计算[27]等等
 3情感词典的构建
本文的基础情感词是以Hownet中的词语为基础的,将词句收集到SQLSERVER数据库中。
3.1 Hownet中情感词的转换
3.1.1 Hownet情感词简介
在知网中把情感词分为程度级别词语、负面评价词语、正面评价词语、负面情感词语、正面情感词语和主张词语这五种。本文从中进行分析提取相关情感词语,见图3.1。
 图3.1  Hownet中情感词分类
3.1.2 生僻字处理
首先对Hownet中的词进行手工的筛选,找出那些生活中很不常见的字、词语,获得生僻字表,加以区别。通过挑选获得下面110个生僻的字词,加以去除,获得基础情感词。在数据库中构建表spc来存储生僻字。生僻字词如下:嬖、惼、忭、忭跃、傧、孛、不胜欣忭、黪、唱喏、憷、瘅、谠、忉、犯憷、棼、哿、哏、瞽、闳、蕻、會、惛、溷浊 、恝置、谫陋、艽、徼、徼幸、劼、廑、苴、窭、狷、狷介、剀、噲、獪、酹、裣衽、懔、癃、劢、颟顸、媢、媢嫉、瞀、勐、眄、愍、狃、恧、排揎、盘陁、 裒、跂望、佥同、慊、硗、硗薄、硗瘠、愀、劬、阒、阒寂、阒然、牣、毵毵 、埽、剡、赏赉、梼昧、讆、杌、芴、傒倖、睎、葸、忺、向隅、婞、婞直、忷、恟、絮烦、儇、迓、 弇陋、窈冥、猗、嶷、悒、挹、翊戴、嫕、夤、顒、雩、窳、窳败、窳惰、窳劣、饫、詟、忮、锺、颛、颛蒙、醊、迍邅、崒。将其余的词存储到表shiyan中。
3.1.3 基础情感词和修饰词的获取
本文所构建的情感词典的目的主要是为对网上评论进行情感性判断而构建的词库,所以将网上获取的词称为评论词,将评论词分为3部分:基础情感词、修饰词、评论对象。例如这个评论“屏幕比较模糊”,可以将其分为:基础情感词“模糊”、递进修饰词“比较”、评论对象“屏幕”。根据这种分词原则,将已获取的基础情感词进行处理。将基础情感词进行进一步的精简,获得最基础的情感词。处理采用手工处理的方法,手工挑出可以再分的情感词如:“关怀备至”、“不待见”、“非常悲哀”、“过分操心”、“极度悲哀”、“痛恨”、“发育完全”、“高强度”、“毫不动摇”、“极好”、“极其流行”、“绝好”、“颇为重要”、“十分重要”、“无比幸福”等,将上述的词语进行分割,获取基础情感词如“关怀”、“待见”、“悲哀”、“操心”、“悲哀”、“恨”、“发育”、 “动摇”、“好”、“流行”、 “好”、“重要”、“重要”、“幸福”等,获取修饰词如“备至”、“不”、“非常”、“过分”、“极度”、“痛”、“完全”、“毫不”、“极”、“极其”、“绝”、“颇为”、“十分”、“无比”等。
上一篇:VoIP模拟手机系统的常用功能网络电话设计
下一篇:java职业规划面对面网络预约平台的设计与实现

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

医院财务风险因素分析及管理措施【2367字】

公寓空调设计任务书

国内外图像分割技术研究现状

10万元能开儿童乐园吗,我...

中国学术生态细节考察《...

志愿者活动的调查问卷表

AT89C52单片机的超声波测距...

承德市事业单位档案管理...

C#学校科研管理系统的设计

神经外科重症监护病房患...