(3)通过计算余弦相似度对断路器的故障类型进行聚类和名称标准化,并对故障详细描述文本进行分类,为断路器故障信息提取提供了基础。
(4)自定义分词词库,由电力领域的专业性,普通的分词词库不足以实现分词功能,还需结合专家经验与国家文件自定义分词词库。然后基于字符串匹配的分词方法对各类型故障详细情况描述文本进行分词和语义消歧。
(5)基于词共现模型对断路器表征词与部件之间进行关联分析,并采用统计方法建立故障部件与部件之间的关联关系。
(6)采用结构图描述故障类型与表征词之间的关联关系实现断路器故障文本信息的可视化表达。
本文的章节拟初步安排如下:
1 引言
1。1 电力设备断路器故障文本特征信息提取方法研究背景
1。2 电力设备断路器故障文本特征信息提取方法研究现状分析
1。3 电力设备断路器故障文本特征信息提取方法研究框架
1。4 采用的研究手段
2 算法分析
2。1 电力设备断路器故障文本信息特点
2。2 电力设备断路器故障文本特征信息提取算法
2。3 小结
3 断路器故障信息文本挖掘算法的算例分析
3。1 断路器故障信息文本挖掘算法的算例实现
3。2 断路器故障文本挖掘算法的R语言实现
3。3 小结
4 结论
4。1 总结
4。2 展望
1。4 研究方法
本文提出一种基于文本挖掘技术提取断路器故障特征信息的方法。该方法采用向量空间模型方法将半结构化的断路器故障文本资料转化为计算机可识别的结构化信息。具体地,基于余弦相似度的计算和比较,对断路器的故障类型进行聚类和标准化,并对故障详情文本进行切分然后分类处理,最后提取各类型故障的常见表征信息;基于词共现模型和统计方法,分别建立各故障表征与断路器部件之间、以及部件与部件之间的关联关系。来-自~优+尔=论.文,网www.youerw.com +QQ752018766-
(1)通过大量的文献资料调研,断路器故障理论、文本挖掘技术三方面的国内外研究现状。
(2)通过学习和训练,开发一种基于R软件的断路器故障文本挖掘技术方法。
(3)选取合适算例加以验证,并思考可能的改进方法。