文本挖掘技术是一种将计算机编程技术和统计分析方法相结合,应用于以文本形式表达的数据集合范畴中,以进行知识发现、获取、更新的一种实用方法。近年来,在数据量成指数式发展的背景下,文本挖掘技术与大数据统计分析技术相结合,越来越成为学界研究的热点。
本文针对电力设备断路器故障文本特征信息提取的问题,着重考察了电力设备断路器发生故障的情形,利用断路器故障后产生的文本,开发了一种基于文本挖掘技术提取电力设备断路器故障特征信息的方法。具体地,采用向量空间模型方法将电网企业信息系统中断路器故障半结构化描述文本转化为计算机可识别的结构化信息;通过对断路器的故障类型计算余弦相似度,并与规定阀值常数比较,对其进行聚类和标准化;通过词典比对方法对故障详情文本进行分类,识别和提取各类型故障的表征信息;基于词共现模型和统计方法,分别建立断路器故障表征信息与部件之间、以及部件与部件之间的关联关系。最终以结构图形式实现断路器故障特征信息的计算机可视化表达。
本发明基于文本挖掘技术,提出了一整套提取断路器故障特征信息的方法。该方法适用于大型电网企业信息系统对断路器故障半结构化描述文本进行自动化与智能化分析。
1。2 研究现状分析
1。2。1 断路器故障
1。2。2 文本挖掘技术
1。3 研究内容框架
本文针对电力设备断路器故障文本特征信息提取的问题,着重考察了电力设备断路器发生故障的情形,利用断路器故障后产生的文本,开发了一种基于文本挖掘技术提取电力设备断路器故障特征信息的方法。
1。3。1 研究思路
本文提出了一种基于文本挖掘技术提取电力设备断路器故障特征信息的方法。该方法采用向量空间模型方法将电网企业信息系统中断路器故障半结构化描述文本转化为计算机可识别的结构化信息。自定义电力专业词库,设计分词算法对断路器故障文本进行分词,去噪音词;基于词典匹配的方法,对断路器故障详情文本分类,识别和提取各类型故障的表征信息;基于余弦相似度的计算和比较,对断路器的故障类型进行聚类和标准化;基于词共现和统计方法,分别建立断路器故障表征信息与部件之间、以及部件与部件之间的关联关系。最终以结构图形式实现断路器故障特征信息的计算机可视化表达。
1。3。2 研究内容
第一章为目录,主要介绍课题研究的背景和研究的意义,国内外在该方面现有研究成果及不足,提出本文所关注和待解决的问题,最后介绍本文的组织结构。
第二章首先对断路器故障信息进行文本分析以选择文本挖掘的方案,然后介绍断路器故障信息文本挖掘算法设计,这是本文文本挖掘系统的核心部分。
第三章以一个介绍断路器故障信息文本挖掘算法的算例分析与实现,通过具体的文本数据信息,验证该算法的有效性和实用性。
最后是总结和展望,主要内容为总结该算法的优点和不足,为进一步的改进工作提出一些建议。
采用有关文本挖掘技术提取电力设备断路器的故障特征信息,其特征为:文献综述
(1)以电网企业信息系统中大量的电力设备断路器故障信息描述文本为对象,采用文本挖掘相关技术分别从断路器故障类型、故障表征以及与之相关联的部件三个维度去抽取信息和发现知识规律。
(2)采用向量空间表示模型把半结构化描述文本转化为计算机可识别的结构化信息,用向量表示所有故障记录中的“故障类型”名称。