菜单
  

    采用统计方法来检测数值型属性,计算字段值的均值和标准差,考虑每个字段的置信区间来识别异常字段和记录。将数据挖掘方法引入数据清理,如聚类方法用于检测异常记录、模型方法发现不符合现有模式的异常记录、关联规则方法发现数据集中不符合具有高置信度和支持度规则的异常数据。
    (2)检测并消除近似重复记录
    即对重复记录进行清洗。消除数据集中的近似重复记录问题是目前数据清洗领域中研究最多的内容。为了从数据集中消除重复记录,首要的问题就是如何判断两条记录是否近似重复。
    (3)数据的集成
    在数据仓库应用中,数据清洗首先必须考虑数据集成,主要是将数据源中的结构和数据映射到目标结构与域中。在这方面已经开展了大量的研究工作。
    (4)特定领域的数据清洗
    不少数据清洗方案和算法都是针对特定应用问题的,只适用于较小的范围。通用的、与应用领域无关的算法和方案较少。
    近年来,国外的数据清洗技术发展得很快,从市场上存在的数据清洗软件可以看出,其中包括商业上的数据清洗软件,也有大学和研究机构开发的数据清洗软件。
    2 国内研究现状
    目前,国内对数据清洗技术的研究还处于初级阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其做一些比较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。
  1. 上一篇:SSL/TLS协议的安全技术国内外研究现状
  2. 下一篇:网络数据包分析捕获国内外研究现状
  1. 新型语文课设计国内外研究现状

  2. 私人健身教练国内外研究现状

  3. 钛基复合材料制备工艺国内外研究现状

  4. 电动护理床国内外研究现状

  5. 半导体激光器国内外研究现状

  6. 网络控制系统国内外研究现状

  7. 国内外保温板跟踪切断机...

  8. 洪泽湖常见水生经济动物资源现状的调查

  9. 松节油香精微胶囊文献综述和参考文献

  10. 慕课时代下中学信息技术课程教学改革

  11. 高校计算机辅助教学英文文献和中文翻译

  12. msp430g2553单片机高精度差分GPS技术研究

  13. 数据采集技术文献综述和参考文献

  14. 浅议电视节目主持人的策划意识

  15. 油画创作《舞台》色彩浅析

  16. 浙江省嘉兴市典型蔬菜基...

  17. 糖基化处理对大豆分离蛋白功能的影响

  

About

优尔论文网手机版...

主页:http://www.youerw.com

关闭返回