菜单
  
    Web日志挖掘来源于互联网的快速发展,其含义就是通过挖掘web日志记录以发现用户访问web页面的模式、挖掘有用模式和预测用户浏览行为的技术。目前关于web日志研究的主要流程包括下面几步:26382
    (1)预处理过程:企业服务器上的web日志中,记录了用户的每一次点击访问,有的是真实且有用的,有的却是虚假且错误的,比并且各个服务器上存储的web日志的内容格式也是千差万别。这些就要求我们在对这些日志文件加以解读和分析利用前,必须要先对它们进行处理,已消除其中数据的无效性、不规则性以及不完整性。这是一个较为细致的过程,其中包括数据清理、用户识别、会话识别、路径的补充以及会话拆分[7]等过程。论文网
    (2)序列模式识别[8]:其本质主要是找到用户在访问网站的过程中,群体选择的较长且较为频繁的序列。首先是通过MF算法(Maximal Forward References)来消除用户在访问网站过程中因为后退而产生的影响,从而得到最大的向前引用集。接着利用Chen等人提出的FS(Full Scan)和SS(Selective Scan)两种算法,从上步中的引用集里面找到频繁出现的引用序列。最后从大引用序列中确定“最大引用序列”[9](Maximal Reference Sequences),找出没有包含在其他任何大引用序列中的大引用序列即可,也就是频繁中的最大的引用序列。
    (3)序列模式分析[10]:针对得到的用户的访问序列模式,就可以就此展开相应的后续工作。例如,改善网站的组织结构,增删网站链接的位置,按照大多数访问者的浏览行为习惯对网站加以重组等。
  1. 上一篇:大数据处理国内外研究现状
  2. 下一篇:网络舆情国内外研究现状
  1. 新型语文课设计国内外研究现状

  2. 显著性检测的研究现状

  3. 关于维生素E的研究现状

  4. 关于环糊精的研究现状

  5. 国内外磨损研究的现状

  6. 国内外关于焊点可靠性研究现状

  7. 船舶碰撞研究现状及方法

  8. 浙江省嘉兴市典型蔬菜基...

  9. 洪泽湖常见水生经济动物资源现状的调查

  10. 数据采集技术文献综述和参考文献

  11. 油画创作《舞台》色彩浅析

  12. 浅议电视节目主持人的策划意识

  13. 慕课时代下中学信息技术课程教学改革

  14. 高校计算机辅助教学英文文献和中文翻译

  15. 松节油香精微胶囊文献综述和参考文献

  16. 糖基化处理对大豆分离蛋白功能的影响

  17. msp430g2553单片机高精度差分GPS技术研究

  

About

优尔论文网手机版...

主页:http://www.youerw.com

关闭返回