目录 III
图清单 III
1 综述 1
1。1 背景及意义 1
1。2 研究内容 2
1。3 相关技术介绍 4
2 基于网络爬虫技术的个性化企业信息获取方法研究 6
2。1 爬虫的简介 6
2。2 理解URL 6
2。3 通过URL抓取网页 7
2。4 网页抓取策略 8
3 HTML页面解析 10
3。1 理解HTML 10
3。2 解析方法 10
3。3 乱码问题的产生及获取 11
3。4 页面内容获取 11
4 企业公共信息抓取系统设计 14
4。1数据库设计 14
4。2 信息抓取流程 16
4。3 代码架构与分析 16
5 企业公共信息抓取系统效果与数据分析 29
5。1 信息抓取情况 29
5。2 系统效果展示与数据分析 29
总结与展望 33
参考文献 34
致 谢 36
图清单
图序号 图名称 页码
图1-1 Navicat界面 5
图2-1 爬虫示例图 6
图2-2 文件源码例子 8
图2-3 Hbzj(环保总局)文件 8
图2-4 遍历示例 9
图3-1 Html页面 11
图3-2 局部页面对应的源代码 11
图3-3 源码中的需求信息示例 12
图4-1 数据库建表信息 13
图4-2 行政处罚信息E-R图 14
图5-1 抓取的数据展示 28
图5-2 用户登录页面
29
图5-3 用户登录流程图 28
图5-4 权限管理页面
30
图5-5 新闻管理页面 30
图5-6 管理员用例图 31
图5-7 用户用例图 31
图5-8 数据分析结果