8

3。1  数据抓取的准备 8

3。2  如何抓取数据 8

3。2。1 Html 代码的下载 8

3。2。2 NSoup 解析 Html 9

3。2。3  抓取的逻辑顺序 10

3。3  导入数据库 11

3。3。1  数据库表的设计 11

3。3。2 使用 EntityFramework 操作数据 12

第四章 数据可视化 14

4。1  数据还原 14

4。1。1  数据还原的目的 14

4。1。2  数据还原 14

4。1。3  搜索功能 15

4。2  个人信息分析 17

4。2。1  博主擅长领域 17

4。2。2  博主活跃期 18

4。3  整站数据分析 19

4。3。1  博主数据对比 19

4。3。2  关联信息分析 21

第五章 性能优化 23

5。1  程序的健壮性 23

5。1。1  异常处理 23

5。1。2  单元测试 24

5。2  程序运行效率 25

5。2。1  抓取网页去重 25

5。2。2  批量处理数据 26

5。2。3  数据持久化 27

结 论 28

致 谢 29

参 考 文 献 30

附 录

第一章 绪论

1。1 研究背景

数据挖掘[1]之所以在近几年颇受关注与互联网发展的阶段有关。随着网页的增多, 用户量达到一定规模,就产生了大量用户和网页应用交互的行为,这些数据实际上 非常有意义。互联网也因此形成了两条主线结构。一种是以信息为对象的,还有一 种是以人为对象。但是人与信息之间不是割裂的,而是时时刻刻交织在一起,而且 信息是通过人流动的,人也在流动的信息中构建新的关系,这催生了如 Facebook 这样类型的网站。数据挖掘被频频提及,并不是资本操作的结果,而是随着互联网 发展的进一步深化,原本被大家忽略的数据挖掘的价值逐渐凸显,例如,提高广告 投放准确性,提高网站的转化率以及用户再次购买可能性,这些都需要数据挖掘在 背后做支撑,因此这个领域逐渐被大家重视。国外数据挖掘的发展要成熟许多。比 如历史悠久的邮购业务,具备目录式用户库的国外公司,都可以进行数据挖掘。随 着互联网的出现,又自然而然过度到网络数据挖掘的阶段。 论文网

数据挖掘一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会 议上。迄今为止,由美国人工智能协会主办的数据挖掘国际研讨会已经召开了 7 次, 规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文 收录比例从 2X1 到 6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种 发现策略和技术的集成,以及多种学科之间的相互渗透。 

上一篇:无线传感器网络项目(温室)
下一篇:事件驱动的网络控制系统采样机制和应用

基于消费者个性特征的化...

银行行办公信息服务系统【1544字】

论信息技术茬外语教學中的應用【3270字】

计算机信息管理茬第三方...

电子商务中信息不對称问题研究【2365字】

用友NC信息系统的实施應用实践研究【3307字】

网络信息安全技术管理的...

麦秸秆还田和沼液灌溉对...

LiMn1-xFexPO4正极材料合成及充放电性能研究

网络语言“XX体”研究

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】

张洁小说《无字》中的女性意识

我国风险投资的发展现状问题及对策分析

安康汉江网讯

新課改下小學语文洧效阅...

ASP.net+sqlserver企业设备管理系统设计与开发