2。1。2 nutch 爬取过程 5
2。2Hadoop 简介 6
2。3solr 简介 7
2。4 本章小结 8
3 环境搭建 9
3。1 JAVA 环境安装 9
3。2 Ant 的简介与安装 10
3。3 Hadoop 集群搭建 11
3。4 nutch 环境配置 17
3。5 Solr 环境配置 18
3。6 本章小结 20
4 系统测试与分析 21
4。1 问题一 21
4。2 问题二 27
4。3 问题三 27
4。4 本章小结 30
5 分布式爬取 31
5。1 分布式爬取过程 31
5。2 本章小结 34
6 总结 35
致 谢 36
参考文献 37
图 2。1 nutch 结构图 4
图 2。2 nutch 分步抓取流程图 。 6
图 2。3 Hadoop 集群结构图 。 7
图 2。4 solr 实现原理图 8
图 3。1 JAVA_HOME 目录 10
图 3。2 java 版本显示 。 10
第 II 页 本科毕业设计说明书
图 3。3 ant 版本显示 。。 11
图 3。4 修改 hosts 文件 11
图 3。5 ssh 密钥生成 。。 12
图 3。6 无密码登录 slave 结点 12
图 3。7 core-site。xml 文件配置 。 13
图 3。8 hdfs-site。xml 文件配置 。 13
图 3。9 mapred-site。xml 文件配置 。。 14
图 3。10 yarn-site。xml 文件配置 14
图 3。11 jps 显示 master 结点工作进程 。 15
图 3。12 jps 显示 slave 结点工作进程 。。 15