摘要随着互联网 Web 技术的高速发展,以慕课为代表的在线课程获得了越来越多 的关注,越来越多的教学资源由线下转移到了线上。而现今大量慕课系统的网站 使用 JavaScript 及 Ajax 技术搭建,传统网络爬虫则面临运行网页上 JavaScript 脚本及加载异步网页内容等方面的挑战。面对这些挑战,能够处理页面脚本并渲 染动态内容的爬虫应运而生。本系统通过调用浏览器接口,使用 JavaScript 和 Python 编程语言,并结合 PostgreSQL 数据库开发,能够处理采用大量前端技术 搭建的网站,并且结合任务队列和消息机制,能够实现一定程度的并行爬取。本 系统同时实现了控制台及数据可视化功能,能够对爬虫活动进行实时监控,并分 析、统计爬取的数据。 72292
该论文有图 16 幅,表 5 个,参考文献 20 篇。
毕业论文关键词:慕课论坛爬取系统 论坛爬取系统 爬取系统
Design and Implementation of A Crawling System for MOOC Forum
Abstract With the rapid development of the Web technology, the online course represented by MOOC has gained more and more attention, and more and more teaching resources have been transferred from the offline to the online。 As a large number of MOOC system websites use JavaScript and Ajax technology to be built, the traditional web crawler is facing the challenge of running the JavaScript on the web pages and loading asynchronous web content。 In face of these challenges, the crawler handling the page script and rendering the dynamic content comes into being。 The system deals with a large number of websites using front-end technologies by calling the browser interface。 It uses JavaScript and python programming language combining with the PostgreSQL for database development。 It also uses the task queue and message mechanism to achieve a certain degree of parallel crawling。 At the same time, the system can realize the function of the console and data visualization, and can monitor the crawling activities in real time and analyze the crawled data。
Key Words: Crawling System for MOOC Forum; Crawling System for Forum; Crawling System
目 录
摘 要 -- I
Abstract II
目 录 - III
图清单 -- V
表清单 -- V
变量注释表 - V
1 绪论 -- 1
1。1 课题背景及研究意义 -- 1
1。2 开发工具的选择及语言介绍 -- 1
1。3 本文主要内容及组织结构 - 1
2 需求分析 - 3
2。1 功能需求 3
2。2 性能需求 3
2。3 可行性分析 - 4
2。4 本章小结 4
3 系统总体功能模块设计 -- 5
3。1 系统功能模块的划分 -- 5
3。2 数据库设计 - 6
3。3 本章小结 7
4 系统实现过程 - 8
4。1 页面内容抽取 -- 8
4。2 任务队列与消息通信 - 12
4。3 实时数据监控 - 14
4。4 数据统计 -- 18
4。5 本章小结 -- 22
5 关键技术 23
5。1 服务器模块 23
5。2 服务器搭建 24
5。3 Chrome Extension 的创建 25
5。4 本章小结 -- 26
6 总结与展望 27
6。1 总结 27
6。2 展望 27
参考文献 28
致谢 -29
图清单
图序号 图名称