R 语言的前身是 S 语言,S 语言诞生于贝尔实验室统计研究部,在早期被认为是世界上 公认的三大统计软件之一。R 语言是吸取了 Scheme 语言和 S 语言的诸多优点,可认为是 S 语言的改进。R 语言具有完美的数据处理功能,能实现大部分统计功能,同时配备完善的操 作环境和强大的绘图功能。R 语言可以独立完成数据科学工作中的几乎所有任务,而且可以 完美配其他工具进行数据交互。总的来说,R 语言具有如下优点:
强大的数据分析功能:R 语言的函数大部分以拓展包的性质存在,全世界优秀的统计学 家,生物信息学家和程序员等都为 R 语言编写了大量的 R 包来丰富其功能。这些拓展包涵盖 了几乎所有与统计相关的方方面面,金融、社科、生物等学科都有涉及,同时也不断优化 R 语言中的计算模型,为用户提供了极大的方便。
编程操作简单:R 语言的上手极为简单,入门简易。R 作为一种解释性的高级语言,不 需要用户掌握复杂的编程技巧和算法,其程序的编写简易,用户仅仅需要了解一些函数的参 数和用法,不需要了解更多的程序实现的细节。用户所见即所得。
整合能力强:R 可以通过相应的接口连接各类数据库获取数据,如 Oracle、DB2、MySQL; 也能同 Java、C、C++、Python 等语言进行相互调用;R 还可以与 Web 整合部署,构成网页 应用;同时为了方便不同的统计软件比如 SAS 等可以调用 R 语言的函数和分析结果,R 提供 了 API 接口。
同时 R 还具有可重复分析,开源和免费,跨多个平台等优点,总之是一门强大易上手的 统计软件[12]。
1。6 本文的主要工作及内容安排来,自,优.尔:论;文*网www.youerw.com +QQ752018766-
本文在 Windows 系统下利用 R-3。2。5 版本,在 RSudio 环境下编写程序。数据来源于中国 空气质量在线监测分析平台。
本文将以如下六章分别论述所做工作: 第一章,绪论部分,介绍本课题的研究背景和意义、相关分析的简介、多元线性回归模
型的简介、时间序列分析简介以及 R 语言简介。
第二章,重点介绍各类相关系数,以南京市 2015 年空气质量指数数据为基础进行相关分 析,挖掘数据之间的关系。
第三章,利用数据建立多元线性回归模型,包括模型拟合、模型检验、模型诊断以及未 来数据的预测。
第四章,将时间序列分析模型应用到南京市 2015 年空气质量指数数据,对序列进行检验, 进行 ARMA 模型定阶、筛选、拟合,并对模型进行诊断,同时对短期空气质量指数进行预测。
第五章,总结与展望。