y2 0 2 x21 2 x22 p x2 p 2
1。3。2 多元线性回归模型的基本假定
为了方便参数估计,回归模型有一些基本的假定。
第一,解释变量 x1 , x2 ,, xp 是确定性变量,同时样本量的个数应大于解释变量的个数。 第二,随机误差项具有零均值和等方差,即
这个假定称为高斯—马尔科夫条件。其中 E(i ) 0 ,表示观测值没有系统误差,且随机 误差项i 的平均值是零。而随机误差项i 的协方差为零,表明不同样本点的随机误差项是不 相关的,也即序列不相关。
第三,就是正态分布的假定条件为:n相互独立
这些假定可以用来对拟合好的模型进行诊断,以此来判断模型拟合的好坏。
1。4 时间序列分析模型的简单介绍
时间序列顾名思义就是一系列按照特定时间间隔所生成的数据。时间序列分析方法是基 于数理统计学方法和随机过程理论的分析方法,用于探索随机数据序列中所蕴含的统计规律, 最终应用于解决现实问题。时间序列分析的内容包括统计模型的建立与推断,如自相关分析、 谱分析等统计方法以及关于时间序列的最优预测、控制与滤波等内容。
一个时间序列通常由四种要素组成:趋势、季节变动、循环波动和不规则波动。只含有 随机波动的序列也称为平稳序列[10]。
时间序列分析经历了一个很长的历史,早期主要是通过直观地比较数据或者绘图分析也 就是常说的描述性时序分析,到后来随着各个科学领域的深入发展,学者们发现很难预测随 机变量的趋势,因为它们具有很强的随机性以至于难以把握其规律。所以为了准确的预测出 时间序列的变化规律,学术界在大约从上世纪初开始,就尝试使用数理统计学原理来对时间 序列进行分析。
时域分析方法和频域分析方法是时间序列分析主要的两类方法。其中频域分析方法主要 应用富里埃分析将时间序列分解为不同频率的周期波动,之后也凭借与许多前沿数学方法的 应用结合得到了飞速发展。如今谱分析主要应用于电力工程、信息工程、天文学等领域,对 研究人员有较强的数学要求。时域分析法主要是从序列自相关方向去研究时间序列的发展。 其基本思想是事件的发展具有惯性,用统计语言来说就是事件之间存在相关性,可以用统计 规律从来描述,并使用合适的数学模型来拟合。时域分析方法的历史从 1927 年开始,英国统 计学家 G。U。Yule 提出自回归(autoregressive,AR)模型。之后英国数学家 G。T。Walker 爵士提
出了移动平均(moving average,MA)模型和自回归移动平均(autoregressive moving average, ARMA)模型,这些模型奠定了时间序列时域分析方法的基础[11]。
由于 ARMA 是最常用的基本时间序列分析模型,因此我们来主要介绍一下这个模型。时 间序列的定义如下,在统计研究中,一组随机变量 X1 , X 2 ,Xt ,若是按时间顺序排列的, 那么这组随机变量通常就可以表示为随机事件的时间序列,简记为{Xt , t T} 或{Xt } 。用
x1 , x2 ,, xn 表示随机序列的 n 个有序观察值。自回归移动平均模型,即 ARMA( p, q) 模型具有
一下形式
即要求模型过去的序列值与当期的随机干扰项无关,并且随机干扰序列{t } 为零均值白 噪声序列。同时可以看出 AR( p) 模型和 MA(q) 模型实际上是 ARMA( p, q) 模型的特例,也都称 作是 ARMA 模型。文献综述
1。5 R 语言的简单介绍
R 语言是一门统计语言,它是一个非常灵活的平台,专注于探索、展示和理解数据的语 言,拥有众多的分析和绘图函数,是数据分析的不二选择。