1。2。1 相关性的概念
函数关系和相关关系是变量间的两种大致关系。其中函数关系可以用一具体方程或者函数 y f (x) 表达出来,用来描述某种定量的依存关系;而当这些关系无法定量衡量或者确定时,此时需要用相关关系来描述。相关分析的主要内容是探索变量的相关性,而回归的分析
的主要内容就是描述函数关系,这在后面的章节会有提及。 相关可以分为很多种,按照不同的标准可有不同的划分。按照相关程度的不同,可分为
不相关、不完全相关和完全相关;按照相关方向的不同,可分为负相关和正相关;按照相关 形式的不同,又可分为非线性相关和线性相关[7]。
1。2。2 相关性检验
当对多维数据进行相关分析并确定它们之间的相关性后,有必要对相关关系进行检验。 常用的主要有三种相关检验,它们主要是 Pearson 相关检验、Spearman 相关检验以及 Kendall 相关检验,第一个检验是针对正态数据而言的,而后面两种检验属于秩检验。下面我们主要 介绍 Pearson 检验。
设二元总体 ( X ,Y ) 的分布函数为 F (x, y) , X ,Y 的方差分别为 var( X )和var(Y ) ,协方差为
cov( X ,Y ) ,则它们的相关系数定义为
cov( X ,Y )XY
var( X ) var(Y )
设 ( X1 ,Y1 ), ( X 2 ,Y2 ),,(X n ,Yn)为取自某个二元总体 ( X ,Y ) 的独立样本,可以计算样本的
相关系数
其中 S 2 和 S 2 分别样本 X 和样本 Y 的方差, S 2 为样本 XY 的协方差。在通常情况下,就
X Y XY
算随机变量 X 与 Y 独立,由样本计算出的 rXY 也不会为零。所以,当 XY 0 ,此时用 rXY 去测 量 X 与 Y 的相关性意义不大。所以需要作假设检验
H0 : XY 0, H1XY 0论文网
当 ( X ,Y ) 为二元正态总体,且当 H 0 为真时,容易证明下面统计量
服从自由度为 n 2 的 t 分布[8]。
因而利用统计量 t 服从自由度为 n 2 的 t 分布的性质,可以对数据 X 与 Y 的相关性进行检 验。Spearman 相关检验和 Kendall 相关检验针对的是不同的数据类型和分布,所采用的方法 也不一样,有兴趣的读者可自行翻阅资料了解。
1。3 回归分析模型的简单介绍
客观事物之间的统计关系是回归分析研究的主要研究对象。回归分析方法是通过研究变 量间某种确定性的关系由此来建立数学模型,并利用模型进行预测的一种有效的工具。如果 从 19 世纪初高斯提出最小二乘算法起,回归分析的历史已有 200 多年[9]。
1。3。1 多元线性回归模型的一般形式
线性回归模型的一般形式如下:
y 0 1 x1 2 x2 p xp
式中,0 称为回归常数,0 ,1 ,2 ,p 是 p 1 个未知参数,0 ,1 ,2 ,p 称为回归系 数。 y 为因变量也称作响应变量, x1 , x2 ,, xp 是自变量也即解释变量。当 p 1时,模型就是 一元线性回归模型,当 p 2 时,模型就是多元线性回归模型。其中是随机误差,对随机误
差项有如下假定
对一个实际问题,如果我们获得 n 组观测数据 (xi1 , xi 2 ,, xip ; yi ) ,则线性回归模型可表为
y1 0 1 x11 2 x12 p x1 p 1