云南省财政收入影响因素分析
[DOI]1013939/jcnkizgsc201719047
1引言
十八届三中全会提出,财政是国家治理的基础和重要支柱,科学的财税体制是优化资源配置。维护市场统一。促进社会公平。实现国家长治久安的制度保障。财政收入不仅是衡量政论文网府财力的指标,而且是政府履行公共职能的资金来源。1994年开始实行分税制财政管理制度,地方政府可以因地制宜。因时制宜地决定立法。开征。停征。减税。免税,确定税率和征收范围。因此,地方财政收入的影响因素不尽相同,研究不同地域的财政收入影响因素是促进各地方经济长期平稳的增长的基础。
对于现阶段已有的财政收入影响因素的研究,学者们从不同的角度出发,研究出了很多丰富的成果。杨蕾(2012)[1]通过逐步回归方法得出税收高增长的主要影响因素有财政支出总额。货物进出口总额以及零售商品价格指数;张恩铨(2015)[2]通过回归分析得到影响新疆地区财政收入的主要因素为税收和固定资产投资;余力(2015)[3]在模型自变量中加入人口自然增长率,运用多元统计分析方法确定影响中国财政收入的主要因素有GDP。税收和人口自然增长率;阚跃(2013)[4]通过建立降维后的主成分与江苏省财政收入之间的线性模型,得到重要的影响因素是工业总产值和进出口总额;何邓娇(2014)[5]应用VAR模型分析出影响广州市财政收入的主要因素是GDP和税收收入。
以上文章均是通过分析财政收入的经济理论或者总结已有研究并结合地区实际情况来选取4~5个变量,然后构建财政收入与各待定影响因素间的多元线性回归模型,确定显著变量作为财政收入的主要影响因素。[6]第一,在通过理论或文献选取模型变量的时候,可能存在学者的主观影响和考虑不全面的情况,如果变量选择得太少。不恰当或者是加入了对财政收入影响很小甚至是没有影响的变量,会使得构建的回归模型效果不好或者计算量大且估计精度降低,对实际政策的制定也没有指导意义了。第二,多元线性回归模型是通过普通最小二乘方法来估计回归系数,而普通最小二乘估计求得的解往往是局部最优解。[6]第三,对于财政收入与各待定影响因素间的多元线性回归模型,可能存在多重共线性的问题,而用逐步回归方法来解决多重共线性问题时去掉一些变量后也会失去部分数据信息,必定会使模型的预测精度受损。[7]因此,需要找到一种更加科学。更加客观的变量选择模型。
针对以上方法的缺陷,Tibshirani(1996)[8]提出了一种全新的变量选择方法―Lasso方法,其思想是在最小二乘方法的基础上,增加了L1惩罚项,这样就同时实现了变量筛选和参数估计;Efron(2004)[9]提出了最小角回归算法,解决了Lasso方法的计算问题;Lasso方法的优势在于计算过程是有顺序且连续的且能处理变量间的多重共线性问题,劣势在于对所有的变量施加相同的惩罚,估计量是有偏的,不满足Oracle性质(变量选择的稀疏性。连续性和无偏性)。为了弥补Lasso方法的缺陷,Zou(2006)[10]提出了适应性Lasso(AdaptiveLasso)方法,即加入了惩罚权重;Fan和Li(2011)[11]针对Lasso过程中系数过度压缩的问题提出了SCAD(smoothlyclippedabsolutedeviation)惩罚方法。
从理论上来说,AdaptiveLasso方法和SCAD方法是相??较科学的变量选择方法,且均满足Oracle性质。本文云南省1994―2015年的相关统计数据,在模型中加入所有可能的影响因素作为解释变量,运用SCAD方法选择出云南省财政收入的主要影响因素,并与逐步回归方法的结果进行对比。
2研究方法介绍
21逐步回归方法简介
逐步回归方法的主要目的是在自变量很多时,选取一个自变量的子集,使得最终的模型既简单且对样本数据的拟合较好。[7]其方法为逐步放入和移出变量,直到没有合适的理由继续下去为止,有向前“向后“和双向“的逐步回归选项。向前逐步回归是从只有截距项的模型开始,逐个增加变量;向后逐步回归是从具有全部自变量的模型开始,逐个减少变量;双向逐步回归是不断增减变量。各软件的默认方法不同,准则也不同,有些软件根据自变量的t检验的p值来决定是否取舍,有些软件则使用AIC准则来决定。本文使用R软件中的step()函数,其默认值为双向“及利用AIC准则来选择模型。
22Lasso族方法简介
3数据来源。经济指标选择及说明
31数据来源说明
由于1994年开始实行分税制财政管理制度,因此,本文以1994―2015年为样本区间,选取云南省统计年鉴和中国统计年鉴中的相关经济指标数据作为研究对象。
32经济指标选择
早期的研究主要停留在财政收入与国内生产总值(GDP)的关系研究上,但是从实际数据来看,云南省财政收入的增长速度波动很大,其与云南省GDP的增长速度变化并不是完全同步的。在2005年前后,云南省财政收入的增长速度是先上升后下降的趋势,而云南省GDP增长速度是先下降后上升。因此,仅仅将GDP作为财政收入的主要影响因素是不符合实际的。如图1所示。文章科学。客观的原则来选择构建模型的变量。被解释变量为云南省财政收入(Y,单位:亿元),即一般预算财政收入,包括税收收入和纳入一般预算管理的非税收收入。在对现有的研究和相关理论分析的基础上,本文选取的解释变量尽可能包括所有对云南省财政收入有影响的统计指标,具体有:GDP。税收收入。财政支出。固定资产投资额。社会消费品零售总额。进出口总额。年末总人口。人口自然增长率。社会就业人数。居民消费价格指数。在岗职工工资总额。第一产业增加值。第二产业增加值。第三产业增加值。卷烟产值。旅游业总收入。煤炭消费总量。
33经济指标说明
331经济指标选择的依据
GDP(X1):国内生产总值,表示经济发展水平,对地方财政收入有影响。单位:亿元。
税收收入(X2):是地方财政收入的重要来源。单位:亿元。
财政支出(X3):能带动地方经济增长,而地方财政收入离不开经济增长。[2]单位:亿元。
固定资产投资额(X4):政府主要通过投资来拉动经济增长,从而带动财政收入增加。[2]单位:亿元。
社会消费品零售总额(X5):代表社会的整体消费情况,消费增长时,会引起经济系统中某些方面的变动,最终导致财政收入的增长。[6]单位:亿元。
进出口总额(X6):该因素带来的影响主要是来自关税收入,其是政府税收的重要组成部分,从而影响财政收入。[1]单位:亿元。
年末总人口(X7):在地方经济发展水平既定的条件下,人均地方财政收入与地方人口总数呈反比例变化。[6]单位:万人。
人口自然增长率(X8):据统计,越是落后的地区,人口自然增长率越高,越是阻碍社会经济的发展,从而影响财政收入。[6]云南省位于西南地区,属于欠发达地区,因此,需要考虑人口自然增长率对财政收入的影响。单位:‰。
社会就业人数(X9):社会就业人数越多,地方经济发展水平越高,从而促进地方财政收入增加。单位:万人。
居民消费价格指数(X10):英文?s写为CPI,是根据与居民生活有关的产品及劳务价格统计出来的物价变动指标。由于价格变动是财政收入变化的影响因素之一,因此选取居民消费价格指数作为模型变量。[12]
在岗职工工资总额(X11):指某一国家或地区在一定时期内,以货币或实物形式直接支付给全部在岗职工的劳动报酬总额。在岗职工工资总额中的一部分会作为税收,组成财政收入的一部分。单位:亿元。
第一。二。三产业增加值(X12。X13。X14):三次产业的增加值都代表着国民经济水平,产业结构的变化会对财政收入产生影响。单位:亿元。
卷烟产值。旅游业总收入。煤炭消费总量(X15。X16。X17):卷烟。旅游。矿产作为云南省特有的支柱产业,是政府税收收入的主要来源,对财政收入有一定的影响。[13]旅游业总收入单位为:亿元。煤炭消费总量单位为:万吨标准煤。
332特殊经济指标的计算
根据有关规定,卷烟实行从价。从量双重征税标准,即对卷烟征税既与卷烟的产量有关,又与卷烟的产值有关。但在云南省统计年鉴上只有卷烟的产量,没有具体产值。因此,本文中卷烟产值的计算公式为:卷烟产值=产量×商品零售价格总指数。同时,为了数据的统一,保证数值的可比性,把商品零售价格总指数均换算为以1994年为基期。[13]
煤炭征收从量税,且以实际的销售数量和自用数量为征税依据,不是指生产数量,故选取煤炭消费总量为计税依据。[13]结合云南省统计年鉴中数据的可得性,煤炭消费总量计算公式为:煤炭消费总量=能源消费总量×煤炭所占比例。
4模型建立
41多重共线性检验
411经济指标间的相关性检验
在实践中,若某些解释变量间的相关系数高(绝对值高于08或09),则表明多重共线性存在。多重共线性的存在,可能导致各共线变量参数的OLS估计值方差很大,即估计值的精度很低;由于若干个解释变量共线,则单个解释变量对被解释变量的影响无法确定;各共线变量系数估计量的t值低,使得犯第(2)类错误的可能性增加,容易将本应保留在模型中的解释变量舍弃。[15]
图2各变量的相关系数矩阵
注:矩阵图左下半部分表示各变量间的相关系数;右上半部分图示表示变量间的相关性及t检验的P值,其中,ד表示P值大于005,○“的形状和颜色表示参数间相关性的大小,下同。
由图2可知,除了居民消费价格指数(X10)外,其他解释变量间的相关性t检验的P值均小于005。说明在5百分号的显著性水平下,除居民消费价格指数外,其余解释变量间存在显著相关关系。此外,其余解释变量间相关系数绝对值绝大多数大于08,表明可能存在多重共线性。
412多重共线性检验
通过R软件中的kappa()函数可以得到条件数k为224×105,远远大于1000,则模型存在严重的多重共线性。因此,不能通过建立简单的多元回归模型进行财政收入影响因素分析。常用的处理多重共线性问题的经典方法有:逐步回归。岭回归。Lasso回归等。[7]
42模型分析
421指标及数据处理
各经济指标单位不尽相同,为了消除不同变量间由量纲差异带来的影响,对数据进行中心化和标准化处理。由图2所示,居民消费价格指数(X10)与财政收入(Y)的相关性不显著,在后续建模分析中不考虑该经济指标。
422变量选择结果对比
本文采用逐步回归方法和SCAD方法分别对可能对云南省财政收入有影响的经济指标进行变量选择,筛选出对财政收入影响较大的经济指标,所得经济指标的系数估计值如表1所示:
由表1可知,运用逐步回归方法和SCAD方法筛选对财政收入影响较大的经济指标的结果有很大差异。SCAD方法回归系数随相应调整参数变化的轨迹图如图3所示。样本数据经过标准化处理后,逐步回归法和SCAD方法(满足Oracle性质:变量选择的稀疏性。连续性和无偏性)均可通过系数估计值的绝对值大小对重要参数进行排序。逐步回归方法下,选择的显著性经济指标按重要性排序为:第三产业增加值(X14)。税收收入(X2)。社会消费品零售总额(X5)。第二产业增加值(X13)。固定资产投资额(X4)。人口自然增长率(X8);SCAD方法选择的经济指标按重要性排序为:财政支出(X3)。进出口总额(X6)。旅游业总收入(X16)。卷烟产值(X15)。年末总人口(X7)。423模型预测精度对比
针对两种模型结果差异较大的情况,分别运用10折交叉验证方法比较模型的预测精度。将数据观测值大致分为10等份,然后轮流以其中的所有可能的9份为训练集,用来拟合数据,剩下1份为测试集,一共计算10次,得到拟合测试集时的均方误差(NMSE)的10个指标,再做平均。两种模型的均方误差值见表2。
表2说明在对财政收入的影响因素进行研究时,对于存在多重共线性的情况,SCAD方法的预测精度明显优于逐步回归法。
424SCAD方法变量选择结果分析
由模型结果可知,SCAD方法选择的经济指标按重要性排序为:财政支出。进出口总额。旅游业总收入。卷烟产值。年末总人口。云南省属于欠发达区域,投资是政府财政支出的重要部分,通过投资拉动地区经济增长和居民消费,同时使政府增加税收来源,从而增加财政收入;进出口总额与云南省财政收入呈正相关,进出口总额的增加会带来财政收入的增加;旅游业和卷烟作为云南省特有的支柱产业,对财政收入具有正向影响;云南省年末总人口对财政收入产生正向影响。
5结论
文章1994年至2015年的宏观经济数据,运用逐步回归方法。SCAD方法分别对影响云南省财政收入的经济指标进行建模分析,结果如下:①由10折交叉验证的均方误差值可知,SCAD方法的预测精度优于逐步回归方法;②在处理多重共线性的问题时,SCAD方法比逐步回归更有优势;③在SCAD方法下,对云南省财政收入有影响的经济指标有:财政支出。进出口?额。旅游业总收入。卷烟产值。年末总人口。
云南省财政收入影响因素分析