摘要统计学在数据分析中所扮演的主要角色是建立模型,并加以估计、检验。而 变量选择则是模型分析、判断中基础性工作。一个好的统计模型应该与我们所要 的目标一致,有较好的与响应变量有关的协变量。其次,在处理有异常值的数据 时我们应当考虑变量选择的稳健性,使得变量选择的结果具有相应的稳定性。在 实际的模型选择和变量处理中,我们研究的经常是多维或高维数据,不免会存在 多重共线性问题。对于这种问题,一般的最小二乘法基本失效,因此要选择一些 共线变量的处理方法。基于最小二乘法加入惩罚项的惩罚似然方法是常用方法。 考虑到稳健估计和变量选择,本文提出稳健的变量选择方法。不同于以往的稳健 方法,本文选择 logistic 权重函数,采用迭代复加权最小二乘方法来进行数据 的稳定处理。提出的方法既很好地解决变量选择的问题,又对数据中的异常值具 有良好的稳定作用。最后,通过数值模拟和实例分析来检验其效果。76146 

毕业论文关键词:稳健变量选择 权重函数 迭代复加权方法 惩罚函数 

Abstract The role of statistics is to establish a suitable model for the analysis of the data and to estimate as well as test the model,  and the variable selection is the basic work of statistical modeling。 A good statistical model should be consistent with the objectives we want to achieve, and it also should has good covariates which are associated with the dependent variable。 Secondly, when dealing with outliers, we should consider the robustness of variable selection, so that the results of variable selection have the corresponding stability。 In the actual model selection and variable processing, we often study the multi-dimensional or high-dimensional data, there will be a problem of multiple co-linear。 For this problem, the common least square methods are usually failure。 We commonly use penalized likelihood methods, that is, on the basis of the least squares to add the corresponding penalty functions。 In this paper, we combine with the method of variable selection and robust estimation to propose a robust variable selection method。 Unlike the previous robust methods, in this paper we choose logistic weight function, and use the iterative re-weighted least square method to stabilize the data。 The proposed method not only solves the problem of variable selection well, but also has a good effect on the outliers。 Finally we use numerical simulation and a example  to test the results。 

Keywords: robust variables selection, weight functions, iterative re- weighted least square method, penalty functions 

中文摘要 II 英文摘要 III 1 引言 1 

1。1 变量选择的研究及发展 1 

1。2 稳健回归模型中的变量选择  2 

1。3  研究思路和方法 3 

2  变量选择方法概述 4 

2。1  Lasso 方法 5 

2。2  Ridge 方法 6 

2。3 Elastic Net 方法  7 

2。4 Bridge 方法  8 

2。5 SCAD 惩罚方法  9 

3  稳健变量选择方法 11 

3。1 稳健惩罚估计方程 11 

3。2 权重选择 12 

3。3 算法实现 14 

3。4 数值模拟 17 

3。5   实例分析 19 

4 结论 22 参考文献 23 致谢 25 附录 26 

1    引言

1。 1  变量选择的研究和发展 

海量的数据下,一个模型中我们所选定的变量或多或少的存在着相关关系, 而这种相关关系有时对模型的变量选择造成很大影响,从而导致实际应用的失败。 寻找变量间的关系,建立合适的模型,一直是人们研究的重点。对自变量和因变 量关系进行分析的最小二乘法是应用较为普遍的方法,并在模型预测方面取得良 好的效果。当然,这种方法不可避免的出现了许多局限性。比如,当自变量较多 时或多个自变量存在共线性时,最小二乘回归将很难选择出合适的变量,以至于 得到错误的模型。信息化时代的到来,每时每刻都产生成千上万的数据,如何从 这些海量数据中获得有价值或重要的信息十分关键。一时间,如何进行合适的变 量选择成为研究热点。 

上一篇:矩阵逼近中的统计问题
下一篇:概率论在生活中的应用概率论的起源和历史发展

数学问题情境的呈现方式...

二项选择敏感性问题的抽样设计探究

C语言中的选择结构及其应用

二维连续型随机变量函数的密度计算技巧探讨

含参变量数学试题的归类探讨

多维随机变量在经济生活中的应用

随机模拟方法的独立同分...

我国风险投资的发展现状问题及对策分析

LiMn1-xFexPO4正极材料合成及充放电性能研究

张洁小说《无字》中的女性意识

ASP.net+sqlserver企业设备管理系统设计与开发

安康汉江网讯

麦秸秆还田和沼液灌溉对...

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

网络语言“XX体”研究

互联网教育”变革路径研究进展【7972字】