摘要在概率论与数理统计和多元统计分析等课程的基础上,本课题主要研究在随机变量的分布未知的条件下,利用样本数据对其概率密度函数进行估计的问题。本文重点介绍了几种常用的非参数密度估计方法,有直方图密度估计、核密度估计、k-近邻估计等,以及用均方误最小化选择最优带宽的原则。在此基础上,引入灯泡样本的使用寿命作为实际数据,对这一变量进行概率密度估计,并用Matlab把估计图形展示出来。经实例验证,直方图密度估计结果不够光滑且收敛慢,k-近邻估计更适用于分类问题,而核密度估计解决了直方图法面临的问题,结果更理想。最后对二文情形做了简单的讨论,并对一组二文数据进行估计。32967
关键字 非参数密度估计 带宽 直方图密度估计 核密度估计 k-近邻估计 毕业论文设计说明书外文摘要
Title Nonparametric estimation of probability density function and R language graphics display
Abstract
On the basis of probability theory and mathematical statistics and multivariate statistical analysis, this topic is to estimate the probability density function using sample data under the condition of random variables with unknown distribution.This paper introduces several common methods of nonparametric density estimation,such as histogram density estimation, kernel density estimation, the k-nearest neighbour estimation etc. It also discusses the optimal bandwidth selection principles by minimizing mean square error. On the basis of those,we search for the service life of the lighting samples as the actual data, estimate the probability density function, and use MATLAB to display the estimated graphics.After verification,the histogram density estimation results are not smooth and slow convergence.K-nearest neighbor estimation is more suitable for classification problems.Kernel density estimation can solve the problem faced by the histogram,and the result is more ideal.At last,the two-dimensional case is discussed and a set of 2D dates are estimated.
Keywords nonparametric density estimation bandwidth histogram density estimation kernel density estimation the k-nearest neighbour estimation
目 次
1 引言 1
1.1 研究现状 1
1.2 背景知识 2
2 非参数密度估计方法 4
2.1 直方图密度估计 4
2.2 核密度估计 7
2.3 k-近邻估计 12
3 数据集的选取及图形展示 15
3.1 数据集的选取 15
3.2 直方图密度估计结果 15
3.3 核密度估计结果 17
4 二文密度函数估计 23
4.1 二文直方图估计法 23
4.2 二文核密度估计法 23
4.3 实例分析 25
结 论 29
致 谢 30
参考文献31
附录A 灯泡样本的使用寿命 32
附录B 二文样本数据 35
1 引言
当今时代,互联网技术蓬勃发展,“大数据”一词越来越多的被人们提及,它用来描述信息爆炸时代所产生的海量数据,以及相关的技术发展与创新。如今,数据已经渗透到各行各业,人们对于数据的挖掘与运用,预示着大数据时代的到来,数据中所隐含的信息不容小觑。作为处理数据的科学,统计学的应用就越来越广泛。统计学提供了有关数据收集、处理、分析、解释并从中提取有用信息进而得出结论的方法,它研究来自各领域的数据。随着人们对定量研究的重视,统计方法已经被应用到社会科学和自然科学等很多领域,统计学也发展出若干分支学科,本课题研究的非参数估计就是其中的一个方面。