摘要: 通过调查发现越来越多的人开始关注证券数据之间的相似性,并且通过对相似性的研究进一步的把握证券数据看似无规律可循的数据之间的内在关联,以便做出更好的研究和决策。而如何选择单支股票在某一时间节点上的高文空间的数据,如何存储数据以及选择怎样的算法来计算这样的相似度,是本课题的所研究的重点。通过对大量的数据资料的分析,基本确定了以XML标记语言来存储数据。通过对于传统的应用于高文度的相似性度量方法进行分析,确定了使用高文数据相似性度量函数Hsim(X,Y)的改进方法HDsim(X,Y)。由于该函数在处理数值型,二值型以及分类属性数据上充分体现了其优越性,通过大量的数据分析验证了其有效性,本课题则选择其作为计算相似度的算法。5802
关键词: 高文数据;证券数据;相似性度量;算法
Similarity of the securities in units of time
Abstract: Through the survey found more and more people started to pay attention to the similarity between the securities data, and further by the similarity grasp the inherent relationship between the securities data appears to be no rules to follow data in order to make better research and decision-making. How to choose inpidual stocks high-dimensional data space, how to store data in a time node and choose what kind of algorithm to calculate this similarity, this issue is the focus of the study. The analysis of the large amount of data to determine the basic XML markup language to store data. Analysis by the similarity measure used in high dimension, the methods of similarity measurement to all kinds of data have been integrated by function HDsim(X,Y),which takes full advantage of the original function Hsim(X,Y) in dealing with numerical data. Since the function numeric, binary type and classification attribute data fully reflects its superiority through a lot of data analysis to verify its validity, the subject is selected as the similarity algorithm.
Keywords: High Dimensional; Securities Data; Similarity measurement; Algorithm
目录
摘要 i
Abstract i
目录 ii
1 绪论 1
1.1 介绍背景 1
1.2 证券数据分析的发展现状 1
1.3 高文数据相似度算法的研究现状 2
1.4 本文的安排 2
2 数据的存储 4
2.1 XML标记语言的介绍 4
2.2 证券数据的设计存储 5
2.2.1 以时间为单位的数据格式的选择 5
2.2.2 以时间为单位的数据格式的设计 6
3 时间节点证券数据相似度算法的分析与运算 9
3.1 数据的预处理 9
3.1.1 数据的选择 9
3.1.2 预处理的原因 9
3.1.3 具体的处理方式 9
3.2 算法的选择分析 10
3.2.1 一般相似度的计算介绍 10
3.2.2 高文数据相似性算法 11
3.2.3 最终算法的确立 12
3.3 具体算法的实现 13
3.3.1 算法实现的平台 13
3.3.2 算法实现的代码 15
4 数据的测试与算法的检验 17