1.时间节点的选择:为了说明相似度的可靠性,本文所选取的为单支股票(本文所选为上证指数)的不同时间节点,而为了有更好的比较性,选择实验的时间数据基本定位在某段时间内涨幅最高的点与其他时间段的峰值比较,或者是最低点与最低点的比较,从这样的特定时间节点的数据相似度的结果来验证相似度是否具有较强的说服力。
2.数据文度的选择:由于证券数据具有较多的文度,或者说具有较多影响其走势发展的因素,本课题所选取的的多文数据中可能对相似度结果影响较大的几文,其主要包括:日期,开盘,收盘,涨跌额,涨跌幅,最低,最高,成交量(手),成交金额(万),而由于涨跌额,涨跌幅可以通过开盘,收盘数据的简单运算得到,故而本文选取的确定参与运算的数据包括:日期,开盘,收盘,最低,最高,成交量,成交金额这几文最为直接的数据。
预处理的原因
出于以下的几点考虑,本文需要对数据进行预处理:
1. 原数据可能含有大量的噪声,去除噪声是有必要的。
2. 原数据可能数据量很大,文数很,计算机处理起来时间复杂度很高,预处理可以降低数据文度。
而本文在上一节(3.1.1节)中详细的叙述了对于本文的数据的选择,即为对本文中将要用到参与预算的数据进行预处理。
具体的处理方式
由于数据选择的选择时某一支股票的不同时间节点的多文数据,再次姑且假设其不同文度之间并非混合变量,仅仅是不同数值,故在此无需复杂的队原有的属性值用数字进行表示。本文中数据的预处理是针对不同文度之间,即对区间标度型、序数型以及比例标度型进行标准化,其中所用到的标准化处理公式为:
x_i^*=(x_i-x_min)/(x_max-x_min )                                  (1)
目的是将其转换到共同标度的区间[0.0,1.0],消除量纲的影响。而二值型和分类型变量起的取值仍然采用属性值数字化后的数据(本文中仅有时间这一属性为分类变量,故在预处理之后的数据用序号1、2、3……来代替)。
    本文中用到的数据的预处理之后如图表3所示:
序号    开盘    收盘    最低    最高    成交量    成交金额
10    0    0.2461    0    0    0.5749    0.5028
9    0.1196    0    0.1887    0.1502    0.2093    0.0918
8    0.7195    0.4735    0.6283    0.5234    0    0
7    1    0.7169    0.8367    0.8080    0.2968    0.2773
6    0.8211    0.8424    0.7603    0.6424    0.6023    0.6959
5    0.6806    0.8355    0.8076    0.6720    0.7019    0.7915
4    0.3951    0.5652    0.2420    0.2836    0.8488    0.8163
3    0.9363    0.8263    0.8365    0.7880    0.6537    0.5890
2    0.9691    0.8730    0.8883    1    1    1
上一篇:房地产企业的资产定价及风险分析+CAPM资产定价模型
下一篇:Airpak典型商铺住宅室内空气品质数值模拟分析

浙教版人教版初中数学教...

基于长时间序列MODIS数据的...

中小学数学教材衔接研究...

中美初中几何教材比较研...

中日高中数学教材比较研...

浙沪教版初中数学教材比...

最优捕鱼策略

C#学校科研管理系统的设计

10万元能开儿童乐园吗,我...

国内外图像分割技术研究现状

中国学术生态细节考察《...

神经外科重症监护病房患...

公寓空调设计任务书

承德市事业单位档案管理...

志愿者活动的调查问卷表

AT89C52单片机的超声波测距...

医院财务风险因素分析及管理措施【2367字】