数据挖掘在股票估价的运用

时间:2020-07-29 17:28:40 金融保险 我要投稿

数据挖掘在股票估价的运用

  股票价格受到多种因素影响,具有复杂非线性变化特点,单一预测方法只难反映其片断信息,预测精度低。那么,在股票估价中如何运用数据挖掘呢?

  1引言

  随着经济的迅速发展,股票交易市场成为人们投资理财的一种重要途径,然而受到多种影响,是一种高风险、高回报投资方式,为了获得更多的利润,必须对股票价格的波动和发展趋势准确的把握,因此股标价格的预测成为经济领域中的一个重要研究课题[1]。

  股票价格预测是指通过对历史和当天股票价格进行分析和研究,对将来股票的价格进行预测。发达国家对股票价格预测问题研究比较成熟,发达国家股票市场比较稳定、正规,具有非常好的统计规律,而我国股票交易市场刚起步不久,受人为影响、政治、经济影响比较,还起于发展初期,远不成熟,没有明显统计规律,采用国外股票价格预测技术对我国股票价格进行预测,获得结果不可靠,误差比较大,容易给投资起到误导作用,没有什么参考和指导价值[3]。在国内,自从有了股票交易市场以来,就引起国内大量学者广泛关注,提出一些股票预测方法,常用的方法有线性回归、时间序列分析、灰色预测算法等[4-6]。其中的时间序列分析中一维自回模型(ARIMA最为灵活,使用最为广泛,但是基于线性建模,股票是一种非线性、时变的时间序列数据,预测精度有待进一步提高[7]。近几年,随着数据挖掘技术发展,出现神经网络、支持向量机等智能机器学习方法,为股票预测拓展了新的研究空间,并在股票市场中得到了广泛的应用。股票价格受多种因素影响,变化十分复杂,其一种预测模型只能反映其部分信息,难以全面挖掘股票价格数据中隐藏的变化规律,预测结果与股民、投资人的要求有一定的差距[8]。

  为了进一步提高股票价格预测精度,更好为股民、投资人提供有价格的参考信息,提出一种基于数据挖掘的股票价格组合预测模型。首先采用线性预测模型ARIMA对股票价格进行预测,然后采用智能学习算法—最小二乘支持向量机(LS-SVM)对股票价格非线线部分进行预测,最后将两模型的预测值融合成股票价格的预测值。

  2股票价格的预测原理

  股票价格变化受到企业经营状况、国家政策、经济发展状况、股民、投资人等因素影响,是一个动态、非线性、时变的复杂系统,具有一定的规律性,但同时具有显著的随机性,导致股价格涨跌幅度较大。股票价格量数学模型可以表示为:(略)。

  根据式(1)可知,如果采用单一的线性ARIMA模型或非线性LSSSVM模型只能预测趋势部分或非线线部分,均只能反映股票价格的部分信息,不能全面反映股票价格变化规律,采用单一的ARIMA或LSSSVM模型,得到预测结果不可靠,且预测精度低。为了解决单一模型预测精度的低,无法反映股票价格动态、非线性、时变等变化规律,将ARIMA和LSSVM模型组合在一起,对股票价格进行预测,以提高股票价格预测精度,因此基于数据挖掘的股票价格组合模型预测原如图1所示。

  3数据挖掘的股票价格预测模型

  3.1股票价格的预处理

  股票价格历史数据是一种非平稳数据,涨跌幅度比较大,因此最小值和最大值相差比较大,这会对股票价格预测模型训练速度产生不利影响,为消除这种不利因素,对股票价格历史数据进行预处理,使其范围缩放到[0.10.9],具体为:(略)。

  3.2股票价格的线性预测模型

  设股票价格历史数据为:{xt},t=1,2,…n,ARIMA建模过程为:

  1)由于股标是一种非平稳时间序列,首先对它进行差分处理,即:(略)。

  经过多次差分后,股票价格数据变成是一种平稳时间序列,即可以得到:(略)。

  那么股票价格的ARIMA(p,q,d)模型为:(略)。

  2)模型识别。p、q是ARIMA建模的关键,首先采用自相关和偏自相关图来决定p、q可能的取值,然后采用最小信息准则(AIC)和相合性准则(SBC)确定出最佳的模型阶数。AIC和SBC函数定义为:(略)。

  3)参数估计和模型诊断。模型中所有参数采用极大似然估计得到,然后对参数在模型中进行检验,对其合理性进行判定,如果不适合就重新估计参数。

  4)采用最合参数建立股票价格预测模型。本文采用浙江大学DPS6.5软件包的ARIMA模块实现股票价格整个建模过程。

  3.3股票价格的非线性预测模型

  对于股票价格时间序列{xt},t=1,2,…n,由于LSSVM不能对一维时间序列进行直接预测,因此本文通过拓阶方式将一维股票价格时间序列转换成为多维时间序列{(xi,yi)},i=1,2,…k,xi和yi分别表示样本输入和输出,xi∈Rn,yi∈R,通过非线性映射函数φ(•)将样本映射到高维特征空间,从而获得最优线性回归函数:(略)。

  根据结构风险最小化原则,式(9)问题求解的`LSSVM回归模型为:(略)。

  通过引入拉格朗日乘子将上述约束优化问题转变为无约束对偶空间优化问题,即:(略)。

  选择径向基核函数作为LSSVM核函数,最后得到股票价格的LSSVM预测模型为:(略)。

  3.4股票价格的组合预测步骤

  1)收集某支股票价格的历史数据。2)对股票价格原始历史数据进行预处理,将其值缩放到0.1到0.9之间。3)采用ARIMA模型对股票价格线性变化规律进行预测,得到线性预测值。4)计算股票价格原始历史数据与ARIMA模型预测值之间的残差,这样股票价格的非线性变化规律就隐藏于预测残差中。5)对股票价格预测残差数据进行拓阶,确定模型最优滞后阶数,并对股票价格残差数据进行重构,得到LSSVM的样本集。6)将重构的股票价格残差数据输入到LSSVM进行学习,并对其进行预测,得到股票价格残差预测值,即股票价格非线性部分预测值。7)对线性预测值和非线性预测值进行融合,得到股票价格的最终预测值。其具体工作流程如图2所示。

  3.5股标价格预测模型性能评价指标

  为了评价股票价格预测模型性能,采用本研究采用均方根误差和平均绝对相对误差作为模型性能评价指标,它们分别定义如下:(略)。

  4股票价格组合模型仿真

  4.1数据来源

  仿真数据来源于黄山旅游(600054)股票2007年1月到2007年12月的收盘价,共收集到211个数据样本,其中前111个数据作为训练集,对股票收盘价进行建模,最后100个样本作为测试集,检验股票收盘价预测模型的预测性能。600054的收盘价格如图3所示。

  4.2股票价格的线性部分预测

  对股票价格的原始数据首先进行归一化处理,然后将211个数据样本输入到DPS6.5软件中,采用ARIMA模块得到偏相关和自相关图,如图4所示。从图4可知,该股票价格具有明显的非平稳性,需要首先对其进行差分处理,使其变成平稳时间序列,ARIMA模型才能进行预测。股票价格的1阶偏相关和自相关图如图5所示,此时,股票价格基本平稳,因此最佳差分阶数d=1。采用从低阶到高阶逐步试探法来识别模型的参数,得到600054的收盘价格最优预测模模型为ARIMA(2,1,1),采用ARIMA(2,1,1)对最后100个样本,预测结果如图6所示。从图6可知,ARIMA模型对股票价格的预测精度不高,但是能够很好的把握股票价格变化趋势。

  4.3股票价格的非线性部分预测

  根据ARIMA(2,1,1)预测结果确定股票价格的残差序列,然后采用LSSVM进行逐步定阶,确定最优价数为3,然后采用最优阶数重构数据集,然后将训练本输入到LSSVM中进行学习建模,并对残差序列测试集进行预测。

  4.4获得股票价格的最终预测结果

  将ARIMA(2,1,1)和LSSVM模型预测结果进行相加,得到股票价格的最终预测结果。预测结果如图7所示。

  4.5与其它预测模型结果对比

  为了验证基于数据挖掘的股票价格预测模型的优越性,采用单一预测模型ARIMA和LSSVM进行对比实验,它们对股票价格测试集的预测结果RMSE和MAPE如表1所示。从表1的对比结果可知,基于数据挖掘的组合预测模型的股票价格预测精度要远远高于单一的ARIMA和SVM模型预测精度,预测误差大大降低,对比结果表明组合预测模型综合利用了ARIMA和SVM优势,达到优势互补,克服两者缺陷,更加全面的刻画了股票价格的变化规律,而单一预测模型只能反映股票价格部分信息,不能能够精确描述股票价格非线性和周期变化规律,因此相对于传统预测方法,基于数据挖掘的组合预测模型是一种有效股票价格预测方法。

  5结论

  股票价格受到多种因素影响,具有复杂非线性变化特点,单一预测方法只难反映其片断信息,预测精度低。为了全面、准确描述股票价格变化规律,提出一种基于数据挖掘的股票价格组合预测模型。仿真结果明,组合模型有效提高了股票价格预测精度,在股票价格预测中有着广泛的应用前景。

【数据挖掘在股票估价的运用】相关文章:

1.数据挖掘技术在临床医学的应用研究

2.数据挖掘技术的高校思想政治教育运用论文

3.数据挖掘论文的参考文献

4.浅谈数据挖掘财务分析论文

5.浅谈反病毒数据库的数据分类挖掘论文

6.计算机Web数据挖掘技术在现代商业中的应用论文

7.数据挖掘论文参考文献范文

8.论计算机病毒数据库的数据挖掘论文