寧春媛 孫德山 任靚


摘要:神經網絡由于其性質的良好,已經廣泛應用于財務數據的預測。選取三一重工的相關財務數據,建立基于MDS的前饋神經網絡模型。采用16個財務指標為輸入,以開盤價作為輸出建立模型。首先對數據進行降維處理,然后對降維后的數據用多種機器學習方法進行比較。結果表明該模型相比其他方法具有更好的預測能力和預測精度,對股票的預測提供一定的借鑒。
關鍵詞:統計機器學習;預測;神經網絡;MDS算法
一、引言
上市公司的財務信息是投資者主要的投資依據,對于上市公司而言,如何進行有效的財務預測顯得尤為重要,傳統的財務分析僅以財務報表及數據為基準,但由于財務指標一般都是非線性的,采用以往傳統的多元線性回歸方法并不能準確預測公司的財務狀況。20世紀90年代以來,隨著神經網絡模型的研究逐漸成熟,人們開始試圖將神經網絡模型應用于財務分析預測。
前饋神經網絡在神經網絡理論模型中有很重要的地位,其結構簡單靈活,數據在層之間進行處理,沒有任何循環步驟。它的核心內容即反向傳播誤差的學習過程,通過對隱含層之間神經元連接權值的學習,實現輸入樣本的非線性映射。目前國內外很多學者對前饋神經網絡連接權值的學習進行研究。王玥和孫德山利用多種統計方法對財務數據進行研究,將機器學習算法與金融問題相結合得到了良好的結論;王玉冬和王迪等人提出PSO-BP和FOA-BP混合神經網絡模模型,對傳統BP模型進行優化,發現優化算法對于財務預警十分有效;關欣和王征結合傳統的logistic回歸模型和BP神經網絡模型原理,利用財務數據進行實證發現二者可以結合使用達到最優效果,為財務預警提供一定的借鑒作用;王鑫和吳際等人提出一種基于LSTM循環神經網絡的故障時間序列分析預測方法,與多種典型的時間序列預測模型對比,驗證了LSTM預測模型及其參數選優算法具有更高的準確性和適用性;史文靜和高巖利用EMD結合RBF神經網絡的新混合模型對股指期貨價格進行預測,發現該模型下呈現出更優的預測效果。
針對上市公司財務指標,通過確定合理的輸入輸出,建立基于MDS的前饋神經網絡模型進行相應股票開盤價的預測,選用決策樹和支持向量機兩種算法與之進行比較,并通過不斷調整隱含層數與學習率,使得算法的預測能力得以提高,得到了很好的效果。
二、MDS多維標度及前饋神經網絡算法
(一)MDS多維標度
對測試樣本進行分析時,通常基于一個重要的假設:任意測試樣本附近任意小的距離范圍內總能找到一個訓練樣本。然而,這個假設在現實生活中通常很難滿足,現實應用中屬性維數經常成千上萬,這種情況下出現數據樣本稀疏、距離難計算等問題是所有機器學習方法共同面臨的嚴重障礙,為緩解維數災難,一個重要的途徑就是降維,即高維空間中的一個低維“嵌入”。在此要求原始空間樣本之間的距離在低維空間中得以保持,故產生MDS降維方法。
假設m個樣本在原始距離空間中的距離矩陣為D∈Rm×m,distij表示樣本xi到xj的距離,最終目標是獲得樣本在d′維空間的表示z∈Rd′×m,d′ (二)前饋神經網絡及學習算法 1. 前饋神經網絡介紹 在神經網絡中信號可以僅在一個方向上流動或者來回流動,對在一個方向上流動的信號網絡稱為前饋神經網絡架構.前饋神經網絡(feed-forward neutral network)是最簡單的神經網絡形式,由輸入層、隱含層及輸出層組成,存在兩個基本的信號流動方向:函數信號的前向傳播和誤差信號的反向傳播。 2. 前饋神經網絡算法 過程: (1)在(0,1)范圍內初始化網絡中所有連接權和閾值;(2)算法迭代;(3)對于所有的(xk,yk)∈D執行下述過程。 ①根據當前參數和(1)計算當前樣本的輸出;②計算輸出成神經元的梯度項gj;③計算隱含層神經元的梯度項eh;④更新連接權與閾值。 3. 直到達到停止條件 輸出:連接權與閾值確定的多層前饋神經網絡 基于上述理論基礎,建立基于MDS的前饋神經網絡模型,將該模型與決策樹和支持向量機兩種算法進行比較,通過實驗數據分析發現經過MDS降維后的預測效果更優,而且前饋神經網絡算法要優于其它兩種算法,預測精度有了顯著提高。 三、數值實驗 (一)數據的選取與說明 選取2006~2018年三一重工的季度財務數據為樣本,取樣時間段為2006年9月1日至2018年6月30日,對系統的預測效果評價基于以下16個財務指標:營業收入、凈利潤、總資產、固定資產、貨幣資金、應收賬款、存貨、總負債、應付賬款、預收賬款、營業總收入、營業總支出、營業利潤、凈現金流、經營性現金流量凈額和投資性現金流量凈額,同時選取對應的股票開盤價作為預測指標,其他指標作為股票價格的影響因素,數據來源東方財富網。 (二)實驗過程與分析 運用R語言程序,采用MDS多維標度算法,MDS算法保證了降維前后樣本之間的歐氏距離不變,通過對原始高維空間進行線性變換,顯然,新空間中的屬性是原始空間中屬性的線性組合,依照上述算法過程,經過反復實驗,發現將16維數據映射到2維效果達到最佳,所以在實驗中將數據降到2維。 首先將降維前后的預測結果進行比較,采用了決策樹、支持向量機、前饋神經網絡算法進行比較分析,實驗結果如表1所示 。 實驗中選取前40個數據作為訓練樣本,后7個數據作為測試樣本。首先采用min-max標準化方法對原始數據進行歸一化處理,將其轉化為無量綱的純數值,這樣可以消除數據的單位限制。之后分別采用決策樹、支持向量機、前饋神經網絡三種算法對開盤價進行預測,降維前將16個指標全部作為輸入,開盤價作為輸出,隨后進行MDS降維處理,反復實驗后將數據降到2維效果最佳,此時輸入變為降維后的2個指標,開盤價依然作為輸出,通過前40個訓練樣本對后7天的開盤價進行預測,并與測試樣本進行比較分析,不斷調節相應的參數使得每種算法的預測性能達到最優。同時為了描述算法預測結果的準確性,避免突出權值相差不大,故分別計算降維前后的值進行比較。計算公式如下: 由于在開始預測時已經對數據進行歸一化,所以為了和原始數據結果進行比較,將數據回歸原值,最后將四種算法下的值進行對比從而判斷降維前后的準確率,結果如表1所示(結果保留三位小數)。 由表1可以發現,通過MDS降維后誤差率有了明顯的下降,算法的準確率得以提升,這是由于選取的原始16個財務指標之間信息可能有重疊的部分,降維后降低了指標之間的信息冗余,提取了更為有效的信息。同時可以發現前饋神經網絡較其他兩種算法模型,預測效果更好。下面重點分析前饋神經網絡(nnet)算法實驗過程。 降維后提取了兩個指標進而預測開盤價,實驗中利用梯度下降法,依據激活函數的誤差迭代權重和偏差的更新,局部梯度定義為: 同時,由于輸入輸出節點較多,輸入數據量過大,因此對學習率參數進行調整,不斷改變神經網絡的層數,進行參數優化。首先固定學習率為0.3,得到當隱含層數為5時,學習和測試效果達到最好,結果如圖1所示。 此時改變隱含層數,當隱含層數分別為25,20,15,10和5時,得到隱含層數與均方誤差的關系如表2所示。 現在改變學習率參數,當學習率η分別為0.27,0.3,0.42和0.5時,得到學習率與實驗誤差率之間的關系如表3所示。 由表3可以發現,前饋神經網絡的預測效果很好,隱含層神經元的層數以及學習率的不同會對神經網絡學習和預測能力產生很大的影響,在上述財務分析問題中,當固定學習率η=0.3,隱含層神經元數為5時,學習和預測能力最佳。 四、結語 針對財務數據進行股票的預測分析,建立了基于MDS的前饋神經網絡預測模型,利用FNN的函數逼近特征,改進學習率,使得準確率得以提升,有效的預測了股票的開盤價。目前神經網絡的學習在金融、大氣等很多領域都得以應用,但大多數方法還是基于傳統的BP算法,對于前饋神經網絡,通過改變學習率和神經元隱含層數,逐步改進算法的預測性能。但實驗過程中由于參數尋找的區間范圍可能沒有達到最精確,所以對于參數的選取和調節也是以后需要繼續研究的方向。 參考文獻: [1]王玥,孫德山.基于集成算法的股票指數預測[J].經濟數學,2018,35(04):32-34. [2]王玉冬,王迪,王珊珊.基于PSO-BP和FOA-BP神經網絡的財務危機預警模型比較[J].統計與決策,2018,34(15):177-179. [3]關欣,王征.基于Logistic回歸和BP神經網絡的財務預警模型比較[J].統計與決策,2016(17):179-181. [4]王鑫,吳際,劉超,楊海燕,杜艷麗,牛文生.基于LSTM循環神經網絡的故障時間序列預測[J].北京航空航天大學學報,2018,44(04):772-784. [5]史文靜,高巖.EMD結合RBF神經網絡新混合模型及股指期貨價格預測[J].經濟數學,2015,32(01):47-51. *基金項目:遼寧省自然科學基金指導計劃項目(項目編號:2019-ZD-0471)。 (作者單位:遼寧師范大學數學學院。寧春媛為通訊作者)