朱家明,劉紅杉,朱運良,程瑤瑤,于靜
(1.安徽財經大學統計與應用數學學院,安徽 蚌埠233030;2.安徽財經大學會計學院,安徽 蚌埠233030)
股票間的相關性對于風險管理、投資決策具有重要影響.對于股票相關性的研究,現代金融理論主要基于經濟基本面進行解釋,即認為相關性來源于影響資產現金流和影響資產折現率的基本面因素.股票市場作為復雜系統日益受到人們的關注,近年來,經濟、數學、社會等領域的學者都開始用復雜網絡及其相關概念來研究股票市場,進而研究股票間相關性.
數據來源于安徽財經大學2014暑期數學建模模擬題[1].為了便于解決問題,提出了以下假設:1)股票數據可以簡單地看成時間序列數據,節假日的休市也不對股票序列的順序產生影響;2)文中股票的變動只與自身和相關股票有關;3)以收益率為股票間相關性的度量指標能夠很好的反映出股票間的相關性;4)Netdraw作圖能夠很好的反映變量組合間的關系.
研究數據發現,考慮現金紅利再投資的周個股回報率數據的缺少是由于缺少上周收盤價Pi(t-1)的數據,它與本周開盤價Qi(t)數值非常接近.首先把每只股票上周的收盤價Pi(t-1)減去本周的開盤價Qi(t),將差值求和取平均,最后利用本周開盤價Qi(t)加上差值平均值來近似代替上周收盤價Pi(t-1),即:

對于每只股票,考慮現金紅利再投資的周個股回報率ai和不考慮現金紅利再投資的周個股回報率bi相等,利用公式:,便可得到缺失的數據(見表1).

表1 缺失的數據填充表
現代投資組合理論中,人們用股票的預期收益率來描述預期收益,用收益率方差來度量風險,且線性相關系數越小,投資組合風險就越小,即收益率與股票的相關性大小關系密切,因此,選擇股票收益率作為股票間相關性度量指標.
選取股票的收益率為度量指標,利用時間序列相關性知識,得出股票的相關系數矩陣[2].
選取第16周~第25周的沒有缺失數據的所有股票來進行研究.利用公式計算股票收益率.

其中Pi(t)是股票i在第t周的周收盤價,Qi(t)是股票i在第t周的周開盤價,Ri(t)是股票i在第t周的周收益率.
cov(R1,R2)表示向量R1和R2間的協方差,σ1和σ2分別表示R1和R2間的標準方差,假設各數據的概率相等且為,則:

那么,相關系數為

對上述模型,運用Matlab軟件進行求解[3],繼而可得到股票的相關系數矩陣:

由于股票價格的缺失對于模型求解結果存在較大的影響,故要對數據進行預處理,選出合適的股票,根據每只股票的收益率,運用Matlab編程可求得股票間的相關系數矩陣.其次,在給定閾值0.5的基礎上,選取一系列新的閾值,計算每個閾值下所構建網絡的最大連通子圖節點個數,選取其節點個數變化穩定時的閾值作為最佳閾值.最后,基于相關系數和最佳閾值來構建股票網絡[4].
對前面所選取的數據,利用(3)式和Matlab編程,可求得解股票的相關系數矩陣:

股票代表網絡中的點,如果相關系數ρ12≥θ(θ∈[-1,1]),就認為節點i和j之間有連邊,這里的θ即閾值點.閾值在一定區間變化時,網絡是高度聚類的,具有明顯的拓撲性質.
在給定閾值0.5的基礎上,選取一系列新的閾值點,可求得每個閾值所構建的網絡連接的總邊數,近而比較不同閾值下的總邊數變化(見表2).

表2 不同閾值下所構建股票網絡節點連接的總邊數變化表
為直觀了解閾值與股票數的相關關系,對表2利用Excel作圖(見圖1).

圖1 不同閾值與所構建網絡連接的總邊數變化折線圖
從圖1可以看出,閾值在0.6以后,所構建的網絡連接的總邊數變化較平穩,并且可以看出閾值在0.657之前,最大連通子圖的節點個數變化較快,到0.6時變化開始變得平緩.發現閾值為0.6時網絡拓撲性質較穩定,因此選取0.6為最佳閾值.由此運用軟件Netdraw可繪出基于相關系數和最佳閾值構建的股票網絡(見圖2).

圖2 基于相關系數和最佳閾值構建的股票網絡
當某些股票連接較多的節點時,這些股票的波動會直接影響著其他較多股票的走勢.這些反映整體價格走勢的點代表,相互連接程度高,股價的波動較容易在市場中傳播.與其他股票交往頻繁、聯系緊密的節點,本文稱作股票網絡的核心節點;當某些股票的相鄰股票節點數為2~4個時,它們沿分支方向調整和傳遞波動的信息,本文稱作股票網絡的中間節點;當某些股票只有一條邊與其他節點連接時,則說明它與其他的股票交往較少,相關度不大,本文稱作邊界節點.
系統聚類法[5]基本思想是:聚類開始時將n個樣品(或p個變量)各自歸為一類,并規定樣品(或變量)之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類,計算新類與其他類之間的距離,重復進行兩個最近類的合并,每次減少一類,直至所有的樣品(或變量)合并為一類,最后形成一個親疏關系圖譜(見圖3).

圖3 最短距離法的聚類樹型圖
本文采用最短距離法聚類,步驟如下:
1)將初始的每個樣品各自作為一類,并規定樣品之間的距離,本文采用歐氏距離.計算n個樣品之間的距離矩陣D(0),它是一個對稱矩陣.其中,第i個樣品Xi和第j個樣品Xj之間的歐式距離定義為:

2)尋找D(0)中最小元素,設為DLK,將GK和GL聚成一個新類,記為GM,即GM= { GK,GL}.
3)計算新類GM與任一類GJ之間距離的遞推公式為

對距離矩陣D(0)進行修改,將GK和GL所在的行和列合并成一個新行新列,對應GM,新行和新列上的新距離由遞推公式計算,其余行列上的值不變,這樣得到的新距離矩陣記為D(1).
4)對D(1)重復上述對D(0)的兩步操作,得到距離矩陣D(2),如此下去,直至所有元素合并成一類為止.
運行Matlab編程,可求得部分系統聚類分析的結果(見表3).

表3 部分聚類分析結果以及現實板塊對比表
從表3中可以看出,所求得的股票板塊劃分結果與現實的有所不同,主要是由于劃分標準不相同,上表所采取的劃分標準是按股票的收益率,但是已有的結果是通過股票背后的市場類型來進行劃分的.通過劃分的結果與原來板塊進行對比還可以發現,原來在同一板塊的股票在劃分之后基本上還在同一板塊,這是由于同一板塊的股票具有相似的變化趨勢,原來板塊內部股票的收益率也有一定相關性,這與本文的劃分標準有重合點,這就是劃分后每個版塊的股票種類沒有很大變化的重要原因.
本文通過綜合運用上述相關性分析、系統聚類分析、網絡構建等方法,以收益率為指標,最終建立了基于相關系數和最佳系數的股票網絡,為劃分中國股票市場中的板塊提供了可行性方案[6].本文所建立的股票間相關性度量指標模型簡潔便于理解,為股票之間的相互作用提供了理論基礎,也為股票市場中股票投資組合風險的研究提供一定的研究基礎.
[1]2014 年安徽財經大學數學建模模擬賽 A 題.[EB/OL].http://zhujm1973.blog.163.com/blog/static/315513552014923288768.
[2]彭宏.股票數據流的相關性計算方法[J].華南理工大學學報.2006,34(1):86-89.
[3]吳禮斌,閆云俠.經濟數學實驗與建模[M].天津:天津教育出版社,2009.
[4]吳翎燕.基于相關系數和最佳閾值的股票網絡模型構建[J].復雜系統與復雜性科學,2013,10(4):49-55.
[5]謝中華.MATLAB統計分析與應用:40個案例分析[M].北京:北京航天航空大學出版社,2012.
[6]王婷,朱家明,韋銳,等.中國GDP影響因素及可持續發展的計量分析[J].菏澤學院學報,2014,36(2):8-15.