張筱梅,朱家明
(1.安徽財經大學金融學院;2.安徽財經大學統計與應用數學學院,安徽蚌埠 233030)
基于Pearson相關系數模型對股票間相關性研究
張筱梅1,朱家明2
(1.安徽財經大學金融學院;2.安徽財經大學統計與應用數學學院,安徽蚌埠 233030)
針對股票間的相關性,主要運用Pearson相關系數、社會網絡的相關理論,從數據挖掘、數量統計、實證分析的角度出發,利用Excel和UCINET分別建立Pearson相關系數、股票網絡、CONCOR分塊等模型.運用個股回報率指標建立Pearson相關系數模型度量股票間相關性,并根據相關性矩陣構建股票網絡,最后通過CONCOR分塊模型得到對股票市場行業的分塊.
股票間相關性;Pearson相關系數;社會網絡模型;UCINET
影響股票價格的因素多樣導致股票市場變動的不可預測,如何理清同一板塊不同行業股票之間交錯的影響關系,分析股票之間內在的影響機制,關鍵在于對股票間相關性關系的研究,本文基于pearson相關系數模型分析同一板塊中股票之間的相互影響;在股票間相關關系系數的基礎上,選擇合適的閥值,閥值用于衡量股票間影響關系的強弱,在此基礎上建立股票間相關系數的網絡模型.
本文數據來源于安徽財經大學校內數學建模模擬題,為方便解決問題提出四條假設:(1)假設股票沒有分紅,考慮現金紅利再投資的周個股回報率和不考慮現金紅利再投資的周個股回報率相同;(2)假設選取的樣本股票能代表這一類型股票市場的整體狀況;(3)假設不同類型市場之間的相關性不強,所以選取同一類型股票市場內的股票數據進行相關性研究;
2.1 研究思路
根據賽題附件中股票的相關數據選取合適的指標,利用時間序列相關性知識,分析股票間的相關性,并建立合適的模型度量股票間的相關性.
首先,本文選取深圳B股為樣本進行股票間相關性分析.其次,選擇兩支股票相同交易周份的數據進行計算,如果某個交易周份只有一只股票有交易而另一只股票停牌等原因缺失的數據在計算過程中被忽略.最后,對篩選的數據選取合適的指標進行股票間相關性分析.
2.2 研究方法——Pearson相關系數計算公式
個股回報率計算公式:

式中hi為周個股回報率;si為周收盤價格;ki為周開盤價價格;i為證券編號.
Pearson相關系數計算公式:

式中E為數學期望;cov(x,y)為x,y之間的協方差;ρxy為x,y之間皮爾遜相關系數;x和y是任意兩支股票所對應的個股回報率;σx,σy為任意兩支股票所對應個股回報率的方差.
2.3 數據處理
選取市場類型為8(深圳B股),交易周份為2013年8 到32周的所有股票,利用上述模型求得各股票間相關性(鑒于所得表格數據太多,這里從略).
2.4 結果分析
Pearson相關系數是一種度量兩個變量間相關程度的方法,文中使用該指標度量股票間相關性.并對Pearson相關系數模型做出三點評價:⑴以個股回報率為變量指標,利用Pearson相關系數模型分析股票間相關性;⑵Pearson相關系數要求變量是連續變量,本題中以周作為交易周分,即可視為連續變量;⑶每個證券代碼代表的股票的個股回報率均為上市公司運營情況所導致股息的變化和市場利率決定,故各變量之間相互獨立,符合Pearson相關系數約束條件.
3.1 研究思路
在前文中以市場8為例得出股票間的相關系數,在此基礎上,構建該股票市場環境下股票間的相關系數矩陣.其次,分別選定閥值為0.5,0.55,0.6,0.65,0.7,0.75構建社會網絡,并統計對應的結點個數,觀察變化趨勢,得出較合理的閥值,構建對應的股票網絡.最后,從中心性角度分析網絡中各股票間的關系,得出整個股票網絡的特性.
定理1網絡構建原則:本文中的網絡是基于股票價格相關系數Cij而建立起來的股票網絡,由于股票間的關系只有兩種情況:有關系和無關系.選定了閥值后,如果兩支股票的相關系數Cij>P,則說明兩支股票間有關系,記作1,否則記作0. 3.2數據處理
以問題二中計算所得44支股票間的相關系數構建相關系數矩陣,部分數據如圖1:

圖1 相關矩陣部分截圖
將相關系數矩陣轉化為UCINET數據,在給定閾值0.5的基礎上,分別選取一系列新的閾值點,構建相應的網絡結構圖,并算出每個閾值所構建的網絡的最大連通子圖的節點個數,如表2所示.
根據表2,做出節點個數隨閥值變化的趨勢圖,如圖2.

圖2 節點變化趨勢圖
由圖2可得,隨著閥值的不斷增加,網絡圖的節點個數不斷減少,整個網絡中的散點數不斷增加,越來越多的節點成為獨立的散點,同時網絡結構業越來越清晰.因此,選定0.65為最佳閥值,對原相關系數矩陣進行篩選,做出對應的股票網絡結構圖如圖3:

圖3 股票網絡結構圖
3.3 中心性分析
分析股票市場的網絡中心性時,本文從度數中心度及中間中心度兩個方面進行分析.
分析度數中心度
一個核心點是處在一系列關系“核心”位置的點,該點與其它點有多個直接聯系.因此,對點A的度數中心度的最簡單的測量就是運用圖中點A的各種度數,即與點A直接相連的其他點的個數.如果用CAD代表絕對度數中心度,那么,一個點x的絕對度數中心度的表達式為CAD(x).如果某點具有最高的度數,則稱該點居于中心.
由于上述網絡是無方向的,上述公式為:C'RD(x)=x,其中n是網絡的規模.如果C'RD(x)=0,點x就是一個孤立點;反之,如果C'RD(x)=1,點x就是圖的核心點之一.運用UCINET軟件對閥值為0.65時的數據進行分析,以各個股票為中心求出中心度,按照中心度降序排序,得出各股票分析數據,如圖4:
從股票網絡總體分析,股票200521度數中心度最大,相對中心度及相關份額也高于其他股票,在股票網絡圖中占據著中間的位置.但是,度數中心度大于20的股票僅有9支,占有31.4%的市場份額,因此可見,不同的股票間存在明顯的分水嶺,具有核心影響力的股票只是股票市場中的小部分,其他股票間的關聯程度相對較弱.
相關性系數模型與實際的聯系緊密,利用EXCEL和UCINET軟件對數據進行處理并作出各種分析圖形,使股票網絡更加簡潔、明了、直觀的呈現,易于理解和接受;但是無向網絡模型只能根據相關性系數體現兩只股票之間的相關性,但是卻不能體現兩只股票間定向影響關系,不能體現兩只股票誰對誰的影響力較強.
本文通過相關系數,中心度分析等方法,對股票間相關關系進行分析,為股票間相關關系的分析研究提供了更廣泛的思路.
〔1〕http://www.szse.cn/;2014年8月27日;深圳證券交易所.市場數據查詢.
〔2〕http://www.eastmoney.com/;2014年8月27日;東方財富網.證券編號查詢.
〔3〕余壽喜,韓立巖.中國股票市場行業交易額分布特征研究[J].首都經濟貿易大學學報,2006.
〔4〕楊桂元,黃己立.數學建模[M].合肥:中國科學技術大學出版社,2008.
〔5〕羅家德.社會網分析講義[M].社會科學文獻出版社,20010.
F833.48
A
1673-260X(2015)05-0032-02
國家自然科學項目(11301001);安徽財經大學教研項目(acjyzd201429)