徐業釗 張晗 馮貫昂 韓立言 龐華
摘 要:本文主要針對基金的資產配置進行了相關研究,利用系統聚類法解決了關于基金資產配置策略的問題。首先對相關數據預處理,發現數據無異常值,有些股票數據部分缺失,予以剔除,并對各基金公司的投資概況和偏好做了簡要分析。其次使用系統聚類法將股票按照股價波動分為四類,并用股價波動的變異系數將股票按波動類型分為低,中低,中高和高四類,最后綜合投資策略的相關因素,構建了度量投資策略相似性的三個極小型指標,股票投資種類差異指數、持有股票差異指數、持股集中差異指數并給出了度量標準。
關鍵詞:系統聚類法;股票;投資
本文索引:徐業釗,張晗,馮貫昂, 韓立言,龐華.<標題>[J].中國商論,2021(17):-104.
中圖分類號:F724.5 文獻標識碼:A 文章編號:2096-0298(2021)09(a)--03
改革開放之后,金融領域中的經濟風險逐漸暴露,其中資產管理業務在我國金融體制改革中是值得關注的,作為資產管理業務最具代表性的形態,公募基金因相對績效的考核、復雜的基金資產配置、高度的控股集中成為影響系統性風險的潛在因素。研究如何平衡基金投資收益和系統性風險之間的關系對防范化解金融領域的風險是有現實意義的。
1 問題分析
由于度量不同基金公司之間的資產配置策略的相似性,關鍵在于對資產配置策略給出合理的指標,并在此基礎上度量相似性。在解決問題前,需要對數據進行預處理,通過分析發現,數據無明顯異常數據值,而數據股票37,38數據和所有股票最后11天的數據缺失較多,通過對風險影響的考慮,對這些數據予以剔除,同時對預處理后的數據進行了各基金公司投資概況的簡要分析。通過對文獻進行查找,發現投資者在對股票進行投資配置時關注對不同風險和收益的股票類型的投資,而股價波動可以很好的反映股票風險和收益的關系。
2 模型的建立
首先,考慮到解決問題的基礎是數據,為了得到有效、精確的結果,先對數據進行預處理,并對數據形式進行便于計算的轉化。同時對預處理后的數據進行了各基金公司投資概況的簡要分析。其次,考慮到股票的風險和收益,使用系統聚類法將股票按照股價波動分為四類,并引入各類股票的平均變異系數對各類股票的股價波動程度進行衡量,將股票按照高、中高、中低、低四種股價波動程度分為四類。再次,從各基金公司持有的股票類別、股票數量,對所持股票的投資比例和對股票投資的持股集中方面考慮,構建投資股票相似性的三個度量指標:股票投資種類差異指數、持有股票差異指數、持股集中差異指數。最后,對度量結果進行求解和分析,為了保證數據建立的模型結果具有有效性和精確性,要對數據進行預處理。先給出10家基金公司對57種股票的持股總市值和持股數量進行觀察發現,每家基金公司投了10種股票,且投資的股票種類不完全相同。從持股總市值看,基金公司J對股票11的持股總市值最高,達到了1,203,016.03萬元,遠超同列值;基金公司F對股票36的持股總市值最低,為77,143.86萬元。從持股總量上看,基金公司G持有股票10的總量最多,為53,263.04萬股;基金公司C持有股票12的總量最少,為99.98萬股。首先,用Excel對數據進行預處理,看數據中是否有異常值,錯誤值和缺失值,結果發現無異常、錯誤、缺失的數據。同時為了方便運算,在計算中將基金公司的序號A~J轉換為1~10。考慮到各基金公司的資產配置策略與各基金公司的經濟實力無關,所以為排除各基金公司經濟實力的差異所帶來的影響,對各基金公司持有股票的投資比例進行了統計,計算公式如下:
(1)
式中,i=1,2,3,...,57,j=1,2,3,...,10,表示基金公司j對股票i的投資比例;表示基金公司j對股票i的持股總市值,若基金公司j沒有對股票i持股,則此時。由公式計算得到對的投資比例將作為樣本數據用于所建立的模型中。本文給出了57種股票在一年中每天的股價數據,數據中不包含非交易日(周六,日和國家法定節假日)的股價數據。通過對數據的觀察和分析,需要判斷是否有缺失值,異常值和不便統計的量,于是對數據進行了預處理。分析處理結果如下:
(1)可能因為股票37和38是某種新晉股票類型或是統計錯誤,股票37和38給出的股票價格的天數過少,無法得出該股票全年的股價趨勢變動,從這兩種股票已有的數據看,股價變化幅度不大,未來風險未知,保守起見,假設投資時不考慮股票37和38,所以在求解該問題時對股票37和38的數據予以剔除,投資時不予考慮購入這兩種股票。
(2)股票2,10,13,22,26,29,33,39,41,45,56在最后幾天的數據有所缺失,為了統一處理,在分析時對所有股票最后11天的股價數據進行剔除。
(3)給出的日期形式不便于進行統計分析,于是將“2019-01-02”設定為1,將“2019-01-03”設定為2,依此類推,將“2019-12-16”設定為233(因為股票只在周一至周五的非節假日開盤,所以這里不是365),其余值按照計數順序依次修改,即以序號的表示方式代替日期的表示方式。
(4)基于數據值非負,非0,數據值變化滿足常識的原則對內部的數據進行篩查,發現無明顯異常值。
基于上述數據的預處理對問題進行模型的求解。
3 模型的求解
對股票種類進行持有公司數量的統計,用Excel統計結果如圖1所示。
根據圖1,發現持有股票11和股票12的基金公司數量最多,有8個;持有股票14的有6個基金公司;持有股票28,15,13的基金公司有4個;持有股票2,17,18,33,35,36的基金公司有3個;持有股票10,42,45的基金公司有2個;持有其余股票的基金公司數各為1個。綜合來說,投資股票11,12,13,14,15,28的基金公司數量較多(投資公司數4),說明整個投資市場普遍認為這6種股票相比其他股票有更大的效用(風險低或收益大)。依據文獻可知,基金公司的資產配置通常是根據投資需要將資產在低風險、低收益股票與高風險、高收益股票之間進行分配,股票投資組合的策略是指投資者根據自己對待風險的態度和承受能力。為了研究各基金公司的資產配置策略,依據股票價格波動數據對不同股價波動類型的股票進行系統(層次)聚類分析,給出各股票一年中的波動的計算公式:
(2)
式中,Vi(t)表示第t天i股票的股價波動值,表示第t天i股票的股價,t=2,3,...,233,i=1,2,...,35,36,39,40,...57。該式表示某股票當天的股價波動值為當天的股價與前一天股價的差值和前一天的股價之比。為了得到更好的聚類結果,需要對股票波動值進行數據標準化處理:
(3)
式中,為第t天i股票的股價波動值標準化后的數據,將該數據作為樣本數據用于下述分析。同時為方便處理,記為i股票標準化后的全年的股價波動數據向量。該方法是將所有樣品各自看成一類,類與類之間的距離與樣品之間的距離是相等的,選擇距離最小的一對并成一個新類,計算新類與其他類的距離,再將距離最近的兩類合并,這樣每次少一類,直至所有的樣品都成為一類。所以需要對類與類和樣本與樣本之間的“距離”進行度量。針對樣本與樣本之間的“距離”,采用歐式距離進行度量:
(4)
式中,即股票m和n樣本的歐氏距離。
針對類與類之間的“距離”,采用離差平方和法進行度量。有:
式中,即聚類中類和類用離差平方和法求解的“距離”。其中和分別表示類和類中樣本點的個數。為對應類中的樣本數據。結合公式用 MATLAB 編寫程序,求得各股票股價波動的聚類結果。
依據圖2所示的聚類結果,可以將所有股票分為四類,為了對四類股票的股價波動情況進行定性劃分,考慮到股價波動大小可由數據的離散程度大小來表征,這里引入變異系數(離散程度的歸一化度量),計算各類中所有股票的變異系數并在類中平均,可以得到每類股票的平均離散程度,進而對四類股票的股價波動進行定性劃分。一組數據的變異系數即該組數據的標準差與該組數據的平均數之比,即
(6)
式中,為i股票股價波動的變異系數,表示i股票全年股價波動的標準差,表示i股票全年股價波動的平均值。通過式(6)可以發現,變異系數越大,股價波動越大;變異系數越小,股價波動越小。通過MATLAB編程計算,依據四類中平均變異系數的大小,按照股價波動程度將股票分為高股價波動、中高股價波動、中低股價波動、低股價波動四類,其中高股價波動類的平均變異系數達到9.2622,遠超其他類股票水準,說明該類股票風險很大,后續投資不建議購買,由于持有數量和投資比例的量綱不同,為得到有意義的綜合指數結果,需要對兩者進行標準化處理。發現基金公司B和E,E和J的股票投資種類差異指數均為0.3,在投資的股票種類上有強烈的相似性;基金公司E和G,I和J的持有股票差異指數分別為 0.1748,0.1749,在對所持有股票的投資情況的相似性強;基金公司D和E,D和H,F和H的持股集中差異指數分別為 0.0025,0.0074,0.0050,它們對集中持股的幾類股票投資情況的相似性強。根據股價波動將所有的股票進行系統聚類,本文將股票根據股價波動程度分為四類,并借助變異系數對股價波動的衡量,給出了股價波動高、中高、中低、低的四類標準的詳細劃分。分析結論,可能是因為股票 11,12,13,14,15,28 的好的投資使這些基金公司都對其進行了投資,所以,建議投資者在投資的時候多買股票11,12,13,14,15,28。大多數的兩兩基金公司的指數落在區間[0.5,0.7]內,有著較弱的在對持有股票投資情況的相似性;有一小部分的基金公司間的指數落在區間[0.2,0.5]內,有著較強的相似性;基金公司E和G(0.1768),I和J(0.1749)的指數落在區間[0,0.2]內,相似性很強;基金公司D和F(0.7622),E和F(0.7068),F和G(0.7903),F和H(0.7062),F和I(0.7005),F和J(0.7304)的指數落在區間[0.7,1]內,對持有股票的投資幾乎不相似。結合數據發現,基金公司F對市場公認投資效用好的股票僅投資了股票12,且投資比例最低,與多家基金公司對股票的投資分配幾乎不相似,可能基金公司F采取了一種違背市場認知的投資方式,這可能帶來意想不到的收益,也可能帶來無法想象的風險災難。
4 結語
本文首先對數據進行各基金公司投資概況的簡要分析,其次考慮到股票的風險和收益,使用系統聚類法將股票按照股價波動分為四類,并引入各類股票的平均變異系數對各類股票的股價波動程度進行衡量,據此將股票按照高、中高、中低、低四種股價波動程度分為四類。最后求出整個投資市場普遍認為這 6 種股票相比其他股票有更大的效用。
參考文獻
郭范勇,潘和平.基于β系數優化的動態投資組合策略研究[J].中國管理科學,2019,27(7):1-10.
王晴,朱家明,張馨予.股票投資組合的相關策略探討[J].黑河學院學報,2017,8(7):52-53.
李海艷.淺析貝塔系數[J].內蒙古科技與經濟,2007(19):13-14.
李科,徐龍炳,朱偉驊.賣空限制與股票錯誤定價——融資融券制度的證據[J].經濟研究,2014,49(10):165-178.
Research on Fund Asset Allocation Strategy Based on System Clustering Method
School of Science, North University of China? XU Yezhao
School of Data Science and Technology, North University of China? ZHANG Han
School of Science, North University of China? FENG Guanang? HAN Liyan? PANG Hua
Abstract: This article mainly conducts related research on the asset allocation of funds,and uses the systematic clustering method to solve the problem of the asset allocation of funds. First of all, the relevant data is preprocessed, and it is found that the data has no outliers, and some stock data are partially missing, so they are removed, and a brief analysis of the investment profiles and preferences of each fund company are made. Secondly, it uses the system clustering method to divide stocks into four categories according to stock price fluctuations, and the coefficient of variation of stock price fluctuations is used to divide stocks into four types according to fluctuation types: low, medium-low, medium-high and high. Finally, it comprehensively integrates the relevant factors of the investment strategy and constructs three very small indicators to measure the similarity of investment strategies, the stock investment type difference index, the holding stock difference index, and the holding concentration difference index and the measurement standards are given.
Keywords: system clustering method; stocks; investment