海琴 謝懷軍


【摘要】公募基金倉位是機構投資者對市場的預期,也是投資者判斷后市走向的指標,其增減倉動作一直受到投資者的高度關注。本文在比較各種倉位預測方法后選擇基于數據挖掘的BP神經網絡作為建模方法,收集華夏基金年報倉位數據,利用數據挖掘技術分析選擇出相關性最優的變量,在MATLAB中設計優化出基金倉位預測模型,簡化網絡結構,提高預測精度,并證明了神經網絡在投資風格預測中的有效性和普適性。
【關鍵詞】基金倉位;神經網絡;投資風格
一、引言
公募基金行業作為我國迅猛發展的金融理財行業,規模不斷擴大,投資者隊伍迅速壯大。基金倉位反映市場信心,可以作為投資者判斷后市走向的重要指標。對基金倉位的預測一直是學術界和投資者感興趣的問題之一,具有實際應用價值。對于關于基金倉位預測模型的研究,目前國內還局限于傳統線性回歸方法,前提假設過于苛刻,忽略了很多影響倉位的動態因素,造成無法容忍的誤差。目前公募基金的倉位數據僅在每年發布的定期報告中有所體現,但是按照年報頻率公布的基金倉位并不能作為一個連續的后市預期指標,我們希望能夠得到即時基金倉位,幫助投資者規避風險。本文運用神經網絡建立倉位預測模型,利用現有基金市場行為的樣本,從中自主尋找規律逼近復雜的倉位走勢曲線,達到更好的預期效果。
二、基金倉位預測方法綜述
目前,關于基金倉位預測的方法主要包括以下三種。
1.基于收益的基金倉位分析方法,是以夏普在1992年提出的基于收益的基金投資風格分析理論為基礎,通過對基金收益與市場風格指數漲跌幅進行統計計算,估算出基金在不同風格資產上的配置比例,從而獲得基金投入股市的倉位值。該方法可以在一個中觀的維度上為基金投資者提供較為長期的和可持續的投資建議,但是在回歸過程中存在多重共線問題,可能產生較大的參數估計標準差,使得預測誤差較大。
2.傳統的線性預測模型,經歷了三個發展階段,由于理論和算法的創新,測算準確性也有了明顯提高。第一階段的模型,將樣本基金收益率均值除以基準指數收益率得到基金平均倉位,其過程簡單,處理步驟少,但是測算結果跳躍性較大,并且對基金市場指數的選取依賴性強。第二階段的模型,對基金收益、市場指數收益時間序列數據進行回歸測算,初步消除了第一階段模型的噪聲,但是回歸期限過長或過短都會對倉位測算結果帶來較大的誤差,且固定的回歸期限使測算與實際結果之間產生時滯。第三階段的模型,對單只基金與其基準的收益序列進行動態回歸,通過對回歸期限的動態調整,實現倉位測算工作的智能化和自動化,由于測算的樣本是基金倉位數據的云重心,因此能有效消除了前兩個階段測算模型帶來的系統誤差。
3.非線性數據挖掘分析法,是直接對基金持股情況進行數據挖掘,深入剖析基金組合中各類別資產的增持減持情況,依據對基金行業資產的中觀分析,最終實現對基金大類資產倉位的宏觀分析。此測算模型打破了RSV法僅僅依據收益數值來進行測算、結果不具可對比性的缺陷,引入收益分布、波動率等多個指標,動態測算各分類資產相應指標對基金該指標的貢獻度,提高了測算的可對比度,過濾了單一指標會引起系統性誤差的缺陷,并引入因子分析、聚類分析、最優化等方法,進一步提高計算結果的精確性。
本文將結合基于收益的基金倉位分析方法和非線性數據挖掘分析法,借鑒基金倉位測算模型回歸方法中的自變量取值和影響因素,運用非線性系統分析法中的BP神經網絡建立倉位預測模型。
三、基于BP神經網絡的倉位模型構建
1.影響基金倉位變動的主要因素
本文選取的基金倉位是基于基金投入股市的資金市值和基金總資產現值,因此,所有會影響股票價格和基金價格的因素都會影響基金倉位的變動,并且,各因素之間的相互作用也會對基金倉位產生影響。
從基金凈值方面考慮,基金總資產的現值與基金交易價格密切相關。影響基金凈值的因素包括三個方面,即基金單位資產凈值、基金市場的活躍程度和銀行存款利率。其他各種政治、經濟和人文因素,例如外匯市場匯率變化、資金市場利率變化、投資者的心理因素也會影響倉位。這些數據在基金定期報告中具體表現為:期末基金份額凈值、基金市值、期末基金資產凈值、基金收益率、基金單位交易開盤價、基金持股集中度、基金的持倉行業集中度,收市基金指數、基金換手率、基金折價率、居民價格消費指數、銀行利率。
從股票市場價格方面考慮,股票的市場價格最直接的影響因素是供求關系,市場內部因素、基本面因素和政策因素通過作用于供求關系而影響股票價格。具體表現為基金持有股票組合的收益率、股票市值增長率,持有股票的開盤價、最高價、最低價、成交量、收盤價及MACD、KDJ、RSI、PSY技術分析指標。
2.因素相關性分析及邊界劃分
結合數據特征,本文選取2008年10月1日至2012年10月1日時間段,在此期間,已經歷過金融危機,國內經濟緩慢復蘇,宏觀政策調控沒有巨大變化,華夏基金度過了2008年第三季度的最強金融危機沖擊后,持續保持平穩發展。由于國際貿易收支、國際金融市場等因素不足以影響具體倉位值,政治局勢、突發事件等因素不在預測范圍內,所以都劃在本研究邊界之外。
將以上基金年報中的具體數據期末基金份額凈值、基金市值、期末基金資產凈值等和最終倉位值導入excel中的data analysis模塊進行相關性分析。用Correlation工具算出Pearson相關系數,可得到期末基金份額凈值、基金市值、期末基金資產凈值、基金收益率、基金單位交易開盤價、基金折價率、基金換手率、收市基金指數、股票組合的收益率、股票市值增長率、股票市值加權、MACD倉位值的Pearson相關系數超過0.5,將這12個變量劃在最終邊界內作為研究因素。
3.數據采集與預處理
本文選擇華夏基金旗下華夏成長證券投資基金、華夏大盤精選證券投資基金、華夏優勢增長股票型證券投資基金等10種基金在2008年10月1日至2012年10月1日的數據,作為建立模型和網絡訓練的樣本集。
根據模型建立的需要,BP神經網絡要求樣本集合理區間為[0,1],本文運用公式X=(X-Xmin)/(Xmax-Xmin)對樣本集進行歸一化處理。其中Xmax、Xmin為最大值和最小值,X為原始數據,X為轉換后數據。將數據預處理后分為兩部分,前250個數據作為模型的訓練集,剩余的50個數據作為模型的測試集。
圖1 預測模型的網絡結構
4.BP神經網絡建模
本文構建基金倉位預測模型,側重研究基金一個周期中倉位走勢的變化,所采集的數據無法達到海量。根據Kosmogorov定理基本原則,在有合理結構和恰當權值時,有三層結構的前饋網絡就能逼近任意的連續函數,模型設計為單隱含層和輸出層兩個網絡層次。選擇期末基金份額凈值、基金市值、期末基金資產凈值、基金收益率、基金單位交易開盤價、基金折價率、基金換手率、收市基金指數、股票組合的收益率、股票市值增長率、股票市值加權、MACD指標作為神經網絡的12個輸入向量,基金倉位作為唯一輸出向量。根據Kosmogorov定理,初步設定隱含層結點數為2n+l即25個,并利用BP網絡默認初始化函數initnw設計初始權值。考慮到本研究的原始數據經過歸一化處理后符合S型對數函數的取值范圍,選擇tansig作為隱含層傳遞函數,logsig作為輸出層傳遞函數。學習函數選擇學習率可變的動量BP算法traingdx及梯度下降動量學習函數learngdm。性能函數選用誤差性能函數為均方的誤差函數mse。模型網絡結構如圖1所示。
根據以上結構和參數,在MATLAB中建立起基金倉位預測模型,在訓練200,000次,隱含層節點數目為25的情況下,訓練目標達到0.0001,但是收斂速度較緩慢,未達最優模型。
5.優化模型
在優化階段,初始節點數在[15,25]范圍之間進行多次嘗試比對。根據仿真輸出結果與真實值間的擬合程度及誤差大小,最終確定隱含層節點數目為22,其預測誤差為0.29998達到最小,并且均方誤差為0.000999315也為最小,收斂速度較快,達到誤差目標值需經過2338次訓練,訓練時間適中。同時選擇嘗試法確定初始權值。由于網絡中隱含層和輸出層節點的范圍在0到1之間,初始權值選擇為分布在e0.1num22之間的隨機數,其中num為該連接權值的輸入節點數。觀察監測網絡的訓練效果、擬合效果后,基金倉位預測模型確定最終初始權值矩陣。
建立隱含層節點數為22,優化初始權值的BP神經網絡后,經過30萬次訓練達到訓練目標,完成學習成熟的倉位預測網絡。
四、實證結果分析
將50組測試集數據輸入模型,在MATLAB中將預測仿真結果和實際數據進行對比,如圖2所示。
1.擬合:從擬合效果圖觀察,每個測試基金的倉位預測結果與真實值間的偏差在可承受范圍之內。獲得判定系數為0.69261,擬合程度遠遠高于相同樣本線性回歸預測結果0.389。在同一預測期下不同基金的倉位預測值與真實值的相對關系是一致的,說明預測模型對于所研究的行業內的不同基金走勢判斷都有良好適用性,所建立的預測模型是具有一定意義和價值的。
圖2 模型測試數據輸入輸出擬合效果
2.偏差:模型偏差表現為存在預測值高于實際計算值的現象。原因在于數據時間跨度較大,期間經歷奧運、世博等重大活動影響到股市和基金市場的活動,所有經濟主體、金融市場都受到了不同程度的沖擊,間接帶動先前劃在邊界外的貨幣政策、財政政策、際貿易收支等因素的變動,影響了模型擬合度。另外邊界外的基金持股集中度、居民價格消費指數、銀行利率等弱相關因素的積累和相互作用都會帶來擬合的偏差。關于單支基金,基金倉位在不同投資風格中也有相對差別,造成預測的偏差大于其他基金公司的原因,是華夏基金公司總體基金狀況都處于市場風口浪尖的位置,這一帶頭特性導致預測的不可控性增強。
五、結論
本文將傳統的基金倉位測算理念及影響因素同BP神經網絡方法相結合,選擇基于數據挖掘的BP神經網絡作為基金倉位預測模型建立的基本方法,通過數據挖掘技術找出相關因素集,建立神經網絡,相對于線性模型,提高了預測的準確性,同時對結果的擬合與偏差都能夠獲得合理的解釋。本研究使信息技術更好的應用于基金投資風格研究,實現對基金倉位的科學預測,同時對于神經網絡的預測應用也做出了新的探索。
參考文獻
[1]王敏.基于神經網絡的基金凈值預測研究[J].天津大學學報,2008(5).
[2]肖國榮.BP神經網絡在基金價格預測中的應用研究[J].計算機仿真,2011(3).
[3]李學峰,徐華,李榮霞.基金投資風格一致性及其對基金績效的影響[J].財貿研究,2010(2).
[4]董鐵牛,楊乃定,邵予工.中國開放式基金投資風格分析[J].管理評論,2008(7).
[5]J.Clay Singleton編.賈維國,張曉林譯.基金組合投資管理[M].中國人民大學出版社,2007(10):14-28.
[6]Sharpe,W.F.Asset Allocation.Management style and performance measurement.Journal of Portfolio Management,1992,18(2):7-19.