岳書凝 邵波 王健



摘 要:目前我國的量化投資發展迅猛,其中最為熱門的便是多因子模型策略。如今已經有不少成功的量化研究是以多因子選股模型為基礎,基于打分法構建的模型策略,以實際的應用驗證了其可行性。但是多數的多因子模型仍是以投資組合理論為指導進行構建的,而本文考慮到我國國情以及A股的實際情況,則創新性地從市場實際的歷史表現數據出發,結合時下最新興的大數據分析,利用FP-Growth算法發掘多種因子數據表現與收益的關聯規則,反向選擇出最優因子和最優權重,構建更加針對市場特征的實用型投資策略。
關鍵詞:FP-Growth關聯規則算法;多因子打分法模型;因子選擇;賦權
盡管從20世紀90年代到現在,我國證券市場日益趨于完善,國內外眾多學者提供了很多理論上近乎完美的投資模型,但是在我國目前市場尚無法滿足這些模型的嚴格假設條件下,這些在國外運用成熟的量化投資模型在中國市場上并不定完全有效,真正能應用于實踐的并不多。而要想在A股市場上獲取成功有效的持續的超額收益,就需要從我國市場的實際情況出發,探索真正符合A股市場的本土化的投資模型。因此,本文將使用FP-Growth關聯規則算法研究如何選擇有效因子以及如何分配多因子權重,構建一個真正的符合中國A股市場特征的個性化多因子選股模型,構建在我國資本市場上可獲得超額收益的投資策略。
一、算法描述和多因子模型
(一)FP-Growth關聯規則算法
FP-tree的構建,也就是將數據集進行壓縮,是一種緊湊的數據結構,與計算機學科中的樹結構相似。不同的是FP-tree通過鏈接(link) 連接相似的元素,在條件FP-tree的基礎上進行頻繁項集的遞歸挖掘,頻繁模式由條件模式基中去除小于支持度計數的前綴路徑組成。此外FP-Growth算法將數據集壓縮到FP-tree中,從而大大地減少了掃描數據庫的次數,以及存儲大量候選集的開銷。
圖1? FP-tree的實例
(二)多因子模型構建
1.候選因子庫的創建
本文考慮到因子指標的普遍性、數據可得性以及區別度等標準,選擇并獲取如下數據類型并根據FP-Growth算法的原理加以分組分類
表1? (時間區間:六個月):
2.數據匯總及預處理
由于各個描述性因子所衡量的單位不同,導致因子數值范圍差異較大,因此在進行因子分析之前,必須對其進行標準化,本文將數據進行min-max標準化處理,即是通過對原始數據的線性變換,按照比例縮放,使之落入一個小的特定區間,如[-1,1],由此才能進一步導入算法來分析數據。公式近似為:
x* = (x - x_mean)/(x_max - x_min)
3.FP-Growth算法的實現
本文運用Java構造FP-tree,創建FP-tree的具體步驟如下:
本文運用Java構造FP-tree,創建FP-tree的具體步驟如下:
首先創建FP-tree的根結點,標記為“NULL”.
對于數據集中的每個事務執行以下操作:對事務中的頻繁項按照頻繁1-項集L中的順序進行排序,排序后的頻繁項表記為IP/PI,其中p是第一-個元素,而P是剩余元素的表.調用insert.tree{[p/PI]}.
具體的執行過程如下:如果T有子女N使得Nitem_name=p.item_name,則N的計數增加1;否則創建一個新結點N,將其計數設置為1,鏈接到它的父結點T,并且通過結點鏈結構將其鏈接到具有相同item_name的結點。如果P非空,遞歸地調用inser_tree(P,N).
按照支持度遞減的順序建立-一一個項頭表,這樣一顆完整的頻繁模式數就構造完成。注:本文根據投資需求,只針對性的獲取以A組數據(漲跌幅%)為表頭,與其他因子的關聯度。即排除無關的關聯度分析,只得到體現各因子與收益率關系的FP-tree.4.經典多因子打分法模型改進考慮到市場的多變性和不同的因子特性,本文將等權重打分改進為賦權打分。經典的多因子打分法模型實質是計算綜合因子(得分)—即因子標準化后等權重求和的選股過程。本文則根據因子暴露與收益率之間的關系,兼顧因子的偏好方向,成比例地形成投資組合。彌補了經典打分法因權重不定帶來的不穩定性。
二、應用與檢驗
(一)賦權多因子模型的構建
從wind金融終端數據庫導出滬深300個股票六個月前(2019.05)的候選數據,將其標準化處理后導入FP-Growth算法進行挖掘,支持度設為50,調倉頻率(每月調倉一次)。
得如下結果:
表2? 算法挖掘的上跌幅與各因子指標結果
關于該結果的解釋分析:
1.在支持度下,不存在與A1、A4關聯的因子,因此在該時間段多數股票漲跌幅適中,無頻繁大漲大跌。
2.由于A2為跌幅分組,所以不列入買點分析范圍內。
3.通過計算得出,A3關聯占比呈現近似于3:0:2:1.5。即不選擇C所代表的因子,且得出因子權重。
在同花順mindgo平臺上,利用多因子打分法策略,加入賦權進行模擬操作。
設定最大持股數(30只)、初始金額(10,000,000元)
(二)模型回測結果分析
1.模型回測結果
圖2? 收益曲線
圖3? 權重和等權重收益率對比
2.回測結果分析
在回測期內,改進后的FP-Growth算法賦權多因子模型收益率為9.49%,收益率均超過基準收益和等權重模型,且各項指標的表現較于等權重模型均更為優化,可認為改良后模型因子選擇及賦權有效,具有更強的盈利能力和普適性。
三、結論和存在的問題
本文通多運用FP-Growth算法,探究指標變化與收益率的直接關系,個性化的挑選最合適的有效因子;同時驗證了且采用多因子選股模型時,選取的有效因子權重也不是固定不變的。本文模型可以針對不同的板塊、周期、市場的實際情況和宏觀經濟狀況進行不斷的更新和調整,以保證其持續有效性,有針對性地獲取更個性化的投資收益。同時在模型構建的過程中,也發現了一些日后可進行優化的問題。
由于數據的可得性和計算量限制,只能選取部分指標,今后可以考慮加入更全面的技術指標,如KDJ、BOLL等??紤]到程序運行量較大,數據選取時間范圍較小,只能針對短線投資,后續可針對長期龐大數據量改進算法。受到FP-grouth算法的局限性,數據只能進行離散處理,因此不能對數據進行連續性的分析。
四、展望
本文所述可以為量化投資提供一個新的思路,與以往基于經驗判斷定性選擇模型中的因子等權重分配不同,而是運用大數據分析,從市場表現出發,反向思考,創新性的改進經典的多因子打分法策略。該策略除了能夠更深程度的運用于量化選股,還可以針對個股特性及其所處在的周期一對一分析,使投資者對于所選中的優質股有更精準的操作。同時基于FP-Growth關聯規則算法的多因子打分法選擇及賦權改進,還可以擴展向宏觀經濟分析等其他金融領域,可以實時、準確、多維度、智能化的為政府和研究機構的政策制定、經濟分析提供有力的數據支持。甚至可以應用至商業、醫療、教育、農業等其他領域。
參考文獻:
[1]朱濤.基于FP-growth關聯規則挖掘算法的研究與應用[D].南昌大學,2010(01)07.
[2]劉藝.張海濤.劉奇燕.石碩.基于分解數據庫的FP_growth算法關聯規則研究[J].計算機與數字工程,2018(07)1306-1416.
[3]苗苗.多因子選股模型在投資組合管理中的應用研究[D].南京審計大學,2018(05):17.
[4]楊世林.基于聚寬量化投資平臺的股票多因子策略應用楊世林[D].浙江大學,2018(06).
[5]林文強.加性風險模型下量化投資策略及其實現[J]科技經濟導刊,2019,27(10)4-6.
[6]黃東賓.有效因子綜合偏好強度與CVaR整合優化模型[J]運籌與管理,2019,03(3)24-30.
[7]趙子銘.基于有效因子復合檢驗法的多因子選股策略[N]廣州航海學院學報,2019,09(3)74-78.
通訊作者:邵波(1980-),男,杭州,講師,博士,微生物量化金融研究,量化金融大數據挖掘。