朱文莉 于智超
(陜西科技大學經濟與管理學院,陜西 西安 710021)
量化投資是一種以數據為基礎、以模型為核心、以程序化交易為手段的交易方式。伴隨實踐的發展,國內關于量化投資的研究文獻不斷增加,本文以中國知網數據庫(CNKI)期刊、碩博學位論文為樣本,用Citespace可視化分析工具對國內量化投資研究文獻進行系統分析,力求直觀展現我國量化投資領域的研究進展、熱點和趨勢,同時為學者的進一步研究提供參考。
本文整理了2010—2020年CNKI中國學術期刊和碩博學位論文中的關于量化投資領域的文獻數量,并對其進行可視化。根據圖1可以清楚地發現,關于量化投資的相關文獻總體上呈現出較為穩定的態勢,但在2011和2015年出現小幅下滑,且在2019-2020年間出現極為明顯的滑落,幅度達到40%。將其分為三個階段,第一階段為2010-2015年,在此階段增長速度相對緩慢,且文獻數量總和整體在100篇以下;第二個階段為2015-2019年,文獻數量呈現快速上升趨勢,并于2019年文獻數量達到261篇;第三階段是2019-2020年,此階段學術期刊

圖1 總文獻數量統計圖
勾選CNKI的中國學術期刊和碩博學位論文(網絡版) ,以”量化投資”或“Quantitative trading”為檢索詞,依次進行主題、篇名、關鍵詞檢索,發現我國2010年量化投資研究出現爆發式的增長。基于此,本文選取檢索日期為2010年1月1日至2020年12月31日,數據采集時間為2021年5月1日。手工剔除了期刊文獻中的學術會議通知、會議綜述、書評等非學術研究性論文,得到1315篇樣本文獻,其中期刊論文568篇,學位論文747篇(碩士論文727篇,博士論文20篇)。
Citespace是美國德雷塞爾大學終身教授陳超美先生及其團隊根據Java語言開發的軟件,其主要應用于信息分析領域。該軟件可以對文獻的作者、研究機構、關鍵詞等信息進行抓取,通過可視化的圖譜將這些信息直觀展現出來,進一步對信息分析,發現該領域的研究熱點和趨勢。本文采用的是Citespace的5.7.R5W版本。
以及學位論文數量均出現顯著下降。由圖2可以看出,核心期刊的發文數量上下波動較大,趨勢較不穩定,說明關于量化投資領域研究總體質量有待提高。

圖2 核心期刊文獻數統計圖
在將CNKI數據轉換后,將其導入Citespace分析,首先對研究作者之間的合作網絡進行分析。設置時間段為2010-2020,時間切片為1年,節點類型選擇“作者”,同時閾值“提取標準”設置為“Top N=50”,得到了1422個節點,529條連線,網絡密度為0.0005的合作網絡圖。每個節點代表一個作者,連接線代表作者間存在合作,網絡密度0.0005表示作者間合作密切程度很低,說明大多學者處于相互獨立研究的狀態。再用普賴斯定律計算量化投資領域核心作者的數量,計算方法為:n=0.749·,,其中最大發文量量Nmax=11,計算得得n≈3,,即發文量3篇以上的作者可作為量化投資領域的核心作者。結果表明,發文量為3篇及以上的作者共有35名,總計163篇(表1,中間省略),約占量化投資領域研究總論文量的13%,遠不及普賴斯定律所提的核心作者群體發文量應占總發文量50%的標準。這也說明了目前量化投資領域尚未形成核心作者群體,缺乏研究的主力軍和骨干。

表1 2010—2020年量化投資領域核心作者及發文量情況
關鍵詞共現分析是對文獻的關鍵詞進行提取,研究關鍵詞出現的頻率及其之間的關系。在Citespace上進行設置,將時間切片設置為1年,分析節點設置為“keyword”,設置閾值插值(2,2,12),分別代表一個單位的時間切片內關鍵詞出現頻次最低為2次、共現頻次最低為2次,以及關鍵詞之間出現的共現率為12%。首次分析得到239個節點和510條連線,但出現一些相似的關鍵詞,需對這些類似的關鍵詞進行合并,如將“量化投資”“量化交易”及“程序化交易”合并為“量化投資”;將“量化投資策略”“量化策略”“交易策略”及“量化交易策略”合并為“量化投資策略”;“多因子選股模型”“多因子選股”“多因子”及“多因子模型”合并為“多因子選股模型”等等。合并之后再對圖譜進行調整,最終得到圖3所示的關鍵詞共現圖譜,圖譜共有213個節點,400條連線,分別代表了出現2次以上的關鍵詞個數以及它們之間的連線。

圖3 2010-2020年量化投資研究領域關鍵詞共現圖譜
表2列出了出現頻次大于等于20次的關鍵詞,一共有18個。中介中心性大于0.10的關鍵詞,可以視為具有高中介中心性的關鍵節點[1]。

表2 2010-2020年我國量化投資熱點主要關鍵詞
結合表2和圖3,可以看出,關鍵詞“量化投資”出現的頻次最高(701次),其次是關鍵詞“多因子選股模型”(116次),但它們的中心性都不高,分別為0.02和0.03,屬于高頻低中心性的關鍵詞。接下來是關鍵詞“量化投資策略”和“量化選股”,這兩個關鍵詞出現頻次分別為101次和51次,同時中心性也較高,分別為0.26和0.5,屬于高頻高中心性的關鍵詞,這四個關鍵詞可以將其歸入量化投資領域研究熱點的第一梯隊。
頻次出現在20至50之間的關鍵詞有“支持向量機”“投資者”“量化基金”,這些關鍵詞雖然出現頻次都不算太高(分別為43,39,33),但中心性都比較強(分別為0.16,0.25,0.33),可以將它們歸入為量化投資領域研究熱點的第二梯隊。
除了以上所列的關鍵詞,還有一些低頻高中心性的關鍵詞,如“技術分析”的頻次和中心性分別為16和0.27,“大數據”的頻次和中心性分別為14和0.2,這些關鍵詞出現的頻次較低,但中心性較高,也是量化投資領域研究的熱點詞匯。
最終,結合文獻內容,將我國量化投資領域研究關鍵主題歸納為以下四個方面:
1.對量化投資的基本原理及其在我國的發展探討。有的學者認為我國量化投資還處于初級階段,但隨著中國的金融市場不斷成熟,運用量化投資的機理和方法將是未來國內市場投資策略的發展趨勢;有的認為量化投資對金融大數據情報分析的研究亟待加強。總的來說,這部分學者從量化投資原理出發,認為隨著我國金融業的發展,量化投資的研究將不斷趨于成熟。
2.基于計算機技術對量化投資的策略研究。主要是利用計算機技術,通過計算機的算法,構建量化投資策略,然后利用歷史數據對策略進行檢驗。在這些研究中,有學者利用Random Forest和Adaboost算法與因子庫結合,構建的集成學習算法選股模型跑贏了大盤指數并取得了較好收益;也有學者利用 LSTM為基礎提出了C-LSTM模型,并基于此構建了指數擇時策略,大幅提升了擇時信號的準確度。總的來說,利用計算機技術研究量化投資,其重點都是在計算機技術的應用上,通過計算機算法找到合適的選股因子,不斷優化量化投資模型,構建跑贏大盤指數的投資組合。
3.基于行為金融學對量化投資的策略研究。主要是從行為金融學的視角出發,研究行為金融學中的各種因素對量化投資的影響。例如有學者構建了動量交易強度指標,通過實證發現了中國的開放式基金普遍存在動量交易行為;也有學者發現羊群效應和動量效應都是有情緒因素和信息傳播引起的,短中期(60天內)將這兩種效應結合構建組合,可以獲得超額收益。總的來說,研究者大都將行為金融的中的指標進行量化,通過市場實證指標的影響,并以此為依據,構建投資收益超過大盤的資產組合。
4.對量化投資存在風險的關注。例如有學者提出量化投資在應用的過程中,減少傳統道德風險的同時可能產生新型道德風險,建議規制和監管不斷更新,與其發展相適應;再如有學者提出主成分吸收率對股市重大波動有預測能力,以此構建穩健的投資策略,能有效降低投資風險。總的來說,這部分學者從風險的角度出發,以降低量化投資的風險為目的。
新生主題詞的突顯代表了研究前沿與研究的新穎度,對2010-2020年所有文獻樣本的關鍵詞進行突變分析,得出了突變強度排名前34位的突變詞,如圖4所示。圖中顯示了關鍵詞、查詢的起始年份、關鍵詞突變強度、關鍵詞首次出現的起始時間及結束時間,而紅色的線條由關鍵詞的起止時間決定線條越長,關鍵詞突變持續時間越長,如關鍵詞“投資者”(圖4),分析的起始年限為2010年,突變強度為3.81,該詞在確定的分析期間,首次出現的時間也是2010年,結束于2015年,說明其在2010年至2015年間為量化投資領域研究前沿。

圖4 2010-2020年量化投資研究的突變詞
由圖4看到,在持續時間上,“投資者”“量化基金”“分級基金”“統計套利”作為前沿熱點持續時間較長,均到達或超過4年,但2017年之后都不再成為前沿熱點。在突變強度上,“量化投資”“股指期貨”“隨機森林”這些詞的突變強度較大,說明在這些詞在出現的年份具有較強的新穎性,適合在這些年份作為研究對象。在研究時間推進看,持續到2020年的突變詞有“金融科技”“人工智能”“強化學習”“深度學習”“集成學習”“配對交易”,說明量化投資領域研究的前沿熱點多與計算機相關。總的來說,量化投資的發展得益于大數據、人工智能、機器學習等與計算機領域相關研究的發展,量化投資需要的數學模型、完善的數據體系、程序化的交易手段等條件,這些都通過計算機技術的發展得到了很好的應用,未來關于量化投資的研究,也一定是圍繞著計算機技術而展開的。
1.近年來,量化投資研究文獻數量在不斷增加,但研究的質量并不穩定。目前該領域尚未形成核心作者群體,缺乏研究骨干。
2.在研究熱點和研究主題方面,量化投資從以“量化選股”“量化投資策略”為主要關鍵詞,擴展到“機器學習”“支持向量機”“股指期貨”等關鍵詞,主要形成了四個方面的主題研究,分別是對量化投資的基本原理及其在我國的發展的探討、基于計算機技術對量化投資的研究、基于行為金融學對量化投資的研究、對量化投資發展中風險的關注。
3.在研究前沿方面,持續到2020年的突變詞有“金融科技”“人工智能”“強化學習”“深度學習”“集成學習”“配對交易”,說明量化投資領域研究的前沿熱點多與計算機相關,未來關于量化投資的研究,也一定是圍繞著計算機技術而展開的。
隨著我國金融市場的不斷發展壯大,量化投資技術逐漸趨于成熟并被大家所接受,伴隨實踐的發展,量化投資將會更加受到研究者關注。根據Citespace文獻計量分析結論和量化投資發展趨勢,進一步研究應注重以下幾個方面。
1.注重合作研究,在合作中形成更多高水平研究成果,提升研究質量,逐步形成核心作者群體。
2.加強本土化研究。與國外的成熟資本市場相比,我國資本市場開放時間較短,資本市場的政策和規則變動頻繁,量化和對沖工具相對較少。基于中國資本市場的特征,可以更多關注政策和規則的調整、投資者的非理性行為,探索符合國內市場的量化投資理念和方法。
3.充分利用大數據技術獲取數據,探索更為優化的量化投資模型。未來的研究,充分利用大數據深度挖掘信息數據,不斷更新信息數據的同時,提煉有價值的信息數據,保證所收集信息的有效性和及時性,同時將計算機技術和數理統計有效結合起來,科學地利用人工智能、機器學習等方法,進一步去尋找更多更好的模型,不斷更新完善量化投資模型。