侯曉輝,王 博
(西安交通大學 經濟與金融學院,陜西 西安 710061)
隨著金融學理論和現代計算技術的發展,金融與科技深度融合的重要性愈加凸顯[1-2]。基本面量化投資作為一種結合基本面價值分析與量化技術的投資方法,成為近年來投資領域研究的新熱點。隨著中國資本市場的飛速發展,以及基本面信息越來越海量化、復雜化,學界和業界都需要尋求更科學、更高效的方式來處理基本面信息。基本面量化投資應運而生,其運用現代量化工具對估值指標進行篩選和排序,進行深度分析并制定相應的投資策略。股票市場自從誕生以來就成為學者們研究的焦點[3],同時遵循學術界的傳統和理論發展脈絡,本文對基本面量化投資的研究限定于股票投資。
目前關于基本面量化投資深度融合的理論研究和實踐應用相對較少,本文在回顧國內外相關文獻的基礎上,分別探討了基本面投資、量化投資的概念和理論實踐的發展,介紹了兩種投資方式的理論基礎,在此基礎上系統梳理了相關實證研究及基本結論,最后對未來的研究工作進行展望。
通過定量與定性的方法,分析與公司相關的經濟和金融數據來衡量證券內在價值,被稱為基本面分析(Fundamental analysis)。基本面分析的理論發展和實踐應用可以追溯到價值投資理論創始人Benjamin Graham的經典著作《證券分析》,他指出,對股票的投資應當基于對股票內在價值的判斷,股票的價值是由其基本面因素所決定的[4]。根據Irving Fisher的未來現金流貼現模型,Williams在研究中提出股票的價值應當等于持有者在未來收到的股利的貼現值[5]。在此基礎上,Gordon和Shapiro基于公司當前股利和基本面因素,研究了股利增長的度量,論證了基本面分析的合理性,但該模型對于高成長性公司的預測準確度較低[6]。基于此,Alfred Rabpaport提出了貼現現金流量模型,結合公司基本面因素、成長性和未來創造現金流的能力,通過當期現金流來預測股票的價值[7]。Feltham 和Ohlson提出了超常收益模型,同時考量了股利的貼現與來源于資產價值的剩余收益,將當期的會計基本面因素與公司未來收益關聯起來[8]。
在學術研究中,基本面分析能夠將價格與價值分離開,有助于解釋一些經濟現象,如巨額交易量、超額收益波動性、收益可預測性、資本成本悖論以及主動資產管理行業的持續存在等。隨著相關理論如現代投資組合理論[9]、資本資產定價模型[10-11]及有效市場假說(EMH)[12]的提出,基本面分析開始受到挑戰。主要體現在,基本面分析在量化和響應敏捷性方面有所欠缺,實證研究中也經常發現其對股票價格變化的解釋存在缺陷。此外,基于基本面分析的價值投資需要通過財務數據進行個案分析,其效率不高。在信息時代,價值投資策略的變量更為龐雜,市場“噪聲”不斷增加,傳統的個股估值分析遇到技術瓶頸。
量化投資(Quantitative investing)是一種以數量化統計分析工具為核心、以程序化交易為手段的交易方式[13]。Chincarini指出,量化投資遵循以下理念:一是市場是有效的;二是量化投資策略下的套利機會具有統計意義;三是量化投資分析應該以堅實的邏輯和理論基礎做支撐;四是量化模型應該具有持續性和穩定性;五是必須將風險控制在足夠小,超額收益才有意義[14]。
作為數理模型在金融領域的一種前沿應用,量化投資模型有著清晰的發展脈絡:
1.均值方差模型
1952年,Markowitz首次使用投資組合收益方差度量風險,運用均值方差分析確定最優投資組合,并提出了風險分散的原理,這標志著現代投資組合理論的開端[9]。采用期望收益E度量證券收益,收益的方差δ2度量投資風險,各個資產預期收益的加權平均表示資產組合的總收益,則均值方差模型如下:
minδ2(rp)=∑∑ωiωjcov(ri,rj),
E(rp)=∑ωiri
其中,rp表示組合收益;ri,rj表示第i種、第j種資產的預期收益率;ωi,ωj表示資產i和資產j在組合中的權重;δ2(rp)表示組合收益的方差,即總體風險;cov(ri,rj)表示兩種資產之間的協方差。該模型的目標是在給定的風險水平下,形成具有最高收益率的投資組合。
投資組合理論對于量化投資的發展具有重大意義。一方面,它對風險進行量化定義,同時引入的數學工具可以處理現實中各種復雜問題;另一方面,傳統的基本面分析用到的量化數據較少,而新的量化技術構造的投資組合可以包含成百上千的樣本量,量化投資理論和實踐得以蓬勃發展。
2.CAPM模型
在Markowitz均值方差模型基礎上,Sharpe等人進一步建立了資本資產定價模型(CAPM)[10]。該模型用β系數衡量投資組合收益率與市場收益率的關系:
ra=rf+βa(rm-rf)
其中,ra表示組合收益率;rf表示無風險收益率;βa表示投資組合系數;rm表示市場收益率。
3.三因子模型和多因子模型
Fama和French建立了基于公司規模、超額收益、賬面市值比的線性模型,即三因子模型[15]。三因子模型從本質上是CAPM模型的延伸,其在初期對大部分股票的市場表現具有良好的解釋力。但隨著市場的發展,越來越多的異象不能被該模型有效地解釋,因此學者們對模型不斷進行豐富和完善,從基本面、技術面、市場情緒和宏觀周期等有價值的市場信息來獲得收益,進而發展出多因子模型。目前,常用來預測的因素包含以下三類:一是估值類指標,如PE;二是盈利能力指標,如ROA、ROE;三是新興因素,如情緒、投資者信心等。
量化投資方法的科學性在國外成熟資本市場已經得到了驗證,但在中國市場的大規模應用還存在一定的障礙。首先是市場結構的差異,國外成熟資本市場以機構投資者為主,而中國市場中機構投資者尚不成熟,依托于模型和計算的量化投資方法不易推廣。其次,量化投資對數據質量要求較高,成熟資本市場有著成熟的數據供應商,數據質量也較高。
綜上,基本面分析和量化分析有著明顯的差異(如表1所示)。從關注點上看,基本面分析聚焦于特定的目標公司,致力于盡可能全面挖掘公司信息;而量化分析利用計算機技術廣泛跟蹤大量資產,其重點是通過技術方法構建選股模型。從分析過程來看,基本面分析更多地采取定性方法,而量化投資充分使用了數學模型、統計學和計算機算法。從投資風格上看,基本面分析要求對公司治理、行業趨勢和宏觀經濟環境進行深入調研,屬于一種高投資深度、低投資廣度的投資方法;而量化分析使用計算機執行交易指令,屬于低投資深度、高投資廣度的投資方法。從時間上看,由于公司基本面因素相對穩定,基本面分析適用于中長期投資;而量化分析的投資策略則是基于歷史數據敏銳地捕捉市場變化,尋找最有效的阿爾法因子,對短期的收益做出預測。從風險上看,基本面分析關注公司層面面臨的宏觀經濟風險和產業政策風險,對風險的度量通常使用定性研究的方法且風險層次往往是特異性的;量化分析由于研究的是大樣本呈現的統計規律,因而是投資組合層次的風險。從倉位控制上看,基本面投資組合倉位往往更集中,而量化分析更為分散。

表1 基本面分析與量化投資的對比
資料來源:作者整理。
基本面量化投資(Quantamental Investing)是量化投資與價值投資的一種深度融合,是近年來備受關注的一種智能量化投資方式[16-17],其核心是分析股票的基本面因素和超額收益之間的關系。基本面投資和量化投資的互補特性,使得基本面量化投資成為價值投資的現代化實現手段。基本面量化投資的選股模型通過對公司的財務指標、股票市場表現、行業地位等信息進行量化,借助數學工具構建出能夠有效解釋和預測超額收益的因子。將基本面分析納入量化模型框架之中,能夠對股票及投資組合進行更加全面和穩健的考察,并且具有如下優勢:一是基本面分析為量化模型的建立提供堅實的邏輯和理論支撐;二是量化投資分析方法能夠考察海量的歷史數據,得出相對可靠的統計規律;三是基本面分析從對公司未來增長的角度考慮因子選取,量化分析從歷史數據考察因子的有效性;四是基本面投資能夠對投資組合表現及原因進行全面的、多層次的理解和分析。
目前對于基本面量化投資的研究和實踐主要基于四個方面的理論基礎。
資產價格實證分析領域的著名學者Fama[12,15]系統地提出了有效資本市場假說(EMH)。有效市場假說認為,如果證券市場沒有交易成本,且每個市場參與者都能夠及時、充分地獲取信息,那么股價就應該及時、充分地反映資產價值,此時公司股價是對其未來股利折現的最佳預測。通常以下列形式表達:
其中,Vt是股票在時刻t的基本面價值,Et(Dt+i)是基于時刻t的可獲得信息所預測的第t+i期股利,r是經過風險調整的折現率。
Fama在研究中指出,“如果市場是有效的,那么價格已經很好地反映了證券的內在價值,在這種情況下,只有當分析師有新的信息或對已有信息有新的解讀,分析師所執行的基本面分析才是有價值的”。EMH將價格從基本面價值中分離出來,是基本面量化投資研究和實踐中至關重要的一步。投資實踐中,由于信息不對稱、流動性不足、交易成本高、投資者行為偏差等因素的存在,股價較長時間背離基本面的情形經常出現。金融經濟學家們對其基本假設也提出疑問,認為應該更多地關注信息獲取的成本和動機。但是,EMH還是被廣泛接受,并成為實證資產定價領域的基石。王少平和楊繼生通過對聯合p值綜列單位根檢驗進行擴展研究,發現中國證券市場具有弱有效性[18]。
著名金融學者Shiller最早觀察到基本面因素無法解釋的股價過度波動現象。在隨后的研究中,Shiller提出了一個簡單噪聲交易者模型。在噪聲交易者模型中,投資者情緒會導致價格偏離基本面價值[19]。Black將噪聲交易定義為“把噪聲當作信息并基于此而進行的交易”。他指出,噪聲交易是傳統模型中“被遺漏的要素”,能夠有效解釋巨大交易量、實際收益率波動以及套利機會的持續存在[20]。
與有效資本市場假說過于簡化的形式不同,噪聲交易者模型考慮到了信息獲取成本,巧妙地將基本面、投資者情緒和套利成本等三個關鍵因素融入證券價格的形成過程中。相比有效市場假說,噪聲交易者理論更適合作為基本面分析和證券估值的起點。此后,關于金融市場噪聲交易者模型的研究基本圍繞三個方面開展[21]:一是投資者情緒或非基本面因素;二是公司基本面或證券估值;三是套利約束。
受降雨影響,淮河干流出現復式洪峰。其中,淮河干流王家壩以上河段出現4次洪峰,王家壩—臨淮崗河段出現3次洪峰,臨淮崗—淮南河段出現2次洪峰,淮南以下河段出現1次洪峰。淮河水情總體呈現出干支流洪水并發、洪水組合惡劣、漲勢猛、水位高、干流中游高水位持續時間長以及洪水量級大等特點。淮河干流水位超警時間在20~30天。其中,王家壩至潤河集河段水位超保證水位,潤河集至汪集河段水位創歷史新高。初步分析,2007年淮河洪水王家壩、潤河集、正陽關、蚌埠洪水重現期為15~20年,洪澤湖約為25年,為20世紀以來的第二位流域性大洪水。
大量研究表明,投資者情緒會影響資產定價以及公司決策,如投資決策、股利政策和信息披露決策等。關于投資者情緒的經典文獻包括Shiller[19]、DeLong等[22]、Lee等[23]以及Baker and Wurgler[24]等。這些研究都認為,噪聲交易者易產生隨機且錯誤的觀點,進而顯著影響資產價格。噪聲交易者模型的理論核心至今仍然經得起檢驗,并且在行為金融學領域保持著旺盛的生命力。
大量的學術研究和投資實踐都表明,資產負債表健康、現金流持續穩定、盈利能力較強、貝塔值較低、波動率較小的公司,通常其預期股票收益更高[25],學界通常稱為“價值效應”。股利貼現模型、自由現金流貼現模型以及剩余收益模型等,都是價值投資分析中常見的估值模型。股利貼現模型最早由Williams在1938年提出,該模型認為,股票的價值等于未來股利的貼現值。
20世紀90年代,奧爾森發表一系列關于權益估值的文章,豐富和完善了剩余收益模型(RIM)[8,26-27]。學術文獻中剩余收益模型最常見的表達形式為:公司價值等于當前賬面價值加上未來預期超額收益率,具體數學公式為:
其中,Bt表示第t期的賬面價值,Et表示基于第t期信息的期望值,ROEt+i表示第t+i期賬面權益的稅后收益率,re表示權益資本成本。
剩余收益模型表明,公司基本面價值由現有資本和未來成長兩部分組成。在該模型框架下,基于估值維度和質量維度的基本面量化投資是價值投資理念的具體表現。而在這兩大維度下,繼續深入挖掘更多的因子方向、選擇更有效的指標就成為基本面量化的重點。剩余收益模型在大樣本選股中具有豐富的應用,Frankel和Lee的實證研究說明了剩余收益模型能幫助投資者選出高回報的股票[28]。
現有文獻研究了大量的影響股票收益率的因子,這些因子主要涉及基本面、技術面、宏觀經濟等方面的數據和指標。多因子量化策略的核心思想在于,市場影響因素是多重的、動態的,但是總會有一些因子在一定的時期內較為穩定。
基于多因子量化策略發展出來的多因子模型,成為量化投資領域應用最廣泛、最成熟的量化選股模型。多因子選股模型通過大量的數據模擬,尋找大概率能跑贏市場的最優組合,克服了單因素模型可持續性差的缺陷,同時更加穩定。投資組合理論、資本資產定價(CAPM)、套利定價理論(APT)等現代金融投資理論為多因子模型提供了理論基礎,而Fama的三因子模型則通過在資本市場的實證研究檢驗,給出了將因子具體化的應用方法,成為量化投資領域的經典模型。學界的研究通常使用Fama French三因子模型、Carhart四因子模型[29]或者Fama French五因子模型,投資界則通常使用Barra提供的多因子模型。進入大數據時代,越來越多的研究通過對大數據的收集處理,找出影響股票漲跌的各種因子進行選股[30]。
文獻回顧發現,國內外學者對基本面分析和量化投資的實證研究都已有了較為豐富的成果,對其在投資預測中的優缺點也有了清楚的認識,同時對基本面量化投資這一新興領域進行初步探討,形成了一系列實證研究成果。
圍繞價值的度量,學者們開發出大量的衡量標準,如賬面市值比[31-32]、盈余價格比[33-34]、現金流價格比[35-36]、銷售收入與公司價值比[37]。大量文獻表明,價值股的業績表現優于成長股。隨著研究的發展,學者們的關注點不再局限于公司內在價值與當前股票價格的對比,進一步擴展到一組能夠預測公司發展質量與穩健性的基本面因素。Piotroski的研究表明,具有更高資產回報率、營運現金流量、利潤率、資產周轉率的企業有更好的業績[38]。Mohanram的研究驗證了具有更高市凈率的企業相比于增長緩慢的企業收益更高[39]。學者們發現,除了盈余的數量外,盈余質量也非常重要。Sloan[40]和Richardson等人[41]的研究都發現,盈余中的現金流部分相比于應計項更為持久。Hirshleifer等人的研究發現,相比于整體會計利潤,具有較低歷史現金利潤的公司表現欠佳[42]。Novy-Marx發現,相比于凈利潤指標,毛利潤是一種更好的利潤度量指標[43]。此外,諸多研究證明,安全、穩健的股票能獲得更高的收益。反映企業安全性或穩健性的基本面因素包含較低的波動性[44-45]、較低的Beta系數[46-47]、較低的杠桿比率[48-49]等。
在國內研究中,孫友群等基于對我國上市公司整體質量的分析,肯定了在中國市場進行價值投資的可行性[50]。姚輝和武婷婷的研究發現,兼顧基本面與估值指標的價值投資策略能獲得顯著的超額收益,且該投資策略在中長期的表現更好[51]。張然和汪榮飛的研究提煉出市盈率、市凈率、市銷率、企業價值倍數、股息率等五個最具代表性的估值指標,以及盈利能力、經營效率、盈余質量、投融資決策、無形資產等五個衡量公司質量的維度[17]。
然而,實證數據同時也表明,公司基本面信息只能部分解釋股票收益率的波動性。Cutler等人在向量自回歸模型中使用了一組能夠反映過去、現在和未來的宏觀經濟變量及行業基本面因素,模型對股票市場收益率的年波動性的解釋能力也不到50%[52]。其他學者也試圖運用會計基本面變量來解釋股票收益率,研究結果均發現解釋力不夠理想[53-54]。這是由于市場一直處于“噪聲”下,如前述的投資者情緒就被證明對股票收益有解釋甚至預測的作用[55]。在楊雁的研究中發現,總資產周轉率對股價的影響很小,現金流量和償債能力相關的基本面指標也沒有顯著的影響[56]。
在多因子模型中,能夠帶來超額收益的阿爾法因子是模型的核心。目前學界主要有兩種阿爾法模型:基本面因子模型和宏觀因子模型。基本面因子模型主要利用基本面因子(如市凈率因子、規模因子等)。Lee等發現,基本面因子模型是更好地衡量股票預期收益的指標[16]。同時,基本面因子模型更適用于基本面量化投資。Asness等從市凈率(P/B)展開討論,得到衡量股票質量的四個維度——盈利能力、增長能力、安全性和股利發放,并且根據這四個維度的相關指標構建了股票質量因子(QMJ),回溯測試表明該因子能獲得顯著且穩健的超額收益[57]。
盡管現有的文獻研究提出了數百種阿爾法因子,但后續的檢驗中卻發現,其中大部分因子難以持續地提供超額收益[58-59]。這一現象可以用無套利原理來解釋:當某個阿爾法因子被市場熟知并廣泛應用后,其超額收益將收窄乃至消失。國外學者在因子選擇、選股方法、數據選擇、組合構建上都進行了廣泛的實證研究。Kariya將傳統成長因子與價值性因子結合起來,提出了較有代表性的 GARP 多因子量化策略[60]。Piotroski首次將排序打分法融入多因子選股模型,選出九個財務指標作為判斷標準,然后檢驗得分排序靠前的股票,取得良好效果[38]。Mohanram從盈利因子、成長因子、穩健因子三方面選取指標對個股進行排序打分,最后建立的投資組合取得了較好的超額收益[39]。Albadvi和Norouzi利用德國市場數據對基本面方面的因子進行了研究,發現不同行業具有不同的有效因子,并且不同因子對收益率的影響程度也不一樣[61]。
國內有關研究起步較晚,主要集中在用國外因子模型檢驗中國市場,同時根據國內股市情況進行修正。陳守東等較早證明了FF三因子選股模型在中國股票市場的適用性[62]。朱憶構建了包含利率風險溢價、換手率等因子在內的多因子模型,得到了可行的策略[63]。劉輝、黃建山的實證研究發現,相較CAPM模型,FF三因子模型能更好地解釋A股的收益率[64]。江方敏研究發現只有估值因子中的市凈率、市盈率是有效的,同時他還創新加入了現金流因子[65]。劉昭將情緒因子加入多因子選股模型后,研究發現模型的表現更加出色[66]。潘莉、徐建國研究了A股市場的風險與特征因子,發現市場平均回報率、股票市值和市盈率三個因子可以解釋回報率變化的90%以上[67]。
隨著金融市場的發展,傳統的研究方法逐漸遇到了技術上的瓶頸。首先,候選因子數量日益龐大且較為相近,現有方法無法綜合考慮各因子,也不易區分因子間的交互作用。其次,當因子維度增大時,現有研究方法在高維因子的處理中面臨困難。
隨著文本分析、人工智能、機器學習等全新技術手段的不斷完善,量化投資方法也在不斷借鑒和創新。機器學習和深度學習作為目前代表性的技術,被學者廣泛應用于量化投資中。機器學習既能夠自動地尋找數據中的復雜結構和模式,也提供了眾多的線性和非線性的備選預測函數,且參數正則化和模型選擇技術使得函數不會發生過擬合現象。
Buehlmaier和 Zechner基于機器學習對文本信息進行研究,探討了文本信息對股票價格或交易量的影響[68]。李斌等將機器學習引入基本面量化投資,采用預測組合算法、Lasso 回歸等 12 種機器學習算法,構建股票收益預測模型及投資組合[69]。實證結果顯示,機器學習算法能夠有效地識別異象因子與超額收益間的復雜模式,其投資策略能夠獲得比傳統線性算法和所有單因子更好的投資績效。王倫引入了gcForest(深度森林)算法,建立了基于gcForest 的股票投資市場多因子量化投資策略[70]。
本文研究發現,基本面量化投資研究仍有巨大的空間,在理論建構和實證研究方面仍有大量值得探討的問題。
一是增強本土化研究。目前中國市場機構投資者不夠發達、政策和交易規則變動頻繁、量化和對沖工具相對缺乏,使得市場效率較低,價格偏離價值的情況更普遍。后續研究可以增強本土化研究,比如基于中國宏觀經濟和政策特征,建構中國特色的基本面量化投資概念,推動本土化理論構建。此外,還可以基于中國市場的數據,對現有因子和模型進行修正。
二是對風險和內幕交易的關注。現有研究較少系統考慮風險優化,真實業績與回溯測試結果易產生偏離,關于多因子組合的研究可以從風險控制角度優化策略。此外,現有的研究大多沒有考慮市場中潛在內幕交易的影響,由于內幕交易帶來的超額收益可能顯著大于信息分析能力,這也是值得關注的方向。
三是引入新的量化分析技術。隨著機器學習、人工智能方法的創新發展,不斷涌現的量化分析工具為基本面量化投資研究提供了良好的基礎。新的方法在模型訓練、預測精度、響應速度上有所提升,同時也為處理非結構化數據如文本、圖片、視頻等提供了技術支持。可以將新的量化技術與基本面分析融合,借助新技術挖掘和補充基本面因素,提升模型精度,形成新的研究模型。
四是對數據的深度挖掘應用。在大數據時代,一方面,大量公司特質的非財務數據,以及宏觀、行業等數據逐漸被開發和利用,如公司高管數據、專利數據、實時銷售數據等。這些信息有助于更及時深入地了解公司,理解宏觀、行業和公司層面信息如何影響公司價值。另一方面,大數據時代實時的搜索指數、社交媒體輿情等都有利于高效、敏銳地捕捉市場變化,而量化技術的進步也為搜集和處理此類數據提供了技術支持。未來的研究可以探索將大數據信息提煉成有價值的阿爾法因子,并應用于投資實踐。