徐國棟 廈門大學(xué)嘉庚學(xué)院會計與金融學(xué)院
互聯(lián)網(wǎng)+時代的來臨,大數(shù)據(jù)風(fēng)起云涌,數(shù)據(jù)量龐大,維度高維化,應(yīng)用多層次化,大大推動了人工智能的產(chǎn)業(yè)化運用,人工智能與醫(yī)療、教育、金融、藝術(shù)、交通、建筑的等各個產(chǎn)業(yè)深度融合,開創(chuàng)了產(chǎn)業(yè)升級創(chuàng)新驅(qū)動的大浪潮。本文將探討人工智能算法及其在財務(wù)大數(shù)據(jù)分析和基本面量化投資中的應(yīng)用。
人工智能算法的核心為機器學(xué)習(xí),機器學(xué)習(xí)的算法主要分為有監(jiān)督學(xué)習(xí)算法(Supervised Learning)、無監(jiān)督學(xué)習(xí)算法(Unsupervised Learning)、半監(jiān)督學(xué)習(xí)算法(Semi-Supervised Learning)三大類。這三大類算法的關(guān)鍵區(qū)別在于是否有樣本的標(biāo)簽,如果全部有標(biāo)簽則為監(jiān)督學(xué)習(xí),全部都沒有則為無監(jiān)督學(xué)習(xí),部分有部分沒有則為半監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)的常見算法主要包括:決策樹算法、支持向量機、boosting與bagging算法、BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、LSTM神經(jīng)網(wǎng)絡(luò)等;無監(jiān)督學(xué)習(xí)則包括K均值聚類、層次聚類、主成分分析(PCA)、奇異值分解(Singular Value Decomposition);半監(jiān)督學(xué)習(xí)算法則主要包括生成式高斯混合模型算法、圖半監(jiān)督學(xué)習(xí)、標(biāo)記傳播算法等。
黨的十九大以來,習(xí)近平總書記對資本市場作出了一系列重要指示批示,為新時代資本市場改革發(fā)展指明了方向。習(xí)近平總書記指出,金融是實體經(jīng)濟的血脈,為實體經(jīng)濟服務(wù)是金融的天職,是金融的宗旨,也是防范金融風(fēng)險的根本舉措。資本市場作為企業(yè)和居民投融資的重要渠道,要發(fā)揮其服務(wù)實體經(jīng)濟的重要基礎(chǔ)性功能,理清價格信號尤為關(guān)鍵,上市公司的股價只有正確反映了以公司財務(wù)狀況和經(jīng)營情況為主的基本面信息,才能高效發(fā)揮其資源配置的價格發(fā)現(xiàn)的強大功能,否則,極可能導(dǎo)致投機盛行和資源錯配。基本面分析和價值投資也是實證會計和金融科技領(lǐng)域理論研究的重點,具有重要的理論價值和實踐意義。近年來隨著大數(shù)據(jù)和人工智能技術(shù)的深度運用,量化投資逐漸走入人們的視野,其中以公司財務(wù)(含經(jīng)營)信息分析為主的基本面量化投資更是成為財務(wù)領(lǐng)域研究的熱點。用量化的方法研究公司基本面,用人工智能的算法研究量化投資,屬于跨界和跨學(xué)科研究的熱點,亟待理論研究和實務(wù)操作上的突破創(chuàng)新。
傳統(tǒng)的主流投資理念是基本面價值投資,利用財務(wù)分析師的專業(yè)技能,深入分析少數(shù)幾家公司的財務(wù)報表和經(jīng)營信息,綜合判定股票的價值進而進行投資決策,但是具有主觀性太強,投資廣度差(覆蓋面低),風(fēng)險不可控,可重復(fù)性(可操作性)差等天然缺陷。隨著計算機技術(shù)的發(fā)展,量化投資應(yīng)運而生,運用計算機的大數(shù)據(jù)分析能力對所有股票進行高效量化分析,投資廣度大客觀性強,但是傳統(tǒng)的量化投資主要是以研究股價、成交量等技術(shù)面信息為主,很少涉及基本面,容易導(dǎo)致市場趨勢投資盛行,短線波動加劇,股價信號失靈等問題。因此,近年來理論界和實務(wù)界逐漸將目光轉(zhuǎn)向了基本面+量化投資,也就是用大數(shù)據(jù)的量化分析方法對所有公司的(財務(wù))基本面進行統(tǒng)一分析,高效地篩選出所有質(zhì)地優(yōu)秀的股票進行組合投資,形成了“基本面量化”的投資流派,將基本面分析和量化投資各自優(yōu)點得到了充分的發(fā)揮。Soliman(2008)在頂尖會計學(xué)期刊TAR,首次運用經(jīng)典的杜邦財務(wù)分析的方法研究了美國上市的所有(有相關(guān)數(shù)據(jù)的)股票,發(fā)現(xiàn)ATO(經(jīng)營資產(chǎn)周轉(zhuǎn)率)指標(biāo)能顯著地預(yù)測未來盈余變化和股票的超額回報,從量化的角度對財務(wù)分析核心指標(biāo)的投資決策價值給出了經(jīng)驗證據(jù)。Hirshleifer et al.(2013)首次探討了創(chuàng)新效率和股票超額收益之間的關(guān)系,利用單位研發(fā)支出轉(zhuǎn)化的專利數(shù)量來衡量公司的創(chuàng)新效率,從量化的角度證實了經(jīng)營性數(shù)據(jù)對投資決策的重要價值。Belesis et al.(2020)利用2002年至2017年期間的標(biāo)普500指數(shù)的所有成分股,以O(shè)hlson模型進行了實證檢驗,發(fā)現(xiàn)會計變量(收益、賬面價值、現(xiàn)金流量、研發(fā)費用等)對股票未來收益具有顯著解釋力,并討論了其對于會計準(zhǔn)則制定者和投資價值評估的重要意義。
傳統(tǒng)的基本面量化投資,基本上都是以線性回歸模型為主,對于各個基本面因子之間可能存在的非線性關(guān)系無能為力,另外還存在過擬合和多重共線性的問題,然而近年來興起的以機器學(xué)習(xí)(含深度學(xué)習(xí))為代表的人工智能算法較為完美的解決了這一問題(Athey and Imbens,2019),國內(nèi)外都掀起了將人工智能技術(shù)應(yīng)用于量化投資的熱潮。Ding et al.(2015)運用深度卷積神經(jīng)網(wǎng)絡(luò)模型,從新聞中提取出事件并進行向量表示,對其進行訓(xùn)練用于模擬事件對于股價變動的短期和長期影響。模型在預(yù)測 S &P500 指數(shù)和個股價格時比基準(zhǔn)方法實現(xiàn)了6%的改進。Gu et al.(2020)在國際頂尖金融學(xué)期刊RFS發(fā)表機器學(xué)習(xí)研究論文,對比了眾多的機器學(xué)習(xí)方法預(yù)測股票收益的能力,發(fā)現(xiàn)決策樹和神經(jīng)網(wǎng)絡(luò)模型的效果最好,在某些情形下,投資業(yè)績能夠?qū)崿F(xiàn)翻番,從實證角度證實了人工智能方法在資產(chǎn)定價研究領(lǐng)域的獨特績效。國內(nèi)人工智能量化投資領(lǐng)域的研究相對較為滯后,直到最近幾年才有相關(guān)較高質(zhì)量論文發(fā)表,但是系統(tǒng)性成果較少。賀超等(2020)對傳統(tǒng)的Adaboost算法進行改進后,進行多因子選股模型的檢驗,發(fā)現(xiàn)該算法的魯棒性較好,AUC評分高達0.71。
證監(jiān)會召開2020年系統(tǒng)工作會議,會議提出,穩(wěn)步推進以信息披露為核心的注冊制改革,可以說提高信息披露質(zhì)量是整個資本市場改革的關(guān)鍵和熱點。我國會計改革的重要目標(biāo)之一,就是提高我國資本市場中會計信息的投資決策有用性。FASB(美國財務(wù)會計準(zhǔn)則委員會)也指出,會計信息要與投資者、債權(quán)人等使用者的投資和信貸決策相關(guān),就必須通過幫助其對過去、現(xiàn)在和將來事件的結(jié)果做出預(yù)測或者是證實或更正先前的期望,從而具備在決策中導(dǎo)致差別的能力。然而,我們認(rèn)為,應(yīng)該從大數(shù)據(jù)視角重新解構(gòu)信息披露,投資者決策所使用的的基本面信息,至少應(yīng)包括4個層面:1、財務(wù)報表數(shù)據(jù)(如市盈率、市凈率、毛利率、資產(chǎn)周轉(zhuǎn)率等指標(biāo));2、經(jīng)營層面數(shù)據(jù)(如主導(dǎo)產(chǎn)品產(chǎn)銷量、研發(fā)投入、專利數(shù)量、高管薪酬、員工構(gòu)成等信息);3、證券分析師數(shù)據(jù)(如投資評級、盈利預(yù)測、評級修正等);4、財經(jīng)媒體信息(如個股財經(jīng)新聞報道、股吧、討論區(qū)、微信公眾號等)。以往相關(guān)學(xué)術(shù)研究的焦點主要關(guān)注會計盈余信息,或者評估某一特定的單項信息(如只評估研發(fā)投入)對股價的影響,本文認(rèn)為應(yīng)該從大數(shù)據(jù)獨特視角,從以上4個層面的信息來對信息披露的質(zhì)量進行綜合評估,在學(xué)術(shù)研究基礎(chǔ)上,從信息披露的綜合質(zhì)量評估的層面為證監(jiān)會、財政部等監(jiān)管機構(gòu)和會計準(zhǔn)則制定部門提供相關(guān)政策建議。
人工智能戰(zhàn)略已經(jīng)上升為國家戰(zhàn)略。習(xí)近平總書記強調(diào),人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,加快發(fā)展新一代人工智能是事關(guān)我國能否抓住新一輪科技革命和產(chǎn)業(yè)變革機遇的戰(zhàn)略問題。要培育具有重大引領(lǐng)帶動作用的人工智能企業(yè)和產(chǎn)業(yè),構(gòu)建數(shù)據(jù)驅(qū)動、人機協(xié)同、跨界融合、共創(chuàng)分享的智能經(jīng)濟形態(tài)。研究人工智能算法在基本面量化投資中的應(yīng)用,研究成果將為推動人工智能產(chǎn)業(yè)和財務(wù)、金融產(chǎn)業(yè)深度融合,創(chuàng)新驅(qū)動,為傳統(tǒng)金融產(chǎn)業(yè)的升級發(fā)展提供一定的理論支持和實踐指導(dǎo)。
資產(chǎn)定價理論作為財務(wù)學(xué)的核心研究主題,一直是理論研究的熱點難點。諾貝爾獎獲得者Sharpe(1964)提出了著名的CAPM模型,認(rèn)為β系數(shù)是影響股票收益的核心因素。Fama和French (1992)提出了著名的三因子模型,發(fā)現(xiàn)上市公司的市值、賬面市值比、市盈率可以解釋股票回報率的差異。2015年,F(xiàn)ama and French又提出了五因子模型,在原有的三因素模型中,加入了代表盈利能力的RMW因子和代表投資模式的CMA因子。可以說,對股票超額收益影響因子的考察貫穿了整個現(xiàn)代財務(wù)學(xué)的發(fā)展歷史。Fama的另一著名觀點則為有效市場理論。除了Fama提出的五因子之外,是否還有其他能夠顯著影響股票回報率的因子?通過財務(wù)大數(shù)據(jù)的挖掘,利用機器學(xué)習(xí)的算法找出可能影響股票超額收益率的基本面因子,進而構(gòu)建套利投資組合,可以為資產(chǎn)定價和效率市場理論提供進一步的經(jīng)驗證據(jù)和學(xué)術(shù)觀點。
基本面量化投資主要包括單因子評價和多因子評價。對于單因子評價,可以通過單因子分組后的套利組合業(yè)績評價來評價單因子,篩選出對未來股票回報率敏感的基本面因子。具體來說,首先每月月末將待評價的單因子的標(biāo)準(zhǔn)化得分按照從小到大的順序分成10個組,將每個組的股票視作一個投資組合,計算每個投資組合的月均收益,并計算多空套利組合(因子得分最高的,減去得分最低的組)的月均收益、T統(tǒng)計量、夏普比率等指標(biāo),如果T值顯著,夏普比率也較高,則說明該因子為敏感因子,納入下一步的多因子研究分析。
對于多因子評價,則可以在確定的敏感的基本面單因子之后,將所有敏感的單因子作為一個基本面因子集合,運用人工智能算法,進行多因子量化投資的分析。根據(jù)多因子量化選股的需求,由于每只股票都有橫截面期間的報酬率(標(biāo)簽),所以主要采用有監(jiān)督學(xué)習(xí)的回歸類算法進行多因子量化投資套利組合的構(gòu)建,最后通過相關(guān)的組合業(yè)績評價指標(biāo)(如阿爾法值α、夏普比率SR、信息比率IR、貝塔系數(shù)β、最大回撤MDD等)來評價該模型的效能,最終挑選出最佳的機器學(xué)習(xí)算法模型來進行量化投資管理。