文程 羅長青
摘 要:大數據是一種極其重要的國家戰略資源,對金融理論及實踐的影響既廣且深,文章梳理了大數據及相關技術對金融學的系統影響。在放松理論假設、革新研究工具、升華既有內容與拓展新興領域四個方面,大數據將引起理性經濟人假設再厘定、引入全樣本數據及相關性分析、設計高頻程式化交易規劃與強化互聯網金融風險控制,從而重塑金融學。
關鍵詞:大數據;理性經濟人;計算金融;高頻程式化交易;互聯網金融
中圖分類號:G642 文獻標識碼:A 收稿日期:2020-01-30 文章編號:1674-120X(2020)14-0105-04
追根溯源,Apache.org的開源項目Nutch中最早出現“大數據“一詞,意指在更新網絡搜索索引的同時需要分析和處理大量數據集。其后,隨著計算機網絡、云計算與數據挖掘的進一步發展,大數據技術應運而生,在數據體量、結構類型與處理速度上均獲得了質的飛躍,并以數據驅動的思維方式深刻地重塑著行業已高度數字化的世界,促進了自然科學與社會科學的交互,促進了定量分析與定性分析的融合,使數據真正成了一項足以與資本、勞動力及自然資源不分伯仲,甚至有過之而無不及的戰略資源。在現代金融理論的框架下,各類金融主體在不同程度的有效市場中,收集定性與定量數據,緩解市場信息不對稱問題,并通過設計交易策略和風控模式來實現資金的跨期最優配置。因此,市場假設、信息處理、交易行為和風控模式是現代金融體系的核心要素。其中,市場假設是金融活動的前提,信息處理是緩解信息不對稱問題的重要手段,交易行為和風險控制是金融主體兩類最頻繁且主要的活動,是“硬幣的兩面”。
大數據在金融領域的廣泛運用,深化了金融學的基本理論,革新了金融學的分析工具,豐富了金融學的重要內容,拓展了金融學的領域邊界,深刻改變了現代金融體系的核心要素。基于這一理解,文章擬從理論假設到研究工具,從既有內容到新興領域,從樣本數量到結構類型,緊密結合當前金融市場新興的高頻交易模式以及互聯網金融方興未艾的發展趨勢,依次探討有效市場假說中理性經濟人的再厘定、計算金融的全樣本數據及相關性挖掘、高頻程式化交易的策略時序規劃與互聯網金融的風險控制四個問題,最后指明大數據金融的局限性。
一、有效市場假說中理性經濟人的再厘定
眾所周知,金融研究由定性向定量的決定性轉變,進而涵蓋資產組合、資本資產定價、套利定價與期權定價等諸多主流模型與方法,實肇始于現代資本理論的產生,而有效市場假說則是奠定整個現代資本市場理論的基石,是金融學中最為重要的七個理念之一。Kendall(1953年)發現股價時序類似于隨機漫步,認為所有已知信息一定已經反映于股價之中,股價只對不可預測的新信息做出上漲或下跌反應,是隨機且不可預測的。Fama(1970年)將之深化為有效市場假說(EMH),并將其分為三類:股價反映了全部可從市場交易數據中獲得信息的弱式有效市場、股價反映了所有公開信息的半強有效市場、股價反映了全部與公司有關的公開或內部信息的強有效市場。
這一重要理論的建立依賴于一個基本而關鍵的假設,即資本市場中所有投資者均為“理性經濟人”。這是一種新古典宏觀經濟學假設,意指所有投資者為風險厭惡者,要求的高收益與其承擔的高風險一致,利益最大化的投資者可根據其獲取的信息對證券進行合理與最優的定價。然而,近年來的研究屢屢發現現實中存在著越來越多與“理性經濟人”假設不符的案例。一方面,這促使有效市場假說自身不斷演進,并逐漸放松理性經濟人假定。比如,投資者一般是理性的,能對證券價值做出較合理的評估;有些投資者在某種程度上并非理性,但其隨機性交易使非理性相互抵消而不影響證券價格;也許非理性投資者會犯同樣的錯誤,但市場中的理性套利者會消除他們對價格的影響等。另一方面,促使金融市場微觀結構、行為金融以及分形市場等新理論不斷產生,從新的假設條件與角度出發,更貼近現實地解釋各種市場現象,特別是有效市場假說的種種異象。盡管這些新理論在某一方面更具實用性與說服力,但尚未成熟,亦無法取代有效市場假說。況且經典理論是完美條件下的標準化理論,假設放松后依然是新理論的參照標準。
目前,上述理論基本上各有所長,僅適于從某一特定視角對某些資本市場現象加以解釋。其未來趨勢必將是相互聯系與借鑒,而大數據的出現則為這種融合提供了以往無可比擬的實證之源:基于大數據分析,可精準識別所有投資者的風險偏好。哪些是理性經濟人認定的風險厭惡者,哪些是風險中性者,哪些又是風險喜好者?在遭受重大損失時,會采取何種冒險行動,會導致哪些形式的非理性行為?基于大數據分析,可精準描述所有投資者對新信息的反應速度。哪一些或者哪一類投資者對新信息做出了迅速反應?哪一些或哪一類投資者是在獲取信息以后,先觀察新信息出現時證券的最新變化趨勢,再對信息做出反應?哪些反應是線性的,哪些又是非線性的?其整體性狀與統計規律如何?基于大數據分析,可精準刻畫所有投資者對新信息的反應程度。考察所有投資者的主觀判斷,可對正確與錯誤的判斷加以區分,而后重點研究對新信息做出的錯誤反應,以及由此在市場中引起的非理性波動。
毋庸置疑,通過大數據實證分析對理性經濟人的再厘定,有望使各理論融會貫通,形成一個以有效市場假說為主的統一理論體系,重塑現代資本理論,進而重塑金融學。
二、計算金融的全樣本數據及相關性挖掘
大多數學科的科學化與精確化,都需要采用數學語言加以描述,金融學亦是如此。正是由于可運用金融學數學語言定量地描述和預測交易行為,金融機構才得以較高效地收集市場信息,緩解市場的信息不對稱問題,從而實現資金的優化配置。金融的定量分析不僅需要運用數學語言,還需要借助計算機科學的相關方法。雖然都是金融學、數學與計算機科學互相融合的產物,但分支流派各有側重,不盡相同,如數理金融側重于隨機過程與微積分,較多地表現為方程求解與數值分析;計量金融側重于概率統計,較多地表現為參數估計與假設檢驗;計算金融則側重于人工智能,較多地表現為機器學習與數據挖掘。
一般而言,數理金融以模型為驅動,但往往因現代金融建模中存在諸如多尺度、高維度、不適定、非線性與奇異性等復雜因素,不僅可能讓方程無解,而且數值分析也可能面臨計算規模大得難以承受或者失去時效、計算不穩定、數值結果不可信、包含奇異性、計算非正常終止等問題;計量金融面向數據,以樣本數目趨于無窮大時的漸近理論為基礎,然而現實中樣本數目通常有限,故盡管理論預期較好,其類似于自然科學實驗的計量結果卻往往不盡如人意,且預先知道樣本分布形式這一要求十分苛刻也代價不菲;計算金融同樣以數據為驅動,但以專門研究小樣本情況下的機器學習規律的統計學理論為基礎,該全新理論體系中的統計推理規則不但考慮了對漸近性能的要求,而且追求在現有有限信息條件下獲得最優結果,計算金融所彰顯的良好的適用性與有效性使其在金融研究與實務中無處不在。
就樣本數量而言,計量金融雖然基于樣本數目趨于無窮的漸進理論,但實際檢驗卻僅采用十分有限的樣本;經典計算金融雖然基于小樣本的統計學習理論,但實際處理的樣本數卻很多,而且通常比計量金融的數量級要高。不過兩者的樣本性質仍然沒有實質性區別,均為隨機樣本——一種經由抽取典型特征數據而形成的數據集。目前,唯有金融大數據分析技術這一計算金融發展中的最新理論所處理的才是真正的全樣本,即涵蓋相關數據的整個歷史,囊括已經發生的全部數據。顯然,超高頻股價時間序列包含了市場交易的每一個價格信息,可跳出以往假設檢驗與統計推斷的研究窠臼,超越時間尺度上秒、分、時、日、月、季與年股價采樣的樣本代表性及誤差。其接近于完全歸納所獲得的市場微觀結構方面的相關結論,無疑具有更高的普適性與必然性。
就相互關系而言,因果關系無疑揭示了事物內部各要素之間的本質屬性,是事物之間的本質關系。只有把握因果關系才能真正把握事物,因而因果分析是科學研究的基本任務與終極目標。然而,如上所述,數理金融以因果分析為歸依的模型構建與方程求解殊為不易,即使獲得也與計量金融的因果檢驗類似,是基于有限樣本支持的相對真理,還可能存在模型過度擬合的問題。加之實際決策所涉及的因素較多,在不同時間與地點的運用,其結果通常出入較大,即模型也不一定穩定有效。
盡管相關分析永遠是因果分析的基礎與起點,但放松條件的覆蓋面將更寬廣,亦不失為一種低成本與高效率的手段。大數據便是通過描述事物全數據在數量之間的關聯特征來尋找事物之間的關聯關系,用數據挖掘、模式提取與機器學習的知識進行決策,而不必明確訓練學習中所獲黑箱內部結構的準確含義。例如,對一個交易策略進行全數據分析,只要研究結果是能長期穩定盈利,就可被投資者采納。而具體哪筆交易賺錢與哪筆交易賠錢,雖然投資者會好奇,但交易策略無須給出精確答案,從某種程度上講也是無意義的。又如,當基于大數據的投資策略預測某個模式出現后某股票很大概率會上漲,若執迷于股價上漲背后的基本面緣由則成本過高,且確實無法得出準確的原因。
顯而易見,脫胎于機器學習與數據挖掘,結合了云計算的金融大數據分析技術,通過采用全樣本數據集與分析相關性來革新計算金融這一重要工具,能提高信息處理的效率,并且大幅度地提高信息處理效率,進而重塑金融學。
三、高頻程式化交易的策略時序規劃
交易活動是金融市場最主要的微觀行為,伴隨著大數據技術的發展,高頻程式化逐漸成為金融市場主流交易方式之一。Tian等(2015年)指出大數據技術帶來了更智能的交易(More intelligent trading)。高頻程式化交易是智能交易的一種形式,它是指運用計算機從極為短暫的市場變化中尋求獲利的高頻率交易。其中,極為短暫的市場變化一般指某種證券買入價與賣出價之間的微小價差,或者不同交易所之間某只股票的微小價差。這種變化如此之快,以至于交易者不借助先進的計算機設備與交易程序軟件,就無法提升其獲取數據與分析處理的速度,也就無法快速生成并發送交易指令從而憑借速度上的優勢獲得高額利潤。為此,有些交易機構甚至將自己的“服務器群組”(server farms)安置在離交易所計算機物理位置很近的地方,以進一步縮短交易指令在光纜中傳輸的距離。也正是因為有如此高的速度,交易者才能以較高頻率在短時間內完成多次交易,以達到在交易結束時間到來之前身上盡量少持頭寸的目的,高頻交易因此得名。
所謂程式化交易是指把一切都交給高性能計算機自動完成。這既有利于在瞬息萬變的市場中捕捉稍縱即逝的套利機會,又有利于規避投資者趨利避害心理所產生的強大干擾。因為機器是沒有感情的,一千塊與一千萬對它而言都只是一個數字,它不會因為標的大小變化而產生情緒波動從而影響投資決策的科學性與合理性。量化投資大師詹姆斯·西蒙斯教授創立了文藝復興公司,管理的大獎章基金在1989年—2007年平均年收益率高達35%,若考慮44%的提成,則實際收益更高達60%,比人盡皆知的股神巴菲特同期收益率高十幾個百分點,也比傳奇投資大師布魯斯·科夫勒、保羅·都鐸·鐘斯、喬治·索羅斯、路易斯·培根與馬克·金頓都要高出十幾個百分點,取得這一驚人神話的秘籍就是程式化交易。
美國《華爾街日報》的統計數據表明,正是基于速度與自動化方面的顯著優勢,高頻程式化交易在美國的各金融市場均占據了相當高的比例,為40%~80%。然而,成也蕭何,敗也蕭何,速度這一突出優點反過來又成為高頻程式化交易獲利無法一而再,再而三突破的瓶頸。隨著采用高頻交易的交易者與日俱增,進入該行業的門檻自然水漲船高。激烈的競爭使得諸多算法與模型都處于公開或半公開狀態,最終的勝利則取決于硬件配置,包括計算速度與寬帶接口速度。于是,大家進入了一場窮兵黷武的軍備競賽,爭先恐后地投資于計算機與網絡領域,使得小公司倒閉而大公司減利。Rosenblatt證券咨詢公司研究調查顯示,與2009年相比,2012年全行業采用高頻交易所獲得的利潤大幅縮水,下降幅度為74%。從2013年開始,高頻程式化交易便逐漸萎縮。
為了阻止利潤下滑并使之反彈,交易者開始借助金融大數據進行分析,以識別市場特定參與者的歷史足跡,進行策略時序規劃。這為高頻程式化交易規避花費巨資提高速度的惡性競爭開辟了一個新的可行途徑。例如,如果一支共同基金經常在每分鐘的第一秒發出大單交易指令,那么采用金融大數據分析技術的交易者就可以識別這種模式,并據此分析與預測該共同基金在剩余交易時間內的相關動向,以調整自己的策略。而建立在共同基金已知模式下的剩余交易,知情方有較大概率獲得超額利潤,這將明顯地改變市場競爭格局。
由此觀之,大數據以豐富高頻程式化交易這一經典內容的方式重塑了金融學。
四、互聯網金融的風險控制
大數據技術客觀上推動了互聯網金融的產生與發展,并且深刻地改變了傳統金融風險管理的范式。互聯網金融(ITFIN)是指以移動支付、云服務、社交網絡及搜索引擎等互聯網技術為依托,實現資金融通、支付與信息中介等業務的一種新興金融。它不是金融業與互聯網的簡單拼湊,而是新需求與新技術的深度融合,是一種建立在移動與安全架構上的金融新模式與新形態。
《互聯網金融報告2015》指出,截至2014年底,中國網貸行業總體貸款金額為1036億元人民幣,預計2024年中國P2P(Peer-to-Peer Lending)市場規模將躍升至 2萬億元人民幣,約占剔除股票與債券后社會融資存量的0.9%。屆時的互聯網金融行業利潤將躍升至400億美元,其年均復合增長率約為41%,預計與2024年銀行整體盈利的8%相當。可見,互聯網金融極具生命力與成長空間,很有可能在未來二十年成為主流金融。
然而,作為新興事物,依托網絡近乎無限張力而迅猛發展起來的互聯網金融實際上也暗藏巨大隱憂:面對數量龐大的群體,龍蛇混雜、魚目混珠,其信用如何評估?集腋成裘、聚沙成塔,但來得快去得也急,是否有跡可循?這兩個問題解決不好,互聯網金融的風險就難以控制,其健康發展也就緣木求魚。羅長青等(2016年)通過實證研究表明,互聯網金融行業提供的數據有利于金融機構的風險管理,能產生正的外部效應。
文章認為,互聯網金融發展的核心在風控,而風控的核心在大數據分析。大數據技術使得風險評估突破空間、時間和行業的限制,使風險評估模式由靜態滯后模式轉變為實時在線模式,因此風控效率和準確性大為提高。且不說互聯網金融時刻產生海量非結構化及半結構化的數據,并且線上線下相結合的模式非用大數據技術不可,其信用評價與輿情分析也必須借助大數據分析。
就信用評估而言,用傳統方法評估貸款人信用來源,單一、種類貧乏、耗時冗長與成本高,無法大面積推廣,給風險控制帶來很大困擾。而大數據分析則可調用數據倉庫中已經存在的與在線實時產生的交易數據、消費數據及日常行為數據,以真實、全面、快速與有效地評估其信用。隨著網貸用戶群的擴大,管理過程中出現越來越多有價值的行為信息,評估準確率將不斷提高。例如,阿里小貸每天積累海量數據,通過分析商戶近百天的歷史記錄,將其劃分為資金匱乏與資金充裕兩類。接著,與存在資金問題的商戶即潛在貸款對象溝通,并針對性地調用更多該小微企業在網絡平臺上產生的歷史數據,借以評估其還款意愿與能力,據此制定懲罰措施與力度,提高其違約成本從而控制其違約行為,實現安全風險下的盈利。
就輿情分析而言,傳統問卷調查類指標受人力、物力、財力等客觀因素限制,無法獲得大規模數據,也難以進行精細化操作。而基于大數據技術的輿情分析則可通過搜索引擎、網絡爬蟲、語言處理、文本分類與社交分析等機器學習與數據挖掘方法,對日發消息過5億的Twitter與日均用戶過10億的Facebook等著名社交網站進行采樣分析,研究其與互聯網金融相關的聊天記錄、博客與評論,獲取客觀真實的市場情緒,以進行產品設計與風險管理。精神病專家理查德·彼得森建立的MarketPsy Capital對沖基金經過長時間追蹤與輿情分析,所確定的投資策略獲得了40%的驚人回報率。此外,巴黎的IIBremans機構與倫敦的小型對沖基金DCM在這方面也取得了不俗的業績。事實上,大數據輿情分析的確能較好地了解客戶對互聯網金融產品的真實態度,有利于預測其行為,從而有效降低不告而別的風險。
不言自明,互聯網金融離不開大數據,大數據正以促進風控的方式推動互聯網金融這一新興事物蓬勃發展,有力地拓展著金融學邊界,從而重塑著金融學。
五、結語
大數據及其相關技術的發展方興未艾,它通過逐步滲入與系統顛覆等多種方式全面改變了金融市場與金融機構的運行模式。理論來源于實踐,與大數據金融實踐相對應的是,大數據技術也創新了傳統金融學的理論,目前至少在市場假說、金融計算、高頻交易與網絡金融四個方面重塑著金融學。隨著創新驅動發展等一系列戰略的實施,大數據對金融實踐和理論的影響仍將持續,如何更好地運用大數據技術,對金融市場投資者行為和心理、市場微觀結構、風險資產定價、風險預測與管理、金融市場監管、金融危機預警與處置等問題展開更深入、系統的研究,是今后金融學應重點研究的方向之一,也是我國金融學界與業界后來居上,趕超西方的重要方式。
雖如此,但也必須清醒認識到,大數據不是萬能的,其自身固有的大量噪音有可能將我們引向錯誤的方向,獲得錯誤的結論,采取錯誤的決策。畢竟全樣本不是總體,相關性分析只是因果關系的有益補充,大數據也只能輔助而不能取代人。互聯網金融與大數據技術相輔相成,大數據技術的發展迅速推動了互聯網金融的發展,傳統的線下金融模式雖然也在積極運用大數據技術,但是否能均衡成本與收益,是否能取得預期收效還有待觀察,傳統線下金融所蘊含的專家經驗優勢與金融危機處置過程中的應變能力,也是大數據技術目前難以實現的。
參考文獻:
[1]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數據時代[M].杭州:浙江人民出版社,2013.
[2]孟小峰,慈 祥.大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013(1):146-169.
[3]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J]. 計算機學報,2013(6):1125-1138.
[4]程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014(9): 1889-1908.
[5]Kendall M.The Analysis of Economic Time Series - Part 1:Prices. Journal of the Royal Statistical Society, 1953(96):11-25.
[6]Fama E F.Efficient Capital Markets: A Review of Theory and Empirical Work. The Journal of Finance, 1970(25):383-417.
[7]郭建軍,魯萬波,焦 鵬.金融統計與金融計量的新進展——2009金融統計與金融計量國際研討會會議綜述[J].統計研究,2009(26):107-112.
[8]Tian X H,Han R,Wang L,Lu G,Zhan J F.Latency critical big data computing in finance. The Journal of Finance and Data Science,2015,1(1):33-41.
[9]朱建平,魏 瑾,謝邦昌.金融高頻數據挖掘研究評述與展望[J].經濟學動態,2011(6): 59-62.
[10]燕汝貞,李 平,曾 勇.一種面向高頻交易的算法交易策略[J].管理科學學報,2014(3): 88-96.
[11]王 丹,向修海.高頻交易的最優執行策略研究[J]. 經濟學動態,2013(2):81-87.
[12]謝 平,鄒傳偉.互聯網金融模式研究[J].金融研究, 2012(12):11-22.
[13]劉瀾飚,沈 鑫,郭步超.互聯網金融發展及其對傳統金融模式的影響探討[J].經濟學動態,2013(8): 73-83.
[14]程 鑫.互聯網金融背景下征信體系完善所面臨的機遇與挑戰[J].上海金融,2014(11):109-110.
[15]Moat,Helen Susannah,Adam Avakian,Dror Y. Kenett,H. Eugene Stanley,TobiasPreis.Quantifying Wikipedia usage patterns before stock market,Scientific Reports 2013,No.1801.
[16]羅長青,李夢真,楊彩林,等.互聯網金融對商業銀行信用卡業務影響的實證研究[J].財經理論與實踐, 2016,37(1): 54-58.
[17]翟偉麗.大數據時代的金融體系重構與資本市場變革[J].證券市場導報,2014(2):47-50,60.
[18]Bollen,Johan,Huina Mao,Xiao-Jun Zeng.Twitter mood predicts the stock market[J].Journal of Computational Science,2011(2):1-8.
[19]耿 直.大數據時代統計學面臨的機遇與挑戰[J].統計研究,2014(1):5-9.
[20]李 倩,吳 昊.大數據背景下投資者行為研究的趨勢分析:基于“內涵-思路-方法”的三重視角[J].中央財經大學學報,2017(2):52-62.
[21]云立坤.大數據思維在金融學研究中的運用[J].智富時代,2019(10):12-13.
[22]程春莉.大數據思維在金融學研究中的應用研究[J].環球市場,2017(28):1-2.
[23]孫博洋.論大數據在金融學中的作用[J].中國經貿,2017(19):130.
[24]孫 鈞.金融學研究中大數據思維的運用探究[J].中國市場,2016(50):107,119.
[25]王玉華,石美燕,趙 平.大數據應用背景下我國國際金融學本科課程教學改革研究——基于貴州花溪大學城高校的問卷調查[J].教育觀察,2019,8(23):112-115.
[26]朱佳琦.大數據思維在金融學研究中的運用策略淺議[J].納稅,2017(7):83.
[27]史雅靜.大數據思維在金融學研究中的運用[J].時代金融(下旬刊),2017(9):17,20.
[28]陳加旭,唐元琦.大數據背景下的金融學課程教學改革研究[J].長江叢刊,2018(35):182,184.
[29]陳宇昕.大數據思維在金融學研究中的運用[J].中國民商,2017(12):50-51.
[30]蔡慶豐,郭春松,陳詣之.大數據思維在金融學研究中的運用[J].經濟學動態,2015(3):104-114.
[31]梁昕妍.淺談大數據時代對金融學的幾點思考[J].中華少年,2018(2):282.