常韜


摘 要 進入21世紀以來,人工智能在工業、金融、生物醫藥、科技研究等領域的應用越來越廣泛和深入,特別在證券投資交易中獲得了重大進步。目前證券分析師和交易員都難以預測證券的行情趨勢,而且容易受到情緒影響,越來越多的公司開始使用人工智能來幫助投資決策。本文基于人工智能技術在國內外證券投資領域的應用狀況,分析了人工智能在預測證券價格變化方面的理論基礎和技術優勢,提出了使用強化學習和智能體來預測證券市場的價格趨勢,得出了強化學習在預測證券價格方面優于傳統方法的結論;同時討論了人工智能交易系統的風險和應對策略;最后對人工智能交易系統的研究給出了建議。
關鍵詞 人工智能 強化學習 神經網絡 自動交易 證券投資
中圖分類號:TP18;F830 文獻標識碼:A 文章編號:1007-0745(2021)09-0037-03
1 前言
近年來計算機和互聯網技術快速發展,深刻地影響和改變了人類社會生產和生活的各個方面。人工智能是計算機領域的技術至高點,很早以前人類就夢想著有一天可以制造出能模擬甚至超過人類大腦的機器,來幫助人類解決遇到的難題,無數科學家和工程師為了這個目標而不懈努力,隨著機器學習和人工神經網絡技術的快速發展,這個目標已經初步實現,特別在證券投資領域已經開始了越來越廣泛的應用。人工智能是基于現代計算機系統硬件和軟件模擬人的認知和推理機制,利用數學理論和方法獲取外界信息,對信息進行自主處理和決策并輸出問題答案的技術。人工智能綜合了計算機科學、應用數學、哲學和生物學,是人類工業文明和科技工程文明發展過程中為解決復雜問題而發展出來的技術結晶。證券市場具有影響因素多、數據變化迅速、信息不完全等特點,傳統的技術指標和數據分析難以預測價格變化。而人工智能技術中的深度學習和強化學習能夠對復雜無規律數據進行自動學習和自適應優化。早在上世紀80年代美林證券就開始研究量化交易,2014年創立的人工智能分析處理引擎Kensho開始逐步取代金融分析師,標志著人工智能具備分析預測證券市場的能力。
2 人工智能交易系統的優點與強化學習的運用
人工智能交易系統的主要功能是利用深度學習和強化學習等計算機技術對大量的歷史交易數據進行訓練建模,通過特定算法發現隱藏的知識和規律,得到一個能在一定程度上預測未來交易行情的模型。人工智能技術主要包括神經網絡、遺傳算法、模糊算法等。人工智能交易系統能夠自動對資金在各個股票上進行分配,控制風險和收益,由于投資證券的目標中既要獲取最大收益又要盡量減少風險,而收益與風險是一個相互矛盾的關系,為了在能承受的風險下獲取最大收益,可以使用夏普公式來描述:
其中Rp表示投資組合的預期年化收益率,Rf表示年化無風險利率,σp表示投資組合年化收益率的標準差。夏普比率沒有區分波動的好壞,索提諾比率在夏普比率的基礎上做了改進,在計算波動率時采用下行的標準差,因為上漲的波動不是風險。索提諾比率公式如下:
其中Rp表示投資組合的預期年化收益率,Rf表示年化無風險利率,σt表示投資組合年化收益率下跌的標準差。
2.1 人工智能交易系統的優勢
最近10多年來中國股市經歷多次起伏,跌多漲少,據媒體統計90%的散戶虧損,能贏利的少之又少。因為人容易受到情緒的影響,患得患失,追漲殺跌,不但無法制定良好的策略而且很難嚴格執行自己的交易策略,因此非常需要一種執行力強的機器智能來幫助設計和執行交易策略。隨著人工智能技術的快速發展,2016年3月谷歌阿爾法狗以4:1的比分戰勝圍棋大師李世石,加速了人工智能技術在各行各業的應用和推廣[1]。目前人工智能已經廣泛應用于美國華爾街,2016年高盛已經把600多個交易員減少到個位數,這充分說明人工智能開始主導證券交易。
人工智能顛覆了傳統的交易模式,完全自動化的選股,根據自主交易策略,全自動交易,當符合入場條件時自動買入,當股票價格高估時自動賣出,自動實現止盈止損和倉位管理,還能利用各種技術指標和參數進行自動分析和決策,能夠以毫秒的時間間隔進行高頻交易。人工智能系統能夠從歷史交易數據中進行自主學習,利用學會的知識和數學理論對證券投資過程中的信息不完全問題進行判斷決策,得出風險可控前提下收益最大的證券投資組合,并且在交易過程實踐中不斷的學習和試錯,修改系統本身的參數和權重,達到交易系統神經網絡的最優化狀態。Abe使用從1990年到2016年的MSCI指數中的319只成分股的月度數據,分別使用深度神經網絡,隨機森林和支持向量機預測下一個月的收益率,結果表明深度神經網絡預測準確率最高[2]。人工智能神經網絡還能夠對證券類型進行自主聚類和證券特征的抽取,通過隨機搜索算法像生物進化一樣尋找出最適應當前證券市場的決策算法,這樣就避免了傳統數值算法包括牛頓法和共扼算法容易導致的局部最優的問題。
2.2 人工智能交易系統依賴的證券理論
1952年,馬科維茨首次提出了馬科維茨理論,在給定風險條件下,通過不同比例分配資金投資多種證券得到最大可能收益的投資方法。從20世紀30年代以來,金融數學得到不斷的發展,數學家們不斷研究尋找各種證券資產的定價模型,其中比較著名的有布萊克-斯科爾斯期權定價公式,該方法已經成為金融機構設計新的金融產品的重要研究方法。斯蒂芬羅斯的套利理論和美國學者威廉夏普的資本資產定價理論也為人工智能交易系統奠定了堅實基礎。愛德華索普出版的《戰勝市場》,標志著量化交易的開始,利用計算機算法和程序從證券市場的歷史記錄中尋找能得到最大收益的多種大概率技術指標,減少人類情緒和貪念帶來的影響,從而發揮計算機程序算法的優勢作出最理性的決策。人工智能交易技術就是在量化交易的基礎上結合最新的計算機深度學習和神經網絡技術發展而來的。
人工智能是否能夠在一定程序上預測證券市場的價格變化,需要對證券價格變化理論進行研究。目前關于證券交易市場漲跌原理的主要理論有以下幾種:隨機漫步理論,現代資產組合理論,有效市場假說,行為金融學理論。
以上4個證券交易市場漲跌理論都從各自的立場對市場價格變化作出了一定程序的解釋,但都存在比較明顯的缺陷,無法完全解釋真實世界的證券價格變化原因。于是學者安德魯(Andrew Lo)提出了適應性市場假說(adaptive markets hypothesis簡稱AMH),試圖協調有效市場假說和行為經濟學之間的矛盾,比以往理論能更好地解釋市場價格變化;該理論首次將生物進化原理應用到證券市場,認為市場中的每個個體和組織基于贏利進行決策,個體既會學習和適應環境,同時也會出錯,市場中存在競爭,競爭導致適應市場變化的個體能夠生存和發展,而不能適應市場環境,虧損的個體被逐漸淘汰,形成一種個體不斷適應市場環境的動態變化過程。適應性市場假說理論比以往理論更好地解釋了證券市場價格變化的原因,也為把人工智能技術應用到證券投資領域提供了一定的理論依據。
2.3 強化學習與智能體
根據AMH理論,證券市場中的個人投資者、基金、機構投資者、投資公司都是以贏利作為唯一目標,在市場中尋找投資機會,這些參與者的理性是有限的,有時會出現錯誤,同時又在不斷地學習和適應市場的變化,通過對市場環境的感知作出買賣或觀望的決策,市場會給予判斷正確的參與者一定的獎勵(Reward),同時通過虧損來懲罰判斷錯誤的參與者,從而影響市場價格的不斷變化。通過上述分析很容易聯想到使用人工智能中的強化學習來模擬市場中的參與者的適應過程。強化學習的原理是:如果智能體(Agent)的一個行為導致環境的獎勵,隨后智能體產生這個行為的趨勢就會增加;相反如果智能體的一個行為沒有獎勵或者受到懲罰,那么產生這個行為的趨勢就會減少;智能體能夠合作和競爭學習[3];強化學習就的目標是學習到一個能夠得到環境最大獎勵的行為策略。
橋水基金創始人在《原則》中提出“投資是一個不斷反復的過程,下注有時會失敗,學習新知識并重新嘗試,在這個過程中可以通過反復試驗來改進自己的決策”。這種方法非常適合使用人工智能的強化學習來模擬。證券市場本質上是一個通過連續決策尋找贏利的過程,交易策略可以抽象成一個強化學習中的智能體,智能體可以根據當前證券市場的信息和狀態,生成一個交易的指令,然后發送到執行程序進行執行操作,經過一段時間后,系統會根據當前的市場價格計算每個交易的贏虧,從而生成一個獎勵或懲罰值。智能體會根據每個策略得到的獎勵值調整自身的行為,以使自身獲得更多的獎勵值。由于智能體決策包含選擇什么證券,何時買賣以及使用多少金額,這些變量的組合會非常巨大,因此需要生成多個智能體并進行訓練,一般當訓練超過百萬次時,智能體達到相對穩定的狀態,經常虧損的智能體將被淘汰,經常贏利的智能體已經學會了如何適應市場并做出正確的交易策略。這個贏利最多、生存最久的智能體就是人功智能交易系統所需要的智能體,但是市場是瞬息萬變的,當前的最優策略,并不代表未來的最優策略,所以穩定的智能體仍然需要不斷地學習和適應動態的證券市場。
2.4 強化學習的獎勵函數
如何設計一個合適的獎勵函數是增加智能體決策能力的關鍵,獎勵函數實質上就是一個目標函數,智能體使用獎勵函數來判斷自己是否正在向正確的方向進化。有兩種設計獎勵函數的方法:第一種是監督式的學習,對智能體的買入價格、倉位控制、賣出價格等進行打分,表現好的打高分,表現不好的打低分。理論上可以監視訓練過程,為每一個操作打分進行獎勵,但是這種方法工作量極大,無法大規模使用,而且人類也難以判斷影響證券市場的因素;第二種方法是強化學習,能夠自動嘗試各種操作,不斷調整參數,進行數百萬次的迭代,以找到獲得最大獎勵逼近目標的最有效方法。Moody提出的RRL算法就是一種在線的強化學習模式,能夠找到隨機動態規劃問題的近似解[4]。RRL算法的預測模型公式如下:
其中Ft代表在t時刻的操作(買或賣),向量w是神經網絡的權重,變量v是閾值,rt代表收益率,rt=ln(pt)-ln(pt-1),用對數收益率比價格差值更能體現變動。此預測模型在預測證券市場的價格變化方面優于以往的模型。
3 人工智能交易系統的組成與應用安全
3.1 人工智能交易系統組成結構
在實際運用中人工智能交易系統一般包括以下幾個部分,用戶需求接口模塊,證券市場綜合信息處理模塊,交易執行模塊,投資結果分析和報表模塊,和最重要的交易決策模塊。國外的研究表明,人工智能交易系統在預測股票市場價格的變化趨勢方面已經超過了普通的證券分析師,華爾街的許多投行已經大規模運用人工智能系統進行證券投資,取得了非常不錯的成績。
3.2 人工智能交易系統的安全性
為了加強人工智能交易系統的安全性和可靠性,防止資金和機密數據被黑客篡改,可以使用目前最安全可靠的區塊鏈技術,充分利用區塊鏈分布式系統的安全性和不可篡改性,把交易數據和重要信息存入區塊鏈系統中,通過各個節點運行的一套公開透明的區塊鏈算法來保障存入數據的安全,使得證券交易網絡中各個參與實體能夠相互信任,對所發出和接收的信息無法否認和修改,任何單個節點企圖對數據的修改都是無效的,從而完全保障人工智能交易系統的數據安全性,為人工智能自主決策和交易提供信息安全上的保障。
為了保證人工智能交易系統的安全性,防止非授權的修改和數據泄露,企業級的人工智能交易系統必須符合3A的安全性標準,包括授權(Uthorization),驗證(Authentieation)和審核(Auditing)。任何用戶要想進入人工智能交易系統,必須經過嚴格注冊許可的用戶名和密碼,密碼必須保證一定的長度和復雜性,同時定期強制更新,防止被破解和撞庫攻擊;同時設置一個每天最大的登錄失敗次數;用戶登錄后還只能有普通的查詢和訪問權限,如果要訪問機密信息和對系統進行修改,必須要有管理員的授權和認可,并實施最小化授權策略,保障交易系統的安全性;為了更好地保護人工智能交易,每隔一段時間還需要通過不可刪除的用戶操作日志對所有的用戶操作和行為進行審計,這樣可以發現非法訪問和修改的行為,同時能夠阻止任何潛在的非法企圖,最大限度地保護人工智能交易系統的數據安全和資金安全。
3.3 人工智能交易系統的風險和應對
霍金認為發明人工智能是人類歷史上最好的事情,也可能是最壞的事情。人工智能的關鍵技術人工神經網絡幾乎可以模擬任意函數,在不知道未知變量之間依賴關系的情況下抓取變量之間的非線性關系得到一個近似函數。但是計算機神經網絡的處理過程是一個黑箱,難以對計算結果進行解釋和判斷,有可能得到一個出乎意料的結果;另外神經網絡往往針對某一種具體環境條件進行優化和適應,一旦環境條件發生大的變化,以往的算法就容易失效,因此人工智能并非完全可靠。人工智能系統如果達到一定的智能,有可能偏離人類管理者對于系統的目標和期望,由于人工智能交易系統超高速的交易能力,一旦掌握巨量資金的多個人工智能實體,為了追求最大收益進行零和博弈,可能出現交易規模越來越大,交易速度越來越快的現象,引起證券市場劇烈震蕩,甚至可能導致交易市場崩潰。任何人工智能系統都不可能是完美的,必然存在其失效的情況和條件;因此為了防止人工智能交易系統的失效可能,必須在極端情況下能夠允許人類管理員接管并獲得系統控制權,也就是說要保證人類管理者有能力和責任在人工智能交易系統出錯時關閉系統并接管系統。
4 結論與建議
本文回顧了人工智能技術的發展現狀和應用情況,分析了適應性市場假說理論解釋強化學習智能體對證券市場價格變化的預測原理,得出了神經網絡和強化學習在證券市場價格預測領域比以往的傳統方法有明顯優勢的結論,提出可以通過3A安全性標準來保障人工智能交易系統的安全性,同時提出了為避免災難當系統失效時允許人工接管的應對方法。
人工智能技術在證券投資中將會有更廣泛和深入的應用,目前的技術仍然還有很大的提升空間,未來需要對神經網絡的模型算法作持續的改進以提高強化學習在證券價格方面的預測能力,同時必須注重增強人工智能交易系統的安全性和風險控制能力。
參考文獻:
[1] 薛永紅,王洪鵬.機器下棋的歷史與啟示——從“深藍”到AlphaZero[J].科技導報,2019,577(19):89-98.
[2] Abe M, Nakayama H . Deep Learning for Forecasting Stock Returns in the Cross-Section[C]// Papers. arXiv.org,2018:273-284.
[3] 劉全,翟建偉,章宗長,等.深度強化學習綜述簡[J].計算機學報,2018(01):1-27.
[4] 梁天新,楊小平,王良,等.基于強化學習的金融交易系統研究與發展[J].軟件學報,2019,30(03):845-864.