999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種多源數據驅動的自動交易系統決策模型

2018-10-18 06:12:20文丹艷馬超群王琨
自動化學報 2018年8期
關鍵詞:信號模型

文丹艷 馬超群 王琨

隨著信息技術的飛速發展,股票的自動交易(也稱為算法交易、機器交易、黑箱交易)受到實業界和學術界越來越多的關注與重視.據報道,美國90%以上的證券經理在建立投資組合時會使用自動交易,而亞洲市場上也有約40%的交易依賴于自動交易.自動交易(Automatic trading,AT)指按照量化投資的基礎模式編寫程序,通過計算機自動實現交易決策或輔助決策的一種交易模式[1?2].應用自動交易系統不僅可以節約人力成本、提高交易精度,而且可以同時監控多支股票,捕捉到轉瞬即逝的交易時機,因而大大提高了用戶的效率并增加獲利機會.因此,利用自動交易進行輔助決策乃至實際交易越來越成為一種趨勢.

隨著自動交易系統推廣,其核心處理模型即對股價、收益等關鍵變量的預測問題逐漸成為研究熱門[1].許多方法對自動交易系統的研究重點圍繞金融系統的模擬、仿真或優化某種與股價趨勢相關的變量[3?4].然而,無論是基于計算實驗的方法、模擬仿真或優化的方法,大多數的股價預測模型與股市預測模型都基于歷史股價數據[5?6].上述做法固然可以通過減少變量降低系統的復雜度,但也忽略了諸如財經新聞等影響股價走勢的重要信息,容易造成預測的失靈.

自動交易系統能迅速處理大量影響股市價格波動的一些公開或私密信息,以便從根本上提高預測的精度和效率.作為一種典型的公開信息,財經新聞對股市具有重要而深遠的影響.學術界關于新聞對股市影響的分析由來已久.早在1966年,金融學者Merrill就率先探索了利空新聞與股市價格的關系[7].隨后,學者們從多種角度分析各類不同的新聞對股市利空或利好的影響[5].然而,傳統的研究者或側重單類新聞事件,或側重新聞的情感,或側重某一方面的指標對股市的影響(關系).關于實際影響股市的多類信息或將財經新聞融入交易策略的生成與應用層面的研究非常少.

為將財經新聞有效地融入到自動交易系統中,本文從網絡新聞文本和歷史交易數據出發,通過分析財經新聞對股價的影響,構建了一種多源數據驅動的自動交易模型.該模型以人工神經網絡(Artificial neural network,ANN)方法為基礎[8?11],利用歷史交易數據產生技術交易信號作為一類輸入源,利用財經新聞數據產生新聞信號作為另一類輸入源,透過多層神經網絡產生最終的交易信號.為實現股票自動交易,本文重點解決影響自動交易系統質量的兩大問題.首先,如何從新聞文本中抽取財經事件.即如何從大量網絡新聞文本中獲得與股價相關的財經事件.第二,如何將財經事件與非線性、非平穩性的金融數據進行有效地融合,讓計算機智能地根據有關信號作出最佳決策.

針對上述兩個難點問題,本文從網絡文本中抽取出對股價具有重要影響的財經類新聞事件,將新聞事件轉化為交易信號與技術指標的信號進行融合,設計了一種基于ANN模型的自動交易框架.具體地,本文首先定義了影響股價的財經類事件集,進而針對不同類型財經事件的特點,設計了從網絡文本中抽取中文財經類新聞事件的模板,并利用統計方法分析各類財經事件與股價波動的關系,將各類財經事件轉化為股票價格漲跌的信號.然后,基于神經網絡的方法,設計了以交易信號為基礎的自動交易框架,并通過股市歷史數據驗證了自動交易框架的有效性.

本文章節安排:第1節介紹相關工作;第2節提出考慮新聞變量的自動交易框架與基于ANN的自動交易模型;第3節提出中文財經事件抽取的方法;第4節介紹10種技術指標交易信號的產生方法;第5節通過實驗驗證本文提出的自動交易框架的性能以及事件抽取與信號產生模型的有效性;第6節為總結與展望.

1 相關工作

自動交易方法模型研究.股票自動交易研究可以幫助投資者選擇買賣時機,獲得穩健的收益.自動交易的關鍵在于如何精確地預測股價的走向,選擇合適的交易時機.目前,股票價格預測的方法大體可以分為三類,一是經濟學常用的計量回歸方法,如簡單線性回歸模型、門限自回歸(Threshold autoregressive model,TAR)、廣義自回歸條件異方差模型(Generalized autoregressive conditional heteroskedasticity,GARCH)等.二是計算數學的模型方法,如基于Agent的仿真模型、模糊系統(Fussy systems)模型等.三是基于一些計算機機器學習(Machine learning)的模型,如支持向量機(Support vector machine,SVM)、人工神經網絡(ANN)等.

計算數學的方法一般將Agent分為多種,例如基于大客戶、散戶,主導者、跟風者等[12].Wang利用模糊意見網絡構建了股價動力學模型,并模擬股價走勢取得了很好的效果[13].股價動力學構建了以技術指標為基礎的模糊系統、將啟發式方法轉化為非線性的動力學方程,開辟了股票自動交易系統的新思路[14?16].

隨著金融數據非線性、非平穩特征的日益凸顯,基于機器學習的方法逐漸成為股價預測研究的熱門.利用神經網絡對復雜金融數據序列進行預測正成為其中一個重要分支.上世紀90年代,Kimoto等在Nikko證券公司提供股票市場交易數據和Fujitsu提供神經網絡技術的基礎上,開發了關于如何在東京股市選擇最佳時間買賣股票的算法交易系統,獲得了較高的預測精度[17].Saad等發現神經網絡模型適用于股票市場價格、風險等短期趨勢預測[18].近年來,Dhamija和Bhalla比較了多層感知(Multi-layer perceptron,MLP)和徑向基(Radial basis function,RBF)兩種不同神經網絡模型對匯率數據的預測結果,發現MLP模型比RBF模型的預測精度要高[19].Ballings等對比研究了人工神經網絡(ANN)、支持向量機(SVM)和隨機預測(Random forecast)等方法對歐洲5767家股票的預測能力[20].

新聞對股市影響研究.盡管基于神經網絡方法的研究比較多,但大多忽略了新聞消息對股市的影響.股市是消息驅動市場,關于新聞對股票市場影響的研究主要有兩種思路,一是直接研究新聞的具體指標,如發布時間、信息不確定性與股票價格之間的關系.Rosen等觀察了收購消息發布后的價格動量,發現價格動量和起初的市場反應以及收購消息的傳播有關[21].Zhang等探索了信息的不確定性程度和股票收益之間的關系[22].二是考慮新聞對投資者行為、情緒的影響,進而間接研究新聞或消息與股價之間的關系[23].如Yuan研究了市場關注度和股票交易之間的關系,將新聞消息與投資者的行為聯系在一起[24].Hong等[25],Pagolu等[26]基于社交網絡的數據研究了股民情感和股票收益的關系.

總結以上文獻,傳統的自動交易研究往往只考慮使用技術指標信號而忽略了新聞的重要性,新聞與股價關系的研究又很少落實到自動交易應用層面.因此,本文基于ANN模型,考慮新聞對股價的影響以及技術指標信號,試圖構建一種綜合考慮新聞事件與股票市場關系的自動交易框架.

2 考慮新聞事件的自動交易框架與模型

新聞事件對股市具有重要影響,但此類影響關系復雜難以測量.為了量化這種影響并有效融合新聞事件數據,本文選用可以適應多元輸入的ANN模型綜合通過歷史交易數據產生的技術信號(Technical signal)與網絡新聞數據產生的新聞信號(News signal),設計了一種基于ANN模型的自動交易框架,并給出此框架下的自動交易模型.

2.1 自動交易框架

圖1展示了本文設計的考慮了新聞事件的自動交易技術框架.由該框架可知,新聞事件信號屬于交易信號的一部分.本文從網絡文本數據中獲取新聞,將新聞從文本數據形式轉化為財經事件形式,然后根據新聞事件與股市漲跌的關系,將新聞事件以交易信號的形式輸入到ANN模型中.ANN模型的另一部分信號來自技術指標,通過傳統的技術策略方法產生交易信號.處理模型將上述兩方面的信號綜合在一起,通過模型計算生成最終的交易決策.本文將利用人工神經網絡(ANN)融合新聞和技術指標信號,證明本算法交易框架的有效性,同時通過控制模型的輸入源,重點分析新聞信號對于模型整體表現的作用.

圖1 基于ANN模型的自動交易框架Fig.1 Framework of automatic trading based on ANN

2.2 基于ANN的自動交易模型

在基于ANN模型的自動交易框架基礎上,本文構建了一個基于人工神經網絡(ANN)的自動交易模型,可融合包含新聞事件信號在內的各類信號.將不包含新聞信號輸入的ANN模型記為ANN,包含新聞信號輸入的模型記為ANN-News.參考相關文獻[27?28]并結合實際經驗,ANN和ANN-News都設計為4層神經網絡模型,其結構都為1個輸入層、2個隱藏層和1個輸出層,每一層都與鄰近的層相連接并至少會使用到1個神經元.ANN和ANN-News模型的區別在于輸入層:ANN僅包括10個常用的技術信號,而ANN-News除技術信號外還包含新聞信號.

圖2展示了ANN模型的基本框架.每個技術信號或新聞信號輸入用一個神經元表示.ANN和ANN-News模型的輸出為1、0和?1,分別代表買入、持有和賣出.隱藏層1和隱藏層2的神經元細胞個數分別為n1和n2.某一層的神經元和鄰接層的神經元通過連接系數(權重)相連.ANN(ANNNews)模型神經元計算如式(1)所示,連接系數αi(0≤αi≤c)的初始值隨機設定,然后通過學習算法調整優化.神經元計算方程:

圖2 4層的ANN(ANN-News)模型Fig.2 4 layer ANN(ANN-News)model

下面從新聞信號與技術信號兩個來源闡述基于ANN模型的算法,重點分析如何將網絡新聞文本轉化為交易信號.

3 財經新聞事件信號

本文所說的財經新聞事件是從新聞中抽取的與股票交易緊密相關的事件.作為自動交易系統交易信號的財經事件應具備兩個特點:1)必須和股價波動緊密相關,影響股票價格的因素很多,其與股價波動的關系也很復雜,應選擇對股價有直接影響的事件;2)必須有一定的出現頻率,如果出現次數少于一定比例,難以總結其對股價的影響規律,不宜作為自動交易程序的輸入信號.為了便于計算機處理,本文將同類財經事件視為沒有差別的獨立個體.

參考文獻[2]以及大規模財經領域語料的統計分析,本文總結出以下與中國股市波動相關的14類頻繁事件:1)股價上漲;2)股價下跌;3)公司業績上揚;4)公司業績下跌;5)公司聲譽提升;6)公司聲譽受損;7)公司利潤上升;8)公司利潤下滑;9)公司負債狀況良好;10)公司負債狀況堪憂;11)公司高層變動;12)公司合作;13)公司業務擴張;14)公司并購.

3.1 財經事件抽取方法

考慮到財經事件的特殊性(如區分上漲、下跌等結果要素),本文在參考中文事件抽取算法的基礎上[29?31],設計了基于規則的財經事件的抽取算法和程序.

3.1.1 財經事件描述方法

參考目前新聞類事件抽取方法[32],為了更直接地表示財經新聞事件,本文提出使用如下結構:Pattern=(Entity,Event-type,Trigger,Time,Path),即“主體(Entity)+方面(事件種類)(Event type)+ 觸發詞(關鍵動詞、形容詞)(Trigger)+ 時間(Time)”四個核心元素和依存路徑(Path)來描述財經類新聞事件.具體而言,主體一般為目標股票,可使用股票名稱或者公司名稱來描述(含簡稱).本文使用股票和公司名稱作為上述14類事件的主體.關于“方面”即包括幾類財經事件.將這14類事件劃分為“股價、業績、聲譽、利潤、負債、高層、業務”7個方面.觸發詞一般要求反映事件的核心特征,針對“股價、業績、利潤、負債”,本文使用“漲、跌”等與事件結果直接相關的動詞(或名詞、形容詞)作為關鍵詞.

除了核心元素外,構造事件模板還需要考慮句法結構特征.句法結構主要包括觸發詞與論元(主體、方面)之間以及時間與敏感句的依存路徑(Path).依存路徑是指:1)主體(或主體的某方面)與觸發詞的關系,當觸發詞被標記為根動詞(Root)時候,主體與觸發詞的關系有:SBV關系(Subjectverb,主謂關系),通常表示的是股價上漲(或下跌);ATT+SBV主體修飾方面詞,而方面詞與主體是ATT關系(Attribute,定中關系或修飾關系)時,主體與觸發詞并不直接發生關系,其仍然屬于SBV關系,因為事實上此處的主語為主體的某個方面.當主體被標記為非根節點動詞時,需要同時考慮觸發詞、主體與該根節點動詞的關系.2)時間(nt)元素與其他元素之間的關系,時間元素可以作為修飾語或存在于附近的語句中.3)規則特征,當某種類型的元素唯一時,它很有可能就是事件元素.如果出現兩個以上的主體元素,通過句法樹分析各個元素之間的關系.如果是并列關系,應當裂變為兩類事件;如果是從屬(或對比)關系,應當區分具體的關系和對象.

結合實例具體描述各個特征的解析與運用.例如,“龍頭房企萬科5月銷售金額同比大漲近八成.”利用哈工大句法樹工具1http://www.ltp-cloud.com/給出的句法分析和詞性分析(圖3),不難發現觸發詞“漲”,主體詞“萬科”,方面詞“銷售”以及時間詞“5月”.觸發詞“漲”詞性為 “v” (動詞),該詞前面的修飾詞 (“同比”、“大”)不存在否定副詞.“漲”的子節點為“金額”,而“金額”的子節點包含主體“萬科”和方面詞“銷售”,且關系都為ATT(定中關系),表示這兩個詞都是“金額”的某種屬性.另外,主體類型的元素“公司(萬科)”在句子中唯一,觸發詞子節點是方面詞“銷售”.因此,可以從該句中抽取一個“銷售上漲事件”,即“萬科(Entity)|銷售(Event type)|漲(Trigger)|五月 (Time)”.

圖3 句法樹關系Fig.3 Parse tree

3.1.2 財經事件抽取規則與步驟

本文設計的財經事件抽取模板如表1,其中Ec和Es分別表示公司和股票主體,C表示修飾詞.需要說明的是,該表只列出了部分具有代表性的依存路徑.

本文抽取財經事件的基本步驟如下:

1)敏感句提取.為了避免觸發詞太多導致相關事件抽取太多太龐雜,同時使事件抽取更具有針對性,本文使用財經類新聞包含觸發動詞的句子作為敏感句.

表1 金融事件抽取模板Table 1 Template of the extraction of financial events

2)命名實體識別.通過實驗的主體股票、公司、代碼等名稱符號,過濾掉和目標股票不相關的事件句子.

3)句法樹分析.本文借助NLPIR(哈工大句法樹)進行句法樹分析,根據句子中主體、客體、修飾詞(方向詞)的相應模式分類.

4)獲取事件的時間元素.首先獲取敏感句中的時間元素,如果是直接對應于事件,則抽取為時間元素.如果敏感句中沒有,則抽取上下句(本自然段)中的時間元素.

5)去重.對于在不同文章中報道的相同事件,將去除掉重合的事件.本文依據事件Pattern進行分類,去除重合事件,通過交叉對比完善事件信息.

6)以首次報道為準.對于在新聞文本中多次出現的事件,以首次報道的時間為財經新聞事件的發布時間,并以該發布時間計算事件的影響.

3.2 新聞事件信號產生規則

提取財經新聞事件后,需要分析財經新聞與股價的關系,再依據一定的規則對每類新聞事件產生交易信號.本文首先預定義每一類新聞事件對股價正面或負面的影響力;然后利用統計方法分析不同類新聞事件與股票收益之間的關系,據此產生“買入”和“賣出”的新聞信號.

首先分析每一類事件影響力的強度I,對上述14類事件根據專家意見預定義各自的影響力(Predefined impact),再分析預定義影響力和日均收益(Average return)之間的關系,通過統計分析驗證新聞事件與股票價格之間的關系.本文用收益來評估新聞事件與股價的關系.股票i在事件報道后x日的收益Rix可基于股票收盤價(Closing price)按照如下公式計算:

其中Pi代表事件報道前一天的收盤價,x表示計算收益經過的天數,其中x≥0.

如果在一段時間內有多個同類事件報道,采用影響力衰減曲線計算每個事件對當日股價的影響.對于一個在x天前報道的事件,其影響力衰減曲線的計算公式如下:

其中I0為事件當日產生的影響,Ix為x日后產生的影響.

如果某一類事件的影響力通過了統計檢驗,本文便根據其對股價x日后的影響力Ix產生“買入”和“賣出”交易信號.然后再綜合技術指標信號輸入到自動交易模型中.綜合N類事件影響力方法如下:

如果所有類事件的影響力加權大于0則發出“買入”信號,小于0則發出一個“賣出”的信號,其余則為0.

表2 技術指標信號介紹Table 2 Introduction of technical indicators

4 技術指標信號

相比于公司的新聞事件數據,技術指標容易從市場交易數據中得到,而且具有較強的可操作性,因此技術分析在業界得到廣泛應用.參考相關文獻[27?28],本文選擇了10個常用的技術指標產生的交易信號作為ANN模型的輸入.這10個技術指標分別為:指數平滑移動平均線指標(Moving average convergence divergence,MACD)、價格變動率指標(Price rate-of-change,ROC)、區間突破指標(Trading range breakout rule,TRB)、離散指標(Accumulation/distribution oscillator,A/D)、差異指標(Disparity indicator,Dis)、變長移動平均指標(Variable length moving average,VMA)、簡易移動值(Ease of movement value,EMV)、順勢指標(Commodity channel index,CCI)、支撐壓力指標(Resistance/support indicator,S/R)、相對強弱指標(Relative strength index,RSI).

表2報告了上述10個技術指標的英文簡稱、相關公式以及相應的買入、賣出和持有信號產生的條件.

5 實驗分析

本小節通過實驗驗證基于ANN模型的自動交易框架以及財經新聞事件在模型中的作用.首先,獲取財經新聞事件并分析其與股價之間的關系;再考察新聞事件信號與技術指標信號在ANN自動交易模型中的作用;最后對比ANN與ANN-News模型的表現,評估驗證ANN-News模型的有效性.

5.1 實驗準備

5.1.1 新聞數據集

基于ANN模型的自動交易系統使用的財經新聞文本來自于多家中文網站財經板塊,經過清洗、去重、分詞和詞性標注等預處理程序.為保證綜合量化的有效性和公平性,忽略每月僅有1篇以下新聞的網站.處理新聞時不區分“原創”和“轉載”,也不考慮網站權威性和影響力,財經事件以最先發布時間為準.利用網絡新聞爬行器,本文采集了來自中國證券網、鳳凰財經、和訊財經等30多家新聞網站的新聞報道共計653624篇.經過清洗等預處理,最后獲得與金融消息相關的財經新聞共13813篇,時間區間為2015年1月1日~2016年12月31日.

利用本文提出的財經事件抽取方法以及相應的“清洗提純”步驟,抽取“滬深300”股票的相關新聞事件,最終獲得可以使用的新聞事件數據集,包括14類新聞事件共7063條,各類財經事件數量統計如圖4所示:

圖4 金融事件統計Fig.4 Count of financial events

5.1.2 股價數據集

數據集1“滬深300”股價數據集2本文以2016年6月修訂版的“滬深300”股票為研究對象,樣本股交易數據來源于Wind數據庫..對應于新聞數據集的時間區間,該數據集包含從2015年1月1日至2016年12月31日之間488個交易日的“滬深300”股票的收盤價,以及相應時間區間內計算事件報道后x天的收益Rx及相關技術指標所需的股票交易數據.

數據集2自選股價數據集.隨機選取滬深股市中“滬深300”股票以外的300支股票,時間區間同樣為2015年1月1日至2016年12月31日,構建了一個包含488個交易日收盤價以及計算相應時間區間內Rx及相關技術指標所需的股票交易數據.

本文隨機選取各數據集中80%的數據作為訓練數據,其余20%作為測試數據.

5.1.3 模型評價指標

本文使用預測準確率(Accuracy)和平均收益率(Average return)來評估ANN模型的效果并分析新聞信號的效用.預測準確率采用常用的“真陽”(True positive,TP),“假陽” (False positive,FP),“真陰”(True negative,TN)以及“假陰”(False negative,FN)來確定,具體見式(5).平均收益率為所有預測收益率的平均值,本文假設所有“買入”和“賣出”的股票的權重是相同的,N支股票在x天內的平均收益率Ave(R)x見式(6).

5.2 財經事件與股價關系檢驗

表3列出了Rx與事件關系的統計分析結果.對于每一類事件,計算事件報道當日的收益R0.類似地,本文也計算事件報道后第1、2、5、10天的收益.對于每類事件,計算專家給出的影響力正負與股價波動的方向(上漲或下跌)之間的關系,并計算專家給出的“方向”的正確比例.當某支股票在事件報道后股價上揚,如預定義影響力為正就算一次“正確”預測.同理,若某支股票在事件報道后股價下跌,若預定義影響力為負就算一次“正確”預測.根據該規則,本文計算出相關比例并用d表示.另外,本文對影響的顯著程度進行了雙尾t-檢驗,相關結果用p表示.表3列出了財經事件與股票收益的統計分析結果.

觀察表3可以發現股票收益與預定義影響力方向一致約有54%到60%的正確率.即如果專家預測為正面影響,則R0、R1、R2、R5、R10收益大多數都為正;如果專家預測為負面影響,則R0、R1、R2、R5、R10大多數收益為負.有兩類事件的方向是波動的,即“公司高層變動”與“公司業務擴張”.專家認為這兩類事件的影響都是輕微的正向,而實際產生的收益有時是輕微正向,有時又是輕微負向.由于這兩類事件的樣本數比較少,且可能受其他事件干擾,而這種小的負面收益在95%的置信水平上也是不顯著的.總體而言,本文所使用的預定義影響力評估是可靠的.

當考慮R0時,產生最高收益的事件是“股價上漲”,其平均收益為1.71%,有84% 的該類型事件報道后產生了一個正面收益.意味著大部分該類型事件會產生正面收益,該類型事件會對價格產生一個向上的驅動.當然,在某些情況下,與該類事件同現的其他事件會產生向下的價格驅動力主導價格波動.總之,“股價上漲”事件是一個比較強烈的信號,容易主導價格波動.

從短期收益來看,即當考慮R0,R1和R2收益時,有三類事件同時在統計上非常顯著,而且顯示了和專家標注的影響力相同的方向.這三類事件分別為:股價上漲、股價下跌和公司業績上揚.從長期收益來看,例如,當考慮R5和R10收益的時候,我們發現更多的事件與專家標注的方向仍顯著相關,如“公司利潤上升”、“公司利潤下滑”.由此可見,一些財經新聞事件會經過一定的發酵,在相對長久的時間內發揮影響力.

表3 財經事件與股價收益統計分析Table 3 Statistic on the relationship between financial events and stock returns

預定義的事件影響力和產生的平均收益之間的線性關系可以通過皮爾遜相關(Person′s correlation)系數來確定.表4報告了預定義影響力和收益Rx之間的關系,說明收益和預定義影響力之間是顯著的、正面相關的關系.觀察表4可以得出兩個結論:首先,財經事件對股價的影響力是顯著的,可以從新聞中獲取的事件信息與技術指標信號融合.第二,預定義事件影響力和股價波動緊密,且影響力強度與股價波動幅度具有較強的線性相關性.

表4 預定義影響力和收益Rx的關系Table 4 Relationship between predefined impact andRx

5.3 輸入信號質量分析

根據技術指標的計算方法,本文在數據集1和數據集2上針對每一支股票計算其于當天的“買入(+1)” “賣出 (?1)” 或 “持有 (0)” 的信號.照此方法獲得ANN模型的輸入部分,即每日每一支股票的10個信號.ANN模型的輸出部分為該支股票1日、5日的收益.為了便于比較和訓練,取“賣出”信號1日、5日收益率的相反數.本文為展現輸入信號的質量,統計包括新聞在內的11組交易信號“買入”和“賣出”發生后的收益,考察這11組信號的質量.

表5展示了數據集1使用技術信號與新聞事件信號進行交易所獲得的平均收益3數據集2的技術信號結果與此類似,篇幅限制,在此不作報告.,R1、R2、R5分別表示信號產生1、2、5天之后的平均收益率.由表5可見,新聞事件發出“買入”信號后,產生的1、2、5日的平均收益都為正;發出“賣出”信號后,產生的1、2、5日的平均收益絕大部分為負,說明“買入”和“賣出”信號都是基本準確的.綜合多頻次的分析可以發現,本文所選取的新聞事件所產生的交易信號對股票交易而言是有效的,可以作為股票自動交易信號源的輸入.

比較獨立使用新聞信號與獨立使用技術指標信號所產生的不同情況.從表5展示的結果看,技術指標產生的買入信號在1、2、5天后的平均收益都為正,說明買入信號質量比較高.使用技術信號“賣出”時的收益并不都為負,如CCI的交易信號會在2日后消失,A/D、Dis、SR、RSI的信號會在5日后消失,但總體效果仍比較理想.由表5可知,就中國市場而言,VMA(變長移動平均)策略產生的收益最高.對比新聞事件信號與技術信號產生的收益可以發現,新聞信號獲得的收益“更高”.說明新聞信號對于股票買賣時機的選擇更精準.另外,這兩方面獲得的信號啟示我們可以進一步地融合新聞事件與技術指標的信號,以獲得更穩健的收益.

表5 數據集1技術信號與新聞信號收益統計Table 5 Statistics of the returns generated by technical and news signals on Dataset 1

5.4 ANN與ANN-News對比分析

本節通過設置不同的參數對比分析ANN與ANN-News模型在輸入相同技術指標信號條件下的表現,分析新聞事件信號對ANN模型表現的效用.

5.4.1 參數設置

隱藏層神經元的個數n1和n2,梯度下降法的學習率lr,動量恒定值mc以及迭代次數ep是ANN模型的關鍵參數.參考神經網絡參數學習的相關文獻[27?28],本文將迭代次數ep設置為1000次.為了避免臨近最佳點時產生動蕩從而致使無法收斂的現象,使用一個較小的學習率lr值(0.01).

本文嘗試了 10個n1參數 [41,42,···,50],10 個n2參數 [26,27,···,35],9 個mc參數[0.1,0.2,···,0.9].ANN 參數設置總共有10×10×9=900(n1×n2×mc)種.將每種參數組合都應用至數據集1和數據集2的訓練集和測試集,按照上述參數設置進行900組實驗,每組實驗進行10次,評估模型預測的準確性.選擇表現最好的參數組合作為相應模型的參數.所有的實驗都是基于MATLAB神經網絡工具包完成的.

5.4.2 參數組合分析

首先在ANN模型上進行參數實驗.分析實驗結果發現,ANN模型在訓練集上的準確率在65.53%~78.60% 之間;在測試集上的準確率在59.17%~72.03%之間.總的來看,ANN模型的參數設置對訓練集和測試集都很重要且顯著,但ANN模型在訓練集上的效果要好于測試集.需要說明的是,訓練集獲得最好的效果和測試集獲得最好的效果并不是同一組參數組合.為進一步對比ANN模型和ANN-News模型,計算訓練和測試集合上的每一組參數組合的表現,選擇其中性能最佳的3個參數組合.表6給出了最佳的3個參數組合以及相應的預測準確率.

表6 表現最佳的3組ANN參數組合Table 6 The best three combinations of ANN model_

由表6中可見,這3組參數在訓練集和測試集上都獲得較高的準確率,相應的測試集的準確率都比訓練集要低.另外,3組參數在n1取值上都比較近似(49左右),在n2和mc這兩個參數上取值差別比較大.總體而言,上述參數組合是相似的.由于第三組平均測試的準確率比其他兩組要高,總體表現比其他組合效果好,可認為這一組是ANN模型最佳的參數組合.

模型參數對準確率的影響.本文對比了ANN模型、ANN-News模型以及文獻[27?28]中的1個隱藏層的ANN模型.圖5展示了數據集1的測試集上,使用不同參數對準確率的影響.由圖可見,本文設計的雙隱藏層的ANN和ANN-News模型的準確率比單隱藏層的ANN模型準確率要高.究其原因,可能是由于雙隱藏層的ANN對股價波動的解析更徹底.雙隱藏層的ANN模型在自動交易上比單隱層的ANN模型更適用.另外,總體而言n1對模型的準確率影響不大,對n1(單隱藏層取n)進行參數實驗,發現ANN-News的準確率變化不大,但是對單隱層和雙隱層的ANN模型影響較大,準確率隨N增大呈上升趨勢,至49達到頂峰.

圖5 ANN模型準確率Fig.5 Accuracy of ANN

模型準確率與收益率之間的關系.一般認為,準確率高則收益率高.圖6展示了ANN模型準確率與收益率之間的關系,由圖可知這二者之間并不是線性關系.由于所有個股的權重是一致的,因此準確率和收益率并不完全成正比關系,準確率高的收益率未必最高.通過該圖與上文中技術指標和新聞信號收益率(表5)對比可以發現,利用ANN模型綜合技術指標信號和新聞信號,可以有效提升股票收益率.但是由于該模型并未針對收益率作專門的優化,即未能突出收益率高的個股,因此該模型在收益率上并沒有明顯的提升.

圖6 ANN模型準確率與收益率Fig.6 The accuracy and return rate of ANN

5.4.3 新聞信號有效性分析

參照第5.4.1節的參數設置對ANN-News模型進行實驗.根據實驗結果,討論新聞信號在ANNNews模型中的作用.由于新聞數據集只包含“滬深300”股票的新聞,本節實驗只在數據集1上進行.由于新聞數據集中并非每天對每一支“滬深300”股票都有相關的財經新聞,對于沒有新聞信號的股票,本文全部默認設置為0(持有).

對比ANN和ANN-News模型在使用相同參數設置下的表現.表7展示了ANN和ANN-News模型的對比結果.由表7可見,在相同參數設置下(第1~3行),ANN-News與ANN 模型的表現差別不大.經過實驗,發現ANN-News使用第4組參數組合(n1=49,n2=34,mc=0.5)時表現最佳,說明ANN-News可以獲得比原ANN模型更好的性能,且ANN-News的最佳參數組合與ANN并不一致.總體上有新聞參數比沒有新聞參數要好,且使用ANN模型最好的3組參數時表現都比原模型好.從穩定性上看,ANN-News模型在訓練集和測試集合上的差別比ANN模型的差別要略大,說明ANN-News模型的穩定性略差.總體而言,雖然ANN模型在個別參數下表現比ANN-News模型好一些(第2組參數組合的測試集),但是ANN-News模型可以有效提升預測準確率,且這樣的準確率提升是穩定的.

表7 ANN與ANN-News模型對比Table 7 Comparison between ANN and ANN-News

對比ANN模型和ANN-News模型的準確率和收益率.設置相同參數,分析ANN和ANN-News模型的準確率和收益率.圖7展示了ANN和ANNNews模型在相同參數條件下準確率.圖中的點都是經過10次實驗取得的平均值.由圖7可見,ANN和ANN-News的準確率隨著變量mc值的增加而呈現一個先較快增長后略微下降的過程.包含新聞信號輸入的ANN-News模型準確率提升了大約5%左右.

圖8展示了ANN和ANN-News模型在相同參數條件下收益率.同樣地,從圖8中可見,收益率也存在一個隨著mc值先增長再略微下降的過程.經計算,ANN-News模型收益率在ANN模型基礎上平均提升了大約7%左右.

由圖7、圖8可見,ANN-News模型比ANN模型在準確率和收益率上都更高,說明使用ANNNews通過參數訓練,在交易時機選擇上更精準,而且可以獲得更高的收益率.選擇表現最佳的ANN和ANN-News,發現最佳性能的ANN效果與最佳的ANN-News效果仍然存在差距,這證明了無論是從準確率還是從收益率角度,新聞信號對最終結果的表現都存在正面影響,利用新聞事件信息可以有效提升模型整體的收益率.

圖7 ANN與ANN-News模型準確率對比Fig.7 Comparison of the accuracy between ANN and ANN-News

圖8 ANN與ANN-News模型收益率對比Fig.8 Comparison of the return between ANN and ANN-News

穩定性分析.設置不同的參數,分析ANN和ANN-News模型的穩定性.由圖7、圖8可見,當n1和n2固定之后,變動mc的值,發現對于準確率而言,mc與準確率并不是線性關系,準確率先隨著mc的增大而增大,當mc=0.7的時候達到了頂點.但收益率與準確率的變化趨勢并不是一致的.收益率基本呈現一個上升的過程,當mc=0.8左右的時候達到了頂點.

參數n1和n2與準確率的關系也有著類似的情況.在穩定性方面,ANN和ANN-News模型的差別不大,但ANN總體上要比ANN-News穩定一些,這可能是由于ANN-News采用了新聞事件信號所導致.

5.5 與經典機器學習模型對比

股價預測中經常使用到經典的機器學習模型[27?28].本小節主要對比 ANN 模型與 SVM,Na¨?ve Bayes模型.重點考察本文使用的ANN 模型與同樣輸入的SVM、Na¨?ve Beiyes模型在準確率、收益率方面的表現.通過對比實驗,分析多源數據驅動與單源數據驅動以及不同的模型之間的區別.表8展示了本文利用第5.1.2節介紹的股價數據集(80%)進行訓練,并使用測試數據集(其余20%)進行預測的情況.括號內為準確率和收益率的波動情況(單位與括號外相同),SVM 和Na¨?ve Bayes模型的參數設置參考文獻[27?28].由表8可知:1)從準確率和收益率角度來看,多源數據驅動比單源數據驅動的模型總體上效果更好:由于多了新聞數據源,SVM-News 和 Na¨?ve Bayes-News 比單獨使用技術因子信號的SVM和Na¨?ve Bayes模型要好,該結論與ANN模型是一致的,也說明本文提出的技術框架有較強的泛化能力.但SVM 和Na¨?ve Bayes模型增加了新聞信號的穩健性略差.2)ANN-News比SVM-News 以及 Na¨?ve Bayes-News 準確率高約 4個百分點左右,在收益率上比其他傳統(ANN)模型高出0.097(約為ANN模型收益率的7%)左右,總體表現也較穩健,進一步說明本文設計的ANN模型更為有效.

篇幅限制,本文未報告更多案例,下一步將多源數據驅動的ANN-News模型應用到更多實例中去以檢驗其性能.

表8 ANN模型與經典模型對比Table 8 The comparison among ANN and other classical models

6 結論與展望

股票的自動交易系統需要獲取多方面的信息并加以綜合利用.本文以ANN模型為基礎,提出了一個新聞數據和交易數據共同驅動的自動交易模型,并成功應用至股票自動交易系統.為獲取新聞事件信息,本文設計事件抽取框架從互聯網新聞文本中抽取多類新聞事件,通過定量分析產生交易信號.在“滬深300”和自選股價數據集兩年的交易數據集上的實驗顯示,將新聞事件信號作為輸入加入到模型中能產生比單獨使用技術指標信號更高的收益,考慮了新聞因素的ANN-News模型比其他類傳統模型預測準確率提高4%以上,收益能提高7%以上.總結本文工作,主要貢獻如下:

1)提出了網絡新聞數據與歷史交易數據共同驅動的自動交易模型,構建了考慮新聞事件的基于ANN模型的自動交易框架.

2)提出了從中文新聞文本中有效提取財經新聞事件的方法,設計了中文財經事件抽取方法并利用實際數據驗證了該方法.

3)利用實際數據驗證了股票自動交易框架的性能,從準確度、收益率等角度對比分析了考慮新聞信號和不考慮新聞信號的ANN模型.

結合相關工作的最新進展,下一步研究將重點聚焦以下方面:1)在處理新聞與交易決策方面作更深入的研究,搜集整理更豐富的財經事件數據,借助模型具體地分析每一類的新聞事件對ANN模型效果的影響.2)在新聞信號與技術指標信號融合方面,下一步將探討更優的新聞信號產生方法,并設計更優化的模型以融合新聞事件信息與技術指標信號.3)考慮直接使用新聞文本數據作為原始數據,構建更自動化的多源數據驅動機器學習模型,通過計算機自動提取特征數據并在測試中提高模型的性能.

猜你喜歡
信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
孩子停止長個的信號
3D打印中的模型分割與打包
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产超薄肉色丝袜网站| 中文字幕免费播放| 国产午夜小视频| a级毛片免费在线观看| 国产XXXX做受性欧美88| 99视频在线观看免费| 久久国产成人精品国产成人亚洲 | 欧洲精品视频在线观看| 午夜欧美在线| 乱系列中文字幕在线视频| 国产精品偷伦视频免费观看国产| 国产精品亚欧美一区二区三区| 亚洲国产综合自在线另类| 久久国语对白| 在线日韩日本国产亚洲| 亚洲欧美一级一级a| 国产成人精品男人的天堂下载| 国产成人久视频免费| 福利在线不卡| 黄色在线不卡| 久久性视频| 日韩欧美国产中文| 国产精品主播| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲欧美在线综合一区二区三区 | 54pao国产成人免费视频| 天堂在线www网亚洲| 亚洲国产精品日韩av专区| 欧美亚洲国产精品第一页| 99久久国产精品无码| 四虎精品国产永久在线观看| 国产男女免费完整版视频| 成人免费午夜视频| 国产精品一区二区在线播放| 国内老司机精品视频在线播出| 97精品伊人久久大香线蕉| 国产成人一二三| 青草视频在线观看国产| 欧美午夜理伦三级在线观看| 在线观看的黄网| 自偷自拍三级全三级视频| 国产福利在线观看精品| 亚洲首页在线观看| 老司机午夜精品网站在线观看| 国产91蝌蚪窝| 美女扒开下面流白浆在线试听| 国产福利在线免费观看| 97在线国产视频| 国产精品黑色丝袜的老师| 国产精品三级专区| 色吊丝av中文字幕| 91亚洲精选| 亚洲精品国产成人7777| AV在线麻免费观看网站| 亚洲视频在线观看免费视频| 天天综合网站| 亚洲综合极品香蕉久久网| 久久久久无码精品| 97超爽成人免费视频在线播放| 国产91透明丝袜美腿在线| 蜜臀AVWWW国产天堂| 一级毛片不卡片免费观看| 亚洲欧美在线综合一区二区三区 | 女同国产精品一区二区| 欧美福利在线播放| 18禁高潮出水呻吟娇喘蜜芽| 中文字幕免费在线视频| 成年人免费国产视频| 日本午夜影院| 免费aa毛片| 国产剧情伊人| 国产成人福利在线视老湿机| 久久精品国产免费观看频道| 久久鸭综合久久国产| 暴力调教一区二区三区| 国产高清在线精品一区二区三区 | 日韩一区二区三免费高清| 亚洲天堂久久| 日韩a在线观看免费观看| 亚洲人成网站色7777| 亚洲免费毛片| 香蕉视频在线观看www|