北方工業大學信息學院 張濤 趙寶鑫
為了判斷國內二級市場未知股票是否被人為操縱,本文以 2017—2022年期間的證監會行政處罰決定書中的案例為基礎數據,將Logistic回歸模型(即邏輯回歸模型)與MACD、換手率等指標相結合,用機器學習方法訓練出以Logistic回歸模型為基礎的股票操縱識別模型,模型總體識別準確率最高達到91.80%。
中國股市成立30年以來,涉嫌操縱股價的案件層出不窮,這些案件既嚴重影響了證券市場的公平公正,導致股票市場動蕩破壞金融市場的穩定,阻礙了我國社會主義市場經濟的良性發展。所以,研究股票走勢是否被別有用心的機構和個人操縱就有了深遠的意義。操縱者為了獲得超額的收益,逃脫法律制裁,其有組織有計劃制定操縱策略,使用隱蔽性強的操縱技術,使監管者難以發現他們的存在。如果利用機器學習對未知股票進行人工智能篩查,可以極大加快對違法操縱者的鎖定,監管者破獲此類案件的時間和數量都會顯著提升,可有效震懾投機客,為中國證券市場的健康穩定發展提供堅實的保障。
在我國持續快速經濟發展中,不斷向西方學習的同時也不斷在走中國特色社會主義道路,發達國家在股市發展中遇到的問題,我們往往也會遇到,這其中我國新興市場對股票操縱的擔憂也在不斷地增加。一些人為了獲取巨額利益,不斷在證監會的監管下打擦邊球企圖逃避監管,他們精心設計操縱方案,使監管變得困難。所以及時發現股市的操縱行為,對保護投資者的利益與維護股市公平交易有深遠意義?;贚ogistic回歸模型的股票價格操縱具有足夠的能力來提高操縱檢測的準確性,它可以顯著地降低監管者的成本,于是機器學習的發展為股票價格操縱識別提供了一種新的選擇。
在人們意識到了股票價格操縱的危害以后,國內外大量研究人員紛紛開始了對股票價格操縱的檢測方法研究。Robert A. Jarrow[1]通過反復實驗建立了一套早期理想市場價格模型,通過不斷模擬真實交易,總結出機構可以利用自有資金優勢與內幕消息,讓股價朝著對自己有利的價格波動,印證了股市操縱存在的可能性;Karl[2]使用一種回歸模型對已知被操縱股票進行歷史走勢分析,并對芬蘭的國家股市進行了股票價格操縱的檢測;蔣賢鋒[3]在研究某只被操縱股票的操縱程度時,認為股票換手率與其操縱時間是衡量相關關系檢驗的重要指標,其中操縱時間對其檢驗的解釋力最好;周春生[4]等詳細闡述了一只被操縱股票會有顯著的建倉期與拋盤期,在其操縱期間該股票的換手率將升高,股價漲跌幅度變大;王震[5]從我國二級市場被證監會處罰的操縱股票為基礎樣本中分析,通過數據對比指出使用將多種指標同時使用,可能會降低識別被操縱股票成功率。
國內在Logistic回歸模型檢測股票價格操縱案例上,也有一定的分析研究。張許宏[6]驗證了Logistic回歸模型對檢測股票操縱識別內幕操縱案例的適用性,確定了作為自變量的判別模型中Logistic回歸模型在以共線性較強的市場反應指標具有優越性。張宗新[7]等從我國二級市場發生內幕操縱案例為樣本,以市場反應指標作為研究變量,用Logistic回歸模型進行操縱行為的檢測,并對模型做出來對比分析。陸蓉[8]等認為在股票被操縱期間存在Beta系數偏低的現象和收益率與人均市值較高的現象,認為在換手率、成交量、波動率和成交額在操縱前后有一些差異。熊熊[9]等在建立了一種Logistic回歸模型,用以檢測我國港股股指期貨被操縱的可能性,將市場波動性與市場流動性指標放在所構建模型中,形成股指期貨操縱事件的預警系統。夏文學[10]使了SPSS統計軟件對股票價格操縱案例進行構建Logistic回歸模型,總結出衡量被操縱股票的共有的四個指標特征,并對建立的模型進行了檢驗。張建鋒[11]等在通過Logistic回歸模型,發現具體市值小、戶均市值低等七個特征更易于被不法分子操縱,模型準確率可以達到63.89%。
當前雖然很多論文采用Logistic回歸模型對股票價格操縱行為進行了分析,但均缺少非法交易者操縱策略本質的特征分析,使用數據無論是歷史分時數據還是歷史日交易數據都擁有局限性。本文從操縱案例出發,引入能夠真正影響股票價格走向的歷史數據,希望得到更高更好的股價操縱識別檢測的準確率。
在中國證券監督管理委員會官網中的政府信息公開中查詢到上千份的行政處罰決定書,將在 2017—2022年期間的案例進行手工采集記錄如表1所示,對進行初步篩選去除操縱期內因停牌導致交易數據不連續的上市公司。所有被操縱股價的上市公司歷史日交易數據采用Tushare數據庫的免費開源Python財經數據接口包,利用Python語言操作建立MySQL數據庫,將Pandas的DataFrame實現與MySQL的交互,用以搭建分析數據庫。

表1 中國證監會行政處罰決定書(示例)Tab.1 Decision on administrative punishment of CSRC (example)
將數據下載到本地,將操縱起止時間超過半年和小于3日的數據從樣本中去除。因其中操縱時間導致股票波動過于穩健或激進,此類極端樣本易導致數據過擬合。最后將操縱起始時間前30日數據標記為未被不法分子股票價格操縱區間。
本文利用Logistic回歸模型進行對構建,它在大數據和經濟學中被廣泛應用,并且屬于廣義線性回歸中的一種。線性回歸模型在全體實數范圍內產生預測值,Logistic回歸模型則在1與0的范圍內產生預測值,主要是用來解決二分類問題。設因變量y,值為0時表示該A股上市公司不易被操縱股票價格,值為1時表示該A股上市公司容易被操縱股票價格,其中x1,x2,x3,x4,…,x(n-1),xn表示的自變量受導致股票價格改變的n個元素影響,如果公司被不法分子操縱概率為P,則:

令θ0為常數,θ1,θ2,θ3,θ4,…,θ(n-1),θn為偏回歸系數,假設分布為hθ(x),則線性回歸:

在[0,1]映射區間內轉換,使用Sigmoid函數:

與線性回歸公式聯立:

即:

設定概率分布p(x)與q(x),使用交叉熵作為Logistic回歸的損失函數:

二元邏輯回歸真實分布y與假設分布hθ(x),用來計算所有樣本的損失之和的平均值:

梯度下降更新初始化參數θ,由:

J(θ)對θj求偏導:

有:

為了保留所有特征減小某些非相關特征的權重,使用正則化來降低過擬合,把數據中的噪點過濾掉,當L2正則化后梯度下降更新,則有:

和

在預判指標的選擇上,堅持實踐是檢驗真理的唯一標準,于是在經過不斷多次的反復實驗論證后,在程序輸入換手率與MACD指標后,得出的實驗效果更好。實踐證明如果多種指標同時使用,會降低識別被操縱股票成功率。換手率定義為日交易時間段內股票的成交量與發行總股數比值的百分比,在我國為日交易時間段內股票的成交量與流通股股本比值的百分比,也稱為是周轉率,換手率也是反映投資活躍程度與市場交易技術指標中的其中之一。往往每日換手率排名高的前幾只股票,在日K線圖中反應出跳躍性的走勢,于是在選擇輸入預判指標中換手率必不可少。MACD利用收盤價的短期指數移動平均值(一般12 d)與長期指數移動平均值(一般26 d)反映該時間段內的股票走勢,以此可以對買進、賣出時機作出研判的技術指標,在判斷長期趨勢中MACD在長線投資的準確率更好而且在實際應用中更多,于是在選擇輸入預判指標中MACD也是必不可少。
本文采用Python編寫引入機器學習中的Logistic模型算法,選用優化器也是為了獲取更高準確率必不可少的環節。傳統機器學習的經常把學習率變為常數項,或者將學習率的調節參照訓練次數的多少進行一定的調整,不容易更好的提升學習率,忽視了其變化。有了自適應學習率優化算法后,對提升學習率有了顯著幫助,更減少了訓練時長,主流的Adam優化算法就是其中一種。

以上β1動力值一般為0.9,β2動力值一般則為0.999。為一階動量項為mt的修正值,為二階動量項為vt的修正值。θt為時間t的迭代模型的參數,代價函數在第t次θt處產生的梯度大小為gt=ΔJ(θt)。ε為使分母不等于0,一般取1e-8。
實驗訓練前,最終篩選出股票220只,劃分出訓練集交易天數46202條,驗證集16450條,測試集14350條。
采用MACD與換手率指標為預判指標,Adam優化器,binary_crossentropy損失函數,兩種激活函數為如圖1所示ReLU函數與如圖2所示Sigmoid函數,ACC評價指標,訓練次數初步設定為100次。

圖1 ReLU函數圖Fig.1 ReLU function

圖2 Sigmoid函數Fig.2 Sigmoid function
訓練開始后,準確率隨訓練百分比增加而增加最終準確率為0.9180,如圖3所示。損失值隨訓練百分比增加而減少損失值為0.2637,如圖4所示。

圖3 準確率Fig.3 Accuracy

圖4 損失值Fig.4 Loos value
最后輸出模型各層的參數狀況,通過計算產生3個全連接層,總共37個參數。第一個全連接層,輸入數據維度為2,有4個神經元,共12個參數;第二個全連接層,輸入數據維度為4,有4個神經元,共20個參數;第三個全連接層,輸入數據維度為4,有1個神經元,共5個參數。
在2021年中央金融工作會議中,表示要“進一步深化金融改革”,并明確指出“加強金融法制建設”與“加強金融監管”[12]。說明隨著我國經濟的不斷發展,對股票價格操縱的違法行為予以監管并制止是符合我國當前利益的。從最后結果來看,91.80%準確率符合預期,本文所建立的Logistic回歸模型對股票價格操縱識別有較好的檢測效果。通過換手率指標與MACD指標可以暴露出股票價格操縱者的真實意圖。在將來的模型優化中如果嘗試擴大歷史與未來數據量,會使Logistic回歸模型識別準確率進一步加強。