衛 錦 常凱玲
(1.山西太原科技大學,山西 太原 030024;2.山西晉城市中級人民法院,山西 晉城 048000)
隨著中國經濟迅速發展,證券市場已經成為資本市場的重要組成部分。對證券的分析研究,多以綜合運用因子和聚類分析進行企業經營績效、競爭力評價及股指分析為基礎,以預 測證券價值未來走勢為目的[1]。針對行業間相關關系分析研究較少,尤其是通過人工智能方法對證券市場行業的分析研究較少[2]。該文通過 K-means 聚類方法對證券市場中行業間的相關關系進行研究,并提出了研究結論。
隨著人工智能時代到來,人們將人工智能相關技術應用到證券數據分析中。人工智能方法的一個主要特點是通過數據直接得出結果,數據間的相互關系由算法自身處理,使用者不能清晰地看出數據間的相互關系。該文首先針對證券行業數據特點,采用聚類算法分析證券行業的相關數據,然后通過所得結果分析行業間的相互關聯,最后給出分析結論。
聚類問題屬于無監督學習范疇,在缺少足夠先驗知識的條件下,通過優化評價函數,挖掘數據中的關聯模式,將數據樣本分成多個類別[3]。聚類問題的特點主要是無監督和缺乏先驗知識。證券領域不同行業間的關系一般認為是無法定量,可以認為其數據缺少先驗知識, 同時在分析行業間關系過程中不需要其他因素的注入,因此應用無監督方式。針對證券行業的數據特點,該文選擇聚類分析方法對數據進行分析。
采用的數據源為申萬宏源官方網站提供的含有 2000 年1 月 18 日~ 2020 年 8 月 18 日的11 個行業的一類行業日報表。從成交量、漲跌幅、市盈率3 個維度對數據進行 K-means聚類分析。首先將所有數據以上述3 個維度繪制成三維圖,如圖1 所示。
然后應用 K-means 算法進行數據分析,主要有以下4 個步驟。1)從樣本中隨機選取K個質心作為均值向量{μ1,μ2...μk}。2)遍歷剩余數據到每個質心的距離,將其分配到最近的一個簇,形成K個簇。3)再次計算 K 個簇的均值向量μi以獲得新的質心K。4)迭代(2)(3)步驟,質心K沒有再發生變化,簇不再變化,算法結束。該文選取的K值為5,通過 K-means 算法后得到質心,如圖2 所示。
對質心進行分析發現,其相互間的距離存在差距。對所有質心進行歸一化處理,得到質心間相互距離,見表1,發現質心 1 和質心 4 間距離最大,1 號和 3 號質心間距離最小。

表1 質心間距離(歸一化處理后距離)
為了研究質心間距離與行業間的關聯性,對每個行業數據進行占比分析,即每個行業分屬簇類總量占行業總量的比例。11 個行業部分占比情況見表2。

圖1 一類行業日報表三維展示

圖2 K-means 算法得到的質心

表2 部分行業數據占比(單位:%)
表2 中質心1 占比最多的是家用電器行業,質心4 占比最多的是有色金屬行業。為了分析質心對行業的影響,操作如下。1)將兩行業對應的數據提取出來。2)以 100 萬元為起始總價TV,第一個時間點2 個行業各占TV/2。后一時間點以公式
①方法投資。


圖3 家用電器與有色金屬價值曲線

圖4 家用電器與食品價值曲線
圖3 顯示質心距離大的行業間屬于相關性質的行業。從實際角度出發,有色金屬屬于家用電器原材料,兩者屬于一種相關的行業,電器利潤大,有色金屬利潤升高。質心間距離小的行業屬于一種互補性質行業,如圖4 所示。實際中,家用電器和食品對一個家庭屬互補品,在家庭買大量的家用電器后,食品的開銷在一段時間內會相應的降低。通過其他數據的測試也證實該結論。
圖3 和圖 4 中質心3 數據屬于上升態勢,質心1 數據也屬于上升態勢,但是上升趨勢不如質心3。通過其他數據驗證,也證實了質心關聯趨勢結論,如圖 5、圖6 和圖7 所示。

圖5 采掘行業質心1 數據

圖6 醫學行業質心3 數據

圖7 有色金屬行業質心4 數據
透過對聚類結果關聯行業后分析,聚類可得行業間關聯性,也可以對應質心的關聯趨勢。
首先,對證券數據聚類分析獲得處于上升狀態的質心及互補狀態的行業。然后,當相關數據處于質心范圍時,按一定的比例投資該互補行業。當數據脫離質心范圍,抽出資本,提取利潤。對該策略測試,20 年內收益為 400%左右。
針對證券行業數據特點,通過 K-means聚類算法,成功地挖掘出證券價值走勢與質心之間的關系以及行業間相關性與質心間距離的關系,提出先聚類再分析最后定策略的方法。經驗證,該方法在測試數據集上有良好的效果。