陳金林
(廣東外語外貿大學南國商學院,廣東 廣州 510545)
基于大數據視角的我國股市行情分類淺析
陳金林
(廣東外語外貿大學南國商學院,廣東 廣州 510545)
大數據時代,數據創造價值的理念逐步深入人心,人們期待數據可以更好地為業務服務。由于股市行情數據的高度復雜性,使得一般的數據建模方法在進行股市行情建模時失效,而大數據方法具有靈活性、自適應性和非線性等特點,在處理股市行情數據時有很好的應用效果。本文運用大數據技術的k - 近鄰分類方法,把我國股市行情分為下跌、反彈、上漲和回調四種類型。通過流式實時處理,驗證了任一未知類行情總能與分類器中的一類行情相吻合。
大數據;股市行情;k - 近鄰分類
由于股市行情數據的復雜性,傳統的分類方法和計算技術很難根據行情數據對其進行分類。但是,大數據方法具有靈活、自適應和非線性等優點,處理技術以流式計算方式為主,擅長線下和聯機實時計算。根據股市行情數據的特點,通過迭代計算和數據挖掘,采用k - 近鄰分類方法,對我國股市行情進行分類具有可行性。
通常情況下,人們在論述股市行情時,認為股市行情主要是指股票的市場價格:收盤價、開盤價、最高價抑或最低價。單位時間內,股票市場指數或者某只股票的市場價格,也就是股市行情,由投資者做多或者做空的情緒、未來的預期等等因素決定,即股市行情是股市各種因素在此時綜合作用的結果。
在大數據時代,數據已經成為金融企業的重要戰略資產。金融企業內部積累了豐富的用戶數據和交易數據,數據類型從傳統的結構化數據擴展為社交數據、流數據、地理空間數據、傳感器數據等,數據時效從穩定的靜態數據擴展到實時動態數據。我國股市經過26年多的發展,已經產生了大量的數據。以上證指數為例,單位時間內收盤價、開盤價、最高價、最低價叫做一組價格,如果單位時間為一月,則產生了312組價格,如果單位時間為1分鐘,則產生了156萬余組價格。這些海量數據已形成了一個巨大的數據倉庫。
(一)股市行情數據具有的特點
與其他領域的數據比較,股市行情數據具有多種特點:
第一,股市行情數據為時間序列數據。在相等的時間間隔(單位時間,如每分鐘、每小時或者每天)出現,由經濟過程產生,自然觀測的結果。股市行情時間序列數據包含不同時間點,重復測量得到。
第二,股市行情數據類型多。既有結構化數據,又有社交數據,還有地理空間數據等等。
第三,股市行情數據關系復雜。數據之間的關系很難用一個簡單的數學公式來表示,具有高度的復雜性和非線性。
第四,股市行情數據特別具有動態性。在股市交易時間內,隨著時間的推移行情會發生劇烈變化,呈現動態特征。
第五,股市行情數據自相關性強。時下的行情受前期行情的影響特別大,尤其我國實施的漲跌停板,雖然在預防非理性投資方面有重要作用,但是加深了股市行情數據的自相關。
概括來講,股市行情數據的特點與現在是一個大數據時代的特點相吻合。數據創造價值的理念深入人心,期待數據可以真正地為業務服務。相應地,一些專做數據服務的第三方公司不斷涌現,希望能夠幫助需要數據的人們提供數據服務,挖掘出更多有價值的規律。
(二)股市行情分類處理技術的特征
在大數據視角下,股市行情分類處理技術有自己的特征,表現為:
第一,股市行情數據結構化處理技術明顯。如果分析行情,而不考慮行情價格的社交和地理空間等,經主成分分析后,最強的系數呈現結構化數據特征。非結構化/半結構化數據占所有數據的比例比較小。
第二,股市行情數據獲取處理技術以流式計算方式為主。這是因為股市行情數據是時間序列數據,雖然在構造分類器時采用批處理計算方式,但其實質還是流式計算方式。
第三,股市行情數據采用的計算類型是數據挖掘。通常情況下,需要對股市行情數據進行挖掘。通過數據或維度規約和變換后,數據被映射到變換后的空間里,保留變換后最強的系數作為特征,能最大限度地反映股市行情數據的實質內容。維規約和變換技術主要采用基于主成分分析的奇異值分解(因超出文章的重點,不做討論)。
第四,股市行情數據處理技術以實時計算為主。聯機計算和線下實時計算相結合,處理技術要求具有即時高響應性,未知分類的股市行情必須實時反映交易所的對應行情。線下實時計算的數據要能實時地從第三方獲得,以保證股市行情在任何情況下的實時和正確。
第五,股市行情數據處理技術需要大量的迭代計算,為此必須提供具有高效的迭代計算能力的大數據處理技術。
由上可知,大數據視角下的股市行情分類的處理技術與傳統的數據處理技術不同。與所有新事物剛出現一樣,大數據是一個尚未被明確定義的概念。它如此年輕,以至于走在世界前沿的大學還沒來得及完善這門專業,世上頂尖的專家還未能形成統一的理論體系,所有對大數據進行研究的人們都還在感悟。用大數據對股市行情進行分類嘗試更是如此,何況到現在為止,人們無法用傳統的數據處理方法對股市行情進行比較正確的分類,或者大家都認可的股市行情分類方法。
但是有一點可以肯定,應該嘗試用大數據對股市行情進行分類。能夠處理股市行情數據的專業人才可以是金融領域的專家,或者來自數學、物理或計算機工程領域的人們,因為這需要極強的專業知識背景與專業培訓。正在研究大數據的人們認為,大數據挖掘并沒有一定的方法,更多需要依靠挖掘者的天賦與靈感,這給那些想從大數據視角對股市行情進行分類的人們指明了方向。
(三)股市行情分類的可行性方法
由于行情數據的高度復雜性,使得一般的數據建模方法在進行股市行情建模時失效,而大數據方法具有靈活性、自適應性和非線性等優點,在處理股市行情數據時有很好的應用效果,實際的股市投資也證實了這一點確實大有可為。
在大數據技術中,分類是一種比較重要的數據分析手段,其目的是利用已有的觀測數據,通過分析觀測數據的特征,來構造一個分類器,將任何未知的數據對象進行分類。
在股市行情分類中,k - 近鄰分類方法比較好。優點是事前不要通過數據來學好分類模型,再對未知樣本分類,而是存儲帶有標記的樣本集,給一個沒有標記的樣本,用樣本集中k個與之相近的樣本對其進行及時分類。
具體來講,股市行情k - 近鄰分類基本思路是:
第一步,對已有的股市行情數據進行函數F (X) 處理(由于某種原因,不對F (X) 進行闡述),得到標記好的樣本集。對股市行情數據樣本集進行數據或維度規約和變換,使數據被映射到變換后的空間,保留變換后最強的系數作為特征,得到可視圖。
第二步,取近鄰的一個未知分類的股市行情樣本用來對其分類,也就是用未知類行情的可視圖和樣本可視圖進行比較,得到未知類行的分類;
第三步,逐一取出近鄰樣本集中的股市行情,與未知類股市行情相比較,找到k個與之相近的股市行情數據,用這k個股市行情的樣本的類為未知行情定類;
第四步,當把股市行情數據看做連續時間序列時,用k個股市行情的樣本可視圖為未知行情數據分類。
(四)基于大數據視角下我國股市行情分類
當人們從第三方獲得股市行情的大數據后,對已有的股市行情數據進行函數F (X) 處理,然后得到可視圖(如下圖(1))。
現在對股市行情數據經函數F (X)處理后進行概括。
F (X)作用數據樣本集,是時間T的N維空間函數,在進行數據或維度規約和變換后可以得到兩個函數s(t)和b(t),兩個函數均為時間的一階邊際函數,它們的數據被映射到變換后的二維空間,反映股市中多方和空方的行情變化。
設:
s(t)為空方行情的邊際函數,當s(t)<0時,空方行情加強;當s(t)>0時,空方行情減弱。
b(t)為多方行情的邊際函數,當b(t)<0時,多方行情減弱;當b(t)>0時,多方行情加強。
由于股市行情數據不為零,所以行情數據進行維度規約和變換后s(t)和b(t)不會同時為零。根據排列組合知識,可以得到s(t)和b(t)如下四種組合:
第一種組合:b(t)
第二種組合:s(t)
第三種組合:b(t)>s(t)>0,多頭行情加強的變化幅度比空頭行情減弱的幅度還要大,行情以多頭行情為主,趨向升;
第四種組合:s(t)>b(t)>0,多頭行情減弱的變化幅度比空頭行情加強的幅度還要大,雖然以多頭行情為主,但是行情上升中空頭行情的變化在加強,升中有跌。
s(t)和b(t)是同時存在的一對結構化數據,經可視化后反映一個單位時間的股市行情,上述四種組合中的一種形式的連續N對結構化數據組合形成了一個可視圖,能反映行情的特征。由反推可以得出,連續N對結構化數據組合表現出了相同屬性的一個股市行情,可視圖就構成一個分類器,如圖(1)所示。
圖(1)附注:①下跌 ②反彈 ③上漲 ④回調
經過對股市行情k-近鄰分類后,發現我國股市行情有四種類型:
第一種組合為下跌行情;
第二種組合為反彈行情;
第三種組合為上漲行情;
第四種組合為回調行情。
從大數據視角對我國股市行情進行分類,是一種嘗試。這種分類方法在實踐中得到了的檢驗,證明是行之有效的。
圖(1)下半部分里的可視圖,是對圖(1)上半部分股市行情進行了數據處理的結果,并分類。任一未知類行情,通過流式實時處理,經過k - 近鄰方法分類,總能與分類器中的另一類行情相吻合。
[1] 王珊,王會舉,覃雄派. 架構大數據:挑戰、現狀與展望[J]. 北京:計算機學報,2011.
[2] 汪永強. 社會化網絡中的推薦算法及其應用[J]. 上海:上海交通大學,2012.
[3] 許偉,梁循,楊小平. 《金融數據挖掘:基于大數據視角的展望》[M]. 北京:知識產權出版社,2013.
[4] 陳利強,梁如見,張新宇. 《金融大數據:戰略規劃與實踐指南》[M]. 北京:電子工業出版社,2015.
[5] 李福東.《大數據運營:服務型企業架構新思維》[M]. 北京:清華大學出版社,2015.
[6] 魏瑾瑞. 《統計學視角下的金融高頻數據挖掘理論與方法研究》[M]. 北京:中國社會科學出版社,2015.
廣東省本科高校教學質量與教學改革工程項目《計算機科學與技術應用型人才培養示范專業》粵教高函[2015]133號