劉裕良
摘 要:量化投資是當前金融投資領域非常熱門方向之一,而數據挖掘技術在金融領域也有廣泛應用。本文主要概述了數據挖掘的基本概念、主要步驟、常用模型和方法,和量化投資中的關于選股的量化選股模型,探討和研究數據挖掘技術中的分類模型、聚類模型、關聯規則和序列模式等模型,在基本面量化選股和技術面量化選股方面的一些應用,如多因子選股、板塊輪動選股和籌碼選股。
關鍵詞:數據挖掘;量化投資;量化選股
1 數據挖掘技術
1.1 數據挖掘概述
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的,人們事先不知道的,但是又潛在有用的信息和知識的過程。[1]數據挖掘是一門新的交叉學科,一般認為是在統計學、數據庫技術、機器學習、信息科學、可視化技術乃至經濟學等多門學科充分發展的基礎上形成的。數據挖掘概念提出以后,金融業首先對其表現出了極大的興趣,并率先將其納入應用。目前數據挖掘在國外金融領域,特別是銀行已得到了廣泛應用。
1.2 數據挖掘的主要步驟
在實際進行數據挖掘的過程中,根據CRISP-DM模型,一般可分為六個階段。
(1)、業務理解:從業務角度來理解數據挖掘目標和要求,并把業務理解的知識轉換成數據挖掘問題的定義和實現挖掘目標的最初規劃。
(2)、數據理解:從數據收集開始,通過一系列的數據探索和熟悉,識別數據質量問題,發現數據的內部屬性。
(3)、數據預處理:是將各種不同來源的數據加以清洗、轉換和歸并,以適合數據挖掘技術的使用。一般包括數據類型轉換、計算缺省數據、消除噪聲、消除重復數據等。
(4)、建立模型:此階段對預處理過的數據應用各種數據挖掘技術,建立分析模型。一般地,相同數據挖掘問題類型會有幾種技術手段。某些技術對于數據形式有特殊規定,這時通常需要重新返回到數據預處理階段。
(5)、評估模型:階段主要包括通過評估備選模型,挑選冠軍模型,評價模型的穩定性,確保模型正確回答了第一階段的業務問題。
(6)、模型發布:即將發現的模型投入業務應用,產生商業價值,并且應用效果要及時跟蹤和反饋,以便后期的優化和更新。
1.3 數據挖掘的常用模型和方法
數據挖掘是通過數據來建立一些模仿真實世界的模型,并應用模型來描述數據中的規律、規則及相互關系。這些模型不僅能夠為我們的投資行為或其他決策提供所需要的信息,而且還能幫助我們做些提前預測。常用模型有分類、聚類、關聯規則、序列模式等。
(1)分類模型 分類的目的是利用已有觀測數據建立分類器,來預測未知對象屬于哪個預定義的目標類。其任務是對數據集進行學習并構造一個擁有預測功能的分類模型,用于預測未知樣本的類標號,把類標號未知的樣本映射到某個預先給定的類標號中。[1]分類技術是數據挖掘技術中應用最廣泛的技術,分類模型學習方法主要有:基于決策樹的分類方法、貝葉斯分類方法、k-最鄰近分類(KNN)、神經網絡方法(如SVM支持向量機)等。
(2)聚類模型 與分類不同,聚類是一種無指導的學習,沒有預定義的類編號。聚類是一個把數據對象集劃分成多個組或簇的過程,使得簇內的對象具有很高相似性,但與其他簇中的對象很不相似,即所謂"物以類聚"。相異性和相似性根據對象的屬性值評估,并且通常用距離度量。[2]主要聚類方法有:劃分方法(k-means算法)、層次的方法、基于密度的方法、基于網格的方法和基于模型的方法。
(3)關聯規則 關聯分析是尋找數據項之間感興趣的關聯關系,用關聯規則的形式描述。關聯分析生成的規則帶有置信度和支持度,置信度級別度量了關聯規則的強度,支持度度量了關聯規則的重要性。關聯規則的挖掘過程分兩步,第一步先找出所有頻繁項集,第二步由頻繁項集產生強關聯規則。[1]常用算法有Apriori算法和FP-growth算法。
(4)序列模式 序列模式與關系規則聯系密切,所不同的是序列模式中相關的項目或序列之間在時間維度上存在聯系。序列模式挖掘就是找出所有的頻繁子序列,發現頻繁序列算法大體有:類Apriori方法、GSP算法、基于投影方法、SPADE方法。[1]
2 量化投資和量化選股
2.1 量化投資及其優勢
量化投資就是利用計算機技術并且采用一定的數學模型去踐行投資理念,實現投資策略的過程。量化投資主要是依靠數據和模型來尋找投資標的和投資策略。[3]量化投資過程就是利用數學、統計學、信息技術的量化投資方法來管理投資標的和投資組合的過程。數量化投資的組合構建注重的是對宏觀數據、市場行為、企業財務數據、交易數據進行分析,利用數據挖掘技術、統計技術、計算方法等處理數據,以得到最優的投資組合和投資機會。量化投資主要內容包括:量化選股、量化擇時、股指期貨套利、商品期貨套利、統計套利、期權套利、算法交易、高頻交易等。相比較傳統的定性投資,量化投資的主要優勢在于紀律性、系統性、及時性、準確性和分散性。紀律性可以克服人性的貪婪和恐懼等弱點,容易嚴格做到止損止盈。系統性包括多層次的量化模型、多角度觀察和海量數據的處理。及時性體現在能及時快速跟蹤市場變化,不斷發現新的投資機會和新的策略模型。準確性指能準確客觀的評價交易機會。分散性指的量化投資能在控制風險的條件下,實現分散投資的目標。
2.2 量化選股
量化選股就是利用數量化的方法選擇股票組合,期望該股票組合能夠獲得超越基準收益率的投資行為。[3]即根據某種方法判斷一只股票是否滿足某些條件,如果滿足則放入股票池,不滿足則從股票池中剔除。傳統股票分析技術主要分為基本面分析和技術面分析,相應的量化選股也可分為基本面量化選股和技術面量化選股兩大類。股票基本面因素包括宏觀經濟指標、行業背景、企業財務指標、公司經營能力、公司估值等,常用基本面選股模型有多因子模型、風格輪動模型和行業輪動模型。其中多因子選股的基本原理是采用一系列的因子作為選股標準,滿足這些因子的股票則被買入,不滿足的則賣出。多因子模型相對來說比較穩定,因為在不同市場條件下,總有一些因子會發揮作用。風格輪動模型是利用股票市場的大盤股和小盤股之間的二八行情特征變換進行選股,當市場偏重那二成大比重的權重股市,選擇大盤股,當市場出現八成小盤股上漲時,選擇小盤股,在風格轉換初期及時介入,則可以獲得較高收益。行業輪動選股模型是指在經濟周期不同階段選擇表現好的行業,選擇相應板塊的股票。技術面量化選股主要是根據股票價格K線組合、形態、趨勢以及成交量等因素,有趨勢跟蹤、籌碼選股、資金流選股、動量反轉選股等模型。
3 數據挖掘技術在量化選股中的應用
3.1 在基本面量化選股方面的應用
(1)分類模型在多因子選股模型的應用。例如對A股的部分上市公司,首先選擇一些重要公司屬性,如行業地位、產品競爭力、盈利能力、負債情況等作為候選因子,對其公司等級進行評估,根據候選因子綜合值的不同,將股票分為不同類型,如藍籌股、成長型、垃圾股、題材型等,這過程在建立一個分類模型,同時也對一些候選因子進行檢驗,剔除一些對模型無效的因子。分類模型建立后,再用A股其他上市公司的數據,去訓練已經得到的分類模型。分類模型驗證有效后,投資者就可直接根據一些公司屬性,選擇對應股票進行投資。如基于貝葉斯分類的選股方法[4],決策樹算法股票分析和預測中的應用[5]。
(2)聚類模型在多因子選股模型的應用,例如基于SOM自組織映射網絡的股票聚類分析[3],選取A股一定數量股票的基本面指標,如每股收益、每股凈資產、每股經營性現金流、凈資產收益率、凈利潤等作為主要研究對象。應用SOM模型進行模擬聚類實驗,通過聚類的方法分析股票,得到聚類結果。分析聚類結果,發現公司獲利能力和成長性好的股票,每股收益、每股凈資產、凈資產收益率這個3個指標的值都比較高。這樣投資者就可根據這3指標選擇成長性好的股票。
(3)關聯規則在板塊輪動選股模型的應用,首先收集股票歷史數據,對數據進行預處理,把每天板塊指數的漲跌情況轉化為二項數值,1代表上漲,0代表下跌。再根據板塊指數漲跌情況,采用二值型關聯規則算法進行挖掘,采用Apriori算法實施關聯分析。設定支持度和置信度的閾值后,可以從模型中找到許多有意義的強關聯規則。通過這些強關聯規則,可以知道相關板塊間的聯動強弱。這樣就能了解投資者在股市投資的輪動行為。[3]如果分析得出石化板塊和煤炭板塊有強關聯規則,那么當石化板塊出現上漲時,煤炭板塊可能也會上漲,因為這兩個板塊同屬于能源行業。這樣在投資活動中,如果發現石化板塊開始上漲,就可以根據關聯模型,買入煤炭板塊的股票,等待該板塊的股票后續補漲。投資者就可以通過應用關聯規則,預測不同板塊的輪動變化,實現高額的投資回報。
3.2 在技術面量化選股方面的應用
序列模式在籌碼選股模型的應用,主要是通過分析與時間相關的股票數據,發現某一時間段內某只股票籌碼變化的模型。例如通過收集某只股票數據,分析發現其籌碼在某一段時間內持續集中的趨勢,即股東戶數不斷減少,股票籌碼向一些主力集中的趨勢,則在未來一段時間,該股可能出現上漲,或者有跑贏大盤的可能,那么就可以把這些股票加入股票池中,隨時跟蹤和監控,及時進行相應的買入操作,以期在未來一段時間內的股價上漲,獲得較高投資收益。
4 結語
隨著量化投資在中國的蓬勃發展,量化投資在整個金融投資市場的比重將不斷變大,聽著量化投資大師詹姆斯.西蒙斯的傳奇故事,也將會涌現更多量化投資方面人才。關于數據挖掘技術在量化投資中應用和實戰將會更多,相信數據挖掘模型和算法在量化選股方面也會有更多應用。
參考文獻
[1]蔣盛益.李霞.鄭琪.數據挖掘原理與實踐[M].北京.電子工業出版社.2011.8.
[2]著Jiawei Han Micheline Kamber Jian Pei譯范明,孟小峰.數據挖掘概念與技術(原書第3版).北京.機械工業出版社 .2012.7
[3]丁鵬.量化投資—策略與技術(修訂版)[M]. 北京.電子工業出版社.2012.4.
[4]左輝,樓新遠.基于貝葉斯分類的選股方法[J].電腦知識與技術(學術交流).2008年10期
[5]魏雄.決策樹算法在股票分析與預測中的應用[J].電腦知識與技術(學術交流).2007年09期.