王智
(重慶市第八中學校,重慶,401120)
機器學習中最關鍵的概念是學習,而機器的學習過程就是從無到有,自我不斷修復更正的一個過程。該領域具有良好的市場應用前景。機器學習能夠擁有今天的地位,也不是一帆風順的,同樣是經過漫長的摸索。從20世紀50年代到20世紀70年代初,人類對于人工智能的研究才剛剛起步,處于一個探索的階段。20世紀70年代中期,人類對人工智能的研究到達了一個迅猛發展的時期,大量優秀的專家涌現,為人工智能注入了大量的知識和蓬勃的生機,例如E.A.Feigenbaum 作為“知識工程”之父在 1994 年獲得了圖靈獎。20世紀六七十年代,多種關于人工智能的學習技術出現并得到了進步,隨后大量關于機器學習的周刊創辦,使20世紀80年代的機器學習快速成長,其盛況不亞于先秦時期的百家爭鳴。如今機器學習已經與多門學科領域相互交叉,在多家高校也開設了這個學科。它綜合應用數學、自動化和計算機科學等。機器學習的應用寬度在不斷擴張,更能與其他領域結合,如本文所探討的優質股的選擇;甚至一部分應用成果已經轉化為商品。與其相關的競賽活動也空前活躍。
股票投資已有相當長的時間。如何炒股,選擇優質股也成為了國內股民心中疑惑。但在國外這個問題已經被新的方案:量化投資所解決。在國外量化投資已經有將近40年的發展歷程,但在國內仍能算新鮮事物。相比于靠個人的經驗和背景知識的投資,量化投資已經在國外取得了優異的成績。在1971年時,美國巴克萊投資管理公司發行世界上第一只指數基金,標志量化投資的建立。如今,量化投資已經成為美國投資方式的根本之一。近年來,國內股市極不穩定,既有時勢造英雄,同時不乏存在失敗的典型案例。夸張而言一將功成萬骨枯。為了使股民得到長期穩定的投資,通過參考國外量化投資的經驗,結合機器學習的量化投資手段,從而達到獲取穩定收益目的的新型交易方式無疑是國內人民的首選[1]量化投資也必然成為國內投資的新趨勢并與世界接軌。
量化投資和傳統的定性投資在理論基礎上并沒有不同,都是建立在能夠掌控市場,產生超出已經付出的額外收益的特異組合。但量化投資與傳統投資理念進行對比,不同的是,傳統投資依靠人的主觀進行選股;而量化投資卻是人的投資的理念和經驗通過算法建立數學模型,并利用計算機的強大運算能力來處理龐大的數據,只有通過大量運算后,確認數據是否符合模型,才會進一步投入交易中。同時伴隨機器學習在各領域大顯身手,量化投資這種新型投資方式必然能夠走進歷史的大舞臺并且大放光彩。
人工智能的關鍵內容是機器學習,機器學習的經典定義“計算機利用經驗改善系統自身性能行為”。[2]簡而言之,機器模擬人的行為,對已有的經驗進行自動改進。
伴隨人工處理成本高、人工處理困難這兩大難題,而機器學習具備降低企業成本,提高投入產出比等優點,人類對機器學習的依賴也日益增長。
機器學習的主要內容是模擬從而實現自我學習。機器學習由分為兩大步驟:一是不斷探索人類的學習方式;而另一種是研究如何有效從海量數據中挖掘有效信息。學習形式又可以分成四類:有監督學習(通過歷史輸入和歷史數據之間形成對應關系,生成映射函數)、半監督學習(直接對輸入數據集進行建模,對應的輸出數據)、無監督學習(綜合利用少量標注樣本和大量未標注樣本進行訓練)、增強學習(學習從環境狀態到行為的映射)。而我們所探討的隨機森林算法屬于有監督學習一類。機器學習能力的增強也便是通過某一程序解決問題的能力增強。
接下來我們將著重討論隨機森林怎樣對選擇優質股起到關鍵作用。
隨機森林算法本就是一片茂盛的森林,發揮巨大作用,但倘若真正想要了解它,那便不得不從它身體中的一棵樹,也就是決策樹開始。
決策樹是一種樹形的分類結構,它的優點是分類效果明顯,速度快,可讀性強。
假設我們采用決策樹來選取優質股票,該邏輯便可以用圖1來解釋。

圖1
首先我們對100支備選股票進行選擇,根據因子,放棄不滿足條件的40支股票,篩選出滿足條件的60支股票。然后繼續對這60支股票采用其他因子繼續進行判斷。重復采取這樣的操作,直到滿足所有條件即最后10支股票就是我們想要的股票組合。
ID3算法

Gini系數
Gini系數指標的計算過程如下:
計算要的Gini系數

其中,i代表類別iP在樣本集S中出現的概率。
計算每個劃分的Gini系數
如果S被分隔成兩個子集S1與S2則此次劃分的Gini系數為

在節點分裂時,將每個屬性的所有劃分按照他們Gini系數來進行排序,節點分裂時,選擇Gini系數最小的屬性作為分裂屬性,并按照其劃分實現數據的分類。
通過兩種方法均可計算出優質股。不過通過實驗,Gini系數更佳。
(1)因為決策樹的構建是一個遞歸的過程,所以需要確定停止條件,否則過程將不會結束。每個子節點只有一種類型的記錄時停止是一種最直觀的方式,但是這樣往往會使得樹的節點過多,導致過擬合問題。
(2)決策樹因為被限制在節點上,所以只能檢驗單個屬性。(3)無法刪除帶噪聲的不相關屬性。
即使把決策樹看成是一個專家,但它也有出錯的時候。常言道:三個臭皮匠頂個諸葛亮;諸葛亮縱然神機妙算,也有七星續命失敗之傳說。決策樹也不例外,也有失誤之時,隨機森林即是構建多個臭皮匠從而達到超越決策樹這個單人大師的算法。
構建隨機森林的關鍵是對特征值與數據的隨機處理,使得生成的每個決策樹都是隨機的,不相同的,而到在最后采用“以少服多”表決的時候,可信度更高。
隨機森林中的特征值就是股票中的因子,我們一開始選取大量的因子,然后隨機抽取部分因子用來建樹。對建好的樹,在用數據進行訓練的時候,該數據也是從全部數據中隨機抽取的部分數據。這樣生成的決策樹之間的相容性就很低,可以避免由于相同錯誤帶來的錯誤判斷,進而提高判斷結果的可靠性。最后我們在對所有決策樹的結果進行統計的時候,采用簡單的“多數優先”原則,來作為我們判斷的整個結果。
① 準確率與決策樹相比增強。
② 其強壯性更強。
③ 隨機森林的出現,使過擬合問題得以解決。
④ 速度更快效率更高。
也因此可以將隨機森林運用在量化選股上。
選股即為了解資金動向,增強自身的判斷能力,從而對流動趨勢有更深入的見解;其次是對自己選擇的股票進行評級,來判斷自己選擇股票優劣的過程。恰當投資選股指標體系無疑就是量化選股,通過對數量化分析工具的使用來達到選取優質股的目的,其最重要的部分就是對數據的深入探討。
通俗而言,量化選股是量化投資的一個分支,使選取股票組合數量化。傳統的選股基于兩個方面:基本面分析和技術面分析,有字面上的意思即可得知基本面分析側重于股票的內在投資價值、各種因素于價格之間的內在聯系和邏輯;技術面則是從股票變動的歷史中探尋股票波動的規律。簡單而言,基本面從本質探究股票、技術面從現有的規律預判未來的走向。量化選股并不與之矛盾,相反,它建立在其之上,并通過計算機的計算,采用一些數學模型來實現該種投資理念。
在本文中因子即為影響選股的成分或因素。

因子凈利潤增長率市值凈資產收益率市場率凈利潤率流通市值工值市凈率公司工作環境
構建因子如下,規模:市值、流通市值。盈利能力:凈資產收益率、總資產凈利率、凈利潤率。償債能力:流動比率、速動比率、資產負債率。股東獲利能力:市盈率、市凈率、每股凈收益、上市以來分紅率。成長能力:營業收入增長率、凈利潤增長率、資產增長率、固定資產擴張增長率、wind一致預期凈利潤同比。營運能力:存貨周轉率、總資產周轉率。以及其他因子,不過在挑選因子的過程中應該采納更多因子,使其在挑選股票時更全面,同時也應該注意滿足不過擬合[4]這個原則。
同時我認為在選取因子時,可以嘗試考慮公司的環境這個因子,良好的公司環境營造出良好的工作氛圍,也會吸引一批優秀人才來自工作,公司的潛力自然也非同一般。
① 隨機森林是一個組合分類器,能用于股票的篩選。
② 訓練集的隨機挑選:算法從所選擇的因子中隨機抽取子集,每次抽樣均為隨機。
③ 隨機森林的構建:每一個子集生成一顆是決策樹,并在其中挑選部分決策樹進行分裂,從而達到隨機性的目的。
④ 節點分裂:每棵樹的分支的生成都是按照節點Gini系數最小原則選擇分支進行生長。
⑤ 最終選多處得票得出結論
當下的時代背景也因為他的飛速發展,那個曾經一度追求精確高效率的金融界也悄然發生變化,主觀證券投資這個行業也在被量化投資所取代。通過本文對機器學習乃至隨機森林算法的簡要介紹以及探討它在量化選股中起到的作用無疑使更過人了解它并運用它去創造財富,同時領略新時代科技的魅力。量化選股也同樣是一個需要不斷充實的研究領域,本文的內容同樣有待進一步地深入與探究。機器學習這個曾經幻想中的事物,已經在迅猛發展并結合其他領域煥發出蓬勃的生命力。
因為作者學術水平的低下,許多東西人只是猜測,并沒有進行相關試驗來證明,希望將來可以根據市場的真實情況來進行試驗和深度的探索。
* [1]馮少榮,決策樹算法的研究與改進[J],廈門大學學報,2007(04): 496—500.
* [2] Tom Mitchell,卡內基梅隆大學教授,“Machine Learni ng”,1997
* [3] 張潤,王永濱,機器學習及其算法和發展研究[J],中國傳媒大學學報,2016
* [4] 張建軍,基于數據挖掘的股票數據分析[D],山東中國石油大學(華東),2010
* [5]孫嬌,多音字量化投資策略及實證檢驗[D],南京大學,2016
* [6]陳健,宋文達,量化投資的特點、策略和發展研究[J],時代金融,2016(29)
* [7] 胡謙,基于機器學習的量化選股研究[D],山東大學,2016
* [8]方匡南,吳見彬,朱建平,謝邦昌,隨機森林方法研究綜述[J],統計與信息論壇,2011(3)