王都
【摘 要】隨著計算機和信息時代的到來,數據的收集、存儲和訪問量急劇增加,傳統的查詢技術不能解決目前面臨的信息爆炸問題,數據挖掘正是在這樣的應用需求下產生并迅速發展起來的一門技術。我國股票市場經歷了近三十年發展,隨著股票市場和股市制度的逐步完善,越來越多的投資者參與到股票投資中來。將數據挖掘技術運用到個股選擇中,可以有效地處理與證券投資決策相關的市場信息、經濟信息、財務信息、以及其他各種相關信息,從海量的數據中,為投資者挖掘出有用的相關數據和相關規則,并將其與其他證券投資決策方法相結合,探索出適合海量數據條件下的投資決策。
【關鍵詞】數據挖掘;股票選擇;價值投資
一、背景及意義
隨著計算機和信息時代的到來,人們收集、存儲和訪問的數據急劇增加,對這些快速增長的海量數據進行分析和知識理解已經遠遠超出了人的能力。大量的數據被描述為“數據豐富,但信息貧乏”。數據庫規模日益擴大,僅依靠數據庫管理系統的查詢檢索機制和統計分析方法,已經遠遠不能滿足現實的需要。而大量激增的數據中往往又隱藏著許多重要的信息,如果能把這些信息從數據庫中提取出來,就能為用戶創造很多潛在的利潤。因此,對大量歷史數據進行分析處理,挖掘出有用的知識就顯得非常迫切。
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先前未知,有效和可實用三個特征。先前未知的信息是指該信息是預先未曾預料到的,即數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。
數據挖掘,首先要確定挖掘的任務或目的是什么,如數據總結、分類、聚類、關聯規則或序列模式發現等。確定了挖掘任務后,就要決定用什么樣的挖掘算法。選擇實現算法有兩個考慮因素:一是不同的數據有不同的特點,因此需要用與之相關的算法來挖掘;二是用戶或實際運行系統的要求。
數據挖掘發現出來的模式,經過用戶或機器的評價,可能存在冗余或無關的模式,這時需要將其剔除。另外,由于知識發現最終是面向人類用戶的,因此可能要對發現的模式進行可視化,或者把結果轉換為用戶易懂的另一種表示。
二、數據挖掘在股市選擇中的意義
從1990年上海證券交易所、深圳交易所成立,到《證券法》的實施,再到中小企業板塊、創業板推出,我國股票市場經歷了近三十年發展,隨著股票市場和股市制度的逐步完善,越來越多的投資者參與到股票投資中來。人民收入水平不斷提升,閑置資金增多,開始追求除銀行儲蓄之外更加多樣化的投資需求,投資意識和金融意識也日益增長,股票市場日益受投資者的關注。而由于股票市場風險髙、口檻高,對于普通投資者而言,尋找簡單易行的投資方式極為重要。如何對眾多的股票投資者進行投資指導,同時又不因投資金額較小而導致成本過高,是很多學者和創業公司共同研究的問題。
進行投資分析,并得出有價值的股票選擇,需要對海量的信息和數據進行分析。這些數據包括上市公司所處的行業數據、公司財務數據及非財務信息、中介機構評價信息,外部研巧機構分析等。專業的投資機構,如基金、保險資管等機構通過雇傭專業人員進行投資分析,目的是為了綜合多樣的信息和專業人士的專業判斷,以優化投資決策,而長期以來,廣大投資者采取基本分析和技術分析投資的方式,其時間精力和專業水平有限,難以找到海量數據背后隱藏的信息,因此無法把握具體的選股巧選時的標準。因此,將數據挖掘技術運用到個股選擇中,可以有效地處理與證券投資決策相關的市場信息、經濟信息、財務信息、以及其他各種相關信息,從海量的數據中,為投資者挖掘出有用的相關數據和相關規則,并將其與其他證券投資決策方法相結合,探索出適合海量數據條件下的投資決策。
三、數據挖掘在股市選擇中指標的選取
本文選擇了反應股票基本面的財務指標、公司內部狀況指標、以及外部行業指標作為模型輸入變量,選擇公司股價漲跌幅相對于滬深300漲跌幅的差額作為模型目標變量。
(一)輸入變量
股票選擇有眾多策略,典型代表有價值投資與技術分析,其中股票價值投資由證券分析之父格雷厄姆提出,該理論通過衡量“內在價值”與“安全邊際”,從眾多股票中尋找市場價值低于內在價值的股票,尋找投資機會。本文采取價值投資的投資理念,價值投資需要考慮能全面反映公司基本面的指標體系。該指標體系需要將企業外部和內部環境相結合,反應影響股價的企業內部和外部活動。
(1)財務活動;財務指標為主要表現形式,反應企業的內部因素。財務指標是常規的反應公司基本面的指標,應用最為廣泛。在財務指標中,財務比率的指標非常多,我們將其分成盈利能為、償債能力、營運能力、成長能力、每股指標五個大類。
(2)內部環境:包括企業內部控制有效性,員工結構,控制權集中程度等問題,通過考察內部環境說明企業的內部控制情況。本文選取了一些指標作為公司內部狀況的代表因素:市盈率、市銷率、市凈率、大股東持股比例、主營業務收入占營北收入的比例、貝塔值等。
(3)外部環境;公司所處行業的經濟政策、法律制度、發展狀況等,從宏觀角度考察企業經營所面對的外部環境狀況。除內部因素外,股票投資價值受行業狀況的影響。行業發展通常經歷四個階段,即初創期、成長期、成熟期和衰退期,每個行業階段,行業內公司經營、盈利狀況大不相同。當行業處于快速成長期時,普遍業內公司有較好的經營業績,相反,行業處于衰退期時,公司問題逐步暴露,較差的公司退出行業舞臺。
(二)目標變量
價值投資將價格相對于其內在價值過低的股票作為投資對象,在股票價格低于其內在價值時買入,反之賣出,以此獲得超過市場表現的超額收益。由此看出,超過市場的表現是投資是否具有成果的衡量標準。本文選擇公司股價漲跌幅相對于滬深300漲跌幅的差額作為模型目標變量,對股價進行了如下處理:
計算股價、指數漲跌幅。股價、指數的大小本身不具備可比性和參考意義,而投資收益率反應投資者運用資金的機會成本和收益,具備可比性和參考價值。
計算股價相對于指數漲跌幅的大小差額。股票投資收益的好壞的一個重要參考標準是指數的收益,指數反應大盤的狀況,也反應投資者的機會成本,因此對胸買股票的投資者而言,超過大盤表現的公司才有投資價值。
四、數據挖掘實證分析及結論
在實證分析中發現,在各種上市公司財務指標、公司內部狀況指標、外部行業指標中,對股票的投資價值影響較大的有銷售凈利率、現金流量利息保障倍數、營業總收入同比增長率、利澗總額同比増長率、關聯交易事項、貝塔值,這些指標應該是投資者判斷股票投資價值時應該重點考慮的因素。
股票的漲跌受到眾多不確定因素的影響,且該因素及其具體的影響效果、影響程度難以衡量,股價往往難以把握。隨著計算機技術的發展,使得人類行為的諸多數據得以沉淀,人們對數據的價值和作用越來越重視,數據挖掘技術在各行各業進行了廣泛的運用。從本文可以看出,在價值投資方面,數據挖掘技術有一定的作用,它可以應用于投資領域,為股票投資決策做出貢獻。
【參考文獻】
[1].韓慧,毛峰,王文淵.數據挖掘中決策樹算法的最新進展[J].計算機應用研究研究,2004,12:5-8.
[2].范明,孟小林等譯. 數據挖掘技術與概念[M].北京:機械工業出版社,2001.
[3].黃惠平,彭博.市場估值與價值投資策略——基于中國證券市場的經驗研究[J].會計研究,2010(10):40- 46.
[4].孫曉瑩,李曉靜.數據挖掘在股票價格組合預測中的應用[J].計算機仿真,2012(7):375- 378.