[摘要]本文利用數據挖掘技術中的聚類分析方法,對創業板首批上市的28家公司進行財務分析,將其分類,為投資者提供有價值的決策依據。
[關鍵詞]數據挖掘;聚類分析;創業板上市公司;財務分析
2009年10月23日創業板開板儀式后,首批28家創業板公司已于10月30日集中在深交所掛牌上市。這意味著備受市場關注的創業板市場正式開市交易。所以,此時研究創業板公司的財務狀況具有十分重要的現實意義。
1創業板的概念及特點
創業板又稱二板市場,是指主板之外的專為暫時無法上市的中小企業和新興公司提供融資途徑和成長空間的證券交易市場,是對主板市場的有效補充,在資本市場中占據著重要的位置。創業板市場的的主要目的是扶持中小企業,尤其是高成長性企業,為風險投資和創投企業建立正常的退出機制,為自主創新國家戰略提供融資平臺,為多層次的資本市場體系建設添磚加瓦。因此,在創業板市場上市的公司大多從事高科技業務,具有較高的成長性,經營機制更為靈活,經營模式和盈利模式多元化特征更為突出。同時,此類公司往往成立時間較短,股本規模小,經營不確定性大,抵御外部風險能力較弱,公司治理基礎相對薄弱。故對投資者來說,投資創業板市場的風險要比主板市場高得多,得到更大收益的可能性也較高。
2 首批創業板上市公司財務分析的特點
創業板上市公司的發展受到內外部諸多因素的影響,致使得其財務分析工作面臨很多新的課題和挑戰。所以,對創業板企業的財務分析要特別注意與傳統企業財務分析在以下幾個方面的區別:[1](1)財務分析指標體系需要準確、全面把握創新型企業高投入、高風險、高收益的特點;(2)創業板企業的技術、市場環境可以說是千差萬別和瞬息萬變,而傳統的綜合評價的方法如模糊綜合評判法、人工神經網絡、灰色系統評價法以及數據包絡分析法(DEA)等。由于存在較大的缺陷,如指標變量之間的相關性復雜、指標層次較多等,故造成評價成本過高以及適用性差。[2](3)高科技企業的發展歷史相對較短,往往缺乏歷史數據,并且技術千差萬別,很難找到行業、技術、規模等相近的可比企業,使得對業績的預測和推斷相對困難,對于本文研究對象——創業板首批上市的28家公司更是如此,上市時間較短,公開數據較少。(4)高科技企業的非線性發展規律,意味著很難根據企業現在的盈利來計算盈利增長率,如果僅僅使用傳統的市盈率估值方法顯然是遠遠不夠的。基于上述原因,本文決定采用數據挖掘技術對創業板首批上市的28家公司進行財務分析。數據挖掘是從“海量”數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。誠然,大多數公司的財務分析所需要的一些數據相對有限,尚不能稱得上“海量”,但是如果能從另一個角度去換位思考,或許能得到意想不到的效果,為更深層次的財務分析做準備。[3]
3 創業板上市公司聚類分析研究
3.1 確定挖掘對象
財務分析為企業的投資者、債權人、經營者及其他利益相關者了解企業過去、評價企業現狀、預測企業未來,做出正確決策提供準確的信息或依據。財務狀況是指一定時期的企業經營活動體現在財務上的資金籌集與資金運用狀況,它是企業一定期間內經濟活動過程及其結果的綜合反映。本文選取了創業板首批上市的28家公司進行分析:特銳德(300001)、神州泰岳(300002)、樂普醫療(300003)等,分別用X1 ,X2 ,X3,…X28 ,表示。可以預測大部分公司將歸為一類,少部分公司歸為一類,即業績表現優良或是較差。再利用輔助指標進行判斷。
3.2 數據準備
3.2.1數據選取
以2009年9月30日為時點,選取創業板首批上市的28家公司以下7個關鍵財務指標數據:流動資產合計、總資產合計、流動負債合計、長期負債合計、資本公積、盈余公積、未分配利潤,分別用L1 ,L2 ,L3,…L7,表示(見表1)。
3.2.3 數據處理
數據預處理是數據分析過程中不可缺少的一個關鍵環節,它服務于數據分析和建模。數據預處理需要解決的問題有很多,例如,缺省值和異常數據的處理,數據的轉換處理、數據抽樣和選取變量。[3] 本文利用最小—最大規范化方法對數據進行標準化處理,設min L和 maxL分別為屬性L的最小值和最大值,則利用公式L′=(L-min L)/(maxL -min L),對原樣本進行標準化處理,將7個關鍵財務指標數按比例縮放,使之落入到一個小的特定區間(0~1),從而實現數據的預處理。
3.3 利用數據挖掘軟件SPSS進行聚類分析
將表1數據輸入到SPSS軟件編輯窗口,點擊“Analyze→Classify→Hierarchical Cluster”選擇層次聚類。本文采用最小距離方法,具體操作時選擇,“Nearest neighbor”即最短距離法,得到相異度矩陣,見表2(截取部分數據)。
表3反映了聚類分析的凝聚過程。
第一列表示聚類分析的步驟,在本次分析中共進行了27次。第二列和第三列表示哪兩個樣本聚成了一類。第四列表示兩個樣本的相似系數。第五列表示兩個參與聚類的是樣本還是類,0表示樣本,非0數字N表示第N步產生的聚類參與本步聚類。第七列表示本步驟聚類結果將在以后的第幾步中用到。
第一列表示表示7和10兩個樣本最先進行了聚類,樣本間相似系數為0.997,本次聚類結果將在以后的第二步中用到;以此類推,將28個樣本全部聚類。
表4是最終聚類結果的類成員表,在利用SPSS分析過程中,本文設置分為2~4類,從而輸出了劃分2~4類時每個樣本屬于每一類的結果。
主要參考文獻
[1]證監會有關部門負責人就創業板上市公司監管答問,中國網,
http://www.china.com.cn/finance/txt/2009-10/27/content_18777271.htm
[2] 胡玉柱等,基于主成分分析的高新技術企業業績評價研究[J],財會通訊#8226;學術2008,7;62-65
[3 趙磊,數據挖掘技術在財務分析中的應用[J],中國管理信息化,2009,1;34-38
[4] 薛薇,基于SPSS的數據分析[M],中國人民大學出版社,2006
[5] 趙選民,薛建樓,利用數據挖掘技術分析上市公司財務狀況[J],中國管理信息化,2009,2;30-32