厲書涵
【摘要】隨著我國經濟的發展,社會科學中的金融經濟的創新,使得投資者判斷股價長期發展趨勢時又回到一個最基本的概念,即由于公司本身的價值帶來股價的增長。因此上市公司的季度或年度綜合經營績效可以較好的反映出公司的經營狀況。本文將從上市公司披露的財務報表中捕捉因素,通過決策樹算法及人工神經網絡算法對公司綜合經營能力進行預測。
【關鍵詞】ID3決策樹 BP人工神經網絡 動態市盈率 財務指標
1主要研究方法和內容
本文利用數據挖掘技術中的ID3決策樹和BP神經網絡兩種算法,以上市公司的動態市盈率作為綜合經營績效的分類標準進行分類預測。本文先隨機選取2017年A股市場上共1847條上市公司的動態市盈率作為分類數據集,對優秀、良好、一般以1:2:1劃分得到分類結果。再以隨機選取的210個上市公司作為樣本,市盈率等級為優秀、良好、一般的各占70條數據。以動態市盈率的等級作為輸出變量,選取六個不同方面的財務指標作為輸入變量,隨機選取90%的數據作為訓練樣本,用于建立模型;其余的10%則作為測試樣本,用于對模型的有效性檢測。利用兩種算法分別建立分類預測模型。
2數據收集、探索及清洗
2.1確定指標
對一個上市公司的經營效益進行評估時,需要從財務報表中選擇多個財務指標進行綜合分析,一般包括投資收益、盈利能力、短期償債能力、長期償債能力、成長能力、營運能力這六大類指標。通過對它們進行綜合分析,選擇更有投資價值的上市公司進行投資。
2.2屬性構造
從財務比率的描述統計量中可以發現,凈資產增長率、存貨周轉率和動態市盈率的極差和標準差都較大,說明了數據的離中趨勢非常強烈。從中可以說明上市公司的經營狀況差別非常大,因此在對動態市盈率進行分類、隨機抽樣之后,還要對相應的變量進行數據規范化的操作。
為了更好的提取數據中的信息并得到更準確的分類預測的結果,需要利用已有的數據和屬性構造出新的屬性,并加入到現有的屬性集合中。根據通常的分類經驗,將動態市盈率這一變量以1:2:1的比例進行等頻離散,并分別歸類于“優秀”、“良好”、“一般”三類屬性,構造屬性“未來盈利能力預期等級”作為新的指標,并以此為模型預測中的輸出變量。
2.3數據的特征值分析
(1)基本每股收益:該指標反映上市公司的盈利能力,每股收益越高,表示企業的盈利能力越強。“優秀”股的均值較低,但其同時又較低的極差和標準差,說明該分類中每股收益較為相近,“良好”股和“一般”股則有較大的標準差和極差,說明該分類中受到極值的影響較大。
(2)營業凈利率:該指標表示企業每單位資產可以獲得利潤總額的數量,凈利率越高表明企業的盈利能力越強。三類上市公司中,“優秀”股的標準差最小,說明該分類中凈利率較為集中和穩健,“良好”股和“一般”股則有較大的標準差和極差,說明該分類中受到極值的影響較大。
(3)流動比率:流動比率過高表明流動資產占用較多,會影響企業的經營資金周轉率和獲利能力,過低表明企業的短期償債能力比較弱。這里,“良好”股票的流動比率平均值為2.64,偏高;“一般”股的平均值為 2.11,偏低;“優秀”股票的平均值為 2.28,最為合理。
(4)資產負債率:該指標反映企業總資產中有多少資產是通過負債籌集的,是一個評價企業負債水平的綜合指標。從債權人、投資者和經營者不同的角度去看,對資產負債率的高低有不同的理解。一般認為,資產負債率維持在40%-60%之間最為適宜。三類上市公司中,“優秀”股的資產負債率均值為41.2%;“良好”股的均值為 40%,偏低;“一般”股的均值為 50%。相比之下,“一般”股的企業總資產中,通過負債籌集的資產比例偏高。
(5)凈資產增長率:該指標可以反映企業的發展能力,它越高代表企業的生命力越強。如果在較高凈資產收益率的情況下,又保持較高的凈資產增長率,則表示企業未來發展更加強勁。三類上市公司中,“優秀”股的凈資產增長率最高,其次是“良好”股,最低的是“一般”股
(6)存貨周轉率:存貨周轉率的高低反映企業存貨管理水平的好壞,存貨周轉率越高,表明存貨轉換為現金的速度越高。本文中,“良好”股的存貨周轉率高于“優秀”股,“優秀”股高于“一般”股。
3決策樹與BP神經網絡對市盈率分類的預測
3.1抽取訓練集和測試集
首先對上一步得到的210條數據的數據集按照訓練集:測試集=9:1的比例進行 sample函數的隨機抽樣,選出 189個樣本作為學習對象,其余 21個作為測試集測試泛化能力。沒有按照普通的8:2的比例是因為樣本數據過少,如果按照該比例則可能出現學習不足的情況。
3.2預測結果
擬合和測試結果的混淆矩陣顯示訓練集的正確率為96.83%,而測試集的正確率為52.38%。決策樹模型的擬合和測試結果的混淆矩陣顯示訓練集的正確率為76.19%,而測試集的正確率為61.91%。
3.3模型對比與結果分析
在利用ID3決策樹和BP人工神經網絡兩種分類方法分別建立預測模型,并通過比較它們的訓練集和測試集正確率后可以發現,ID3決策樹算法給出的預測準確率較BP人工神經網絡算法高,最高達到了71.43%。但是兩者的預測準確率都沒有達到非常高的水平,主要原因可能是:決策樹算法適用于指標數量不是特別多且各指標間的邏輯關系不是特別復雜的情況,而神經網絡算法具有通過非線性輸出以及利用多層結構進行預測的特點,適合處理指標較多且指標間關系相對復雜的對象。因此,可能在模型的選擇和影響變量的選擇上仍然存在可改進的部分。此外,數據數量的多少也極大的影響了模型擬合和泛化的能力,因此如果加入數據挖掘的技術,獲得更大的樣本容量,也許會得到更高的預測精度。
參考文獻:
[1]潘靜,張穎,劉璐.基于ARIMA模型與GM(1,1)模型的居民消費價格指數預測對比分析[J].統計與決策,2017(20):110-112.
[2]吳玉霞,溫欣.基于ARIMA模型的短期股票價格預測[J].統計與決策.2016(23):83-86.
[3]張玉林.神經網絡在股市預測中的建模及應用[D].大連:大連理工大學,2004.