文/曹宇軒
(上海大學)
現(xiàn)如今股票已經成為人們生活中的主要投資產品,其波動性大、風險高、收益高的特性使得很多人愿意花大量時間在研究股票上。而股票的波動反映的終究是發(fā)行該股票的企業(yè)的經營狀況和未來增長的潛力,如何選取一支好的股票更像是如何選擇一個好的上市公司。對于投資者來說,一家企業(yè)的盈利性指標往往是重點關注的對象,因此企業(yè)也更注重盈利性指標。每股收益指標是衡量一家企業(yè)盈利能力的重要指標,其影響因素眾多。本文通過利用企業(yè)公開的財務報表數據進行多元回歸,找出影響企業(yè)每股收益指標的重要影響因素,并最終得出結論。
多元回歸是研究一個因變量和多個自變量之間的關系的方法。多元回歸可以反映一類因素的數量因多種因素的數量的變動而相應變動的規(guī)律,是建立多個變量之間線性或非線性數學模型數量關系式的統(tǒng)計方法[1]。
y是因變量,x 是自變量,A 和 B 是決定方程的系數。下標表示不同的自變量。x_1 是第一個自變量的值,x_2 是第二個自變量的值,依此類推。隨著越來越多的自變量被添加,它會繼續(xù)運行,直到最后一個自變量 x_n 被添加到方程中。請注意,此模型允許您根據需要添加任意數量、n、自變量和更多項。B 系數使用相同的下標,表明它們是與每個自變量相關的系數。和以前一樣,A 只是一個常數,當所有自變量都為零時,它表示因變量 y 的值。
本文研究的對象為每股收益指標,一家企業(yè)的每股收益往往受到企業(yè)的經營性現(xiàn)金流量、在外發(fā)行股數、凈利潤、總資產量等指標因素的影響。那么在處理這些數據時就要關注各個因素之間的關系,特別是研究變量和其他變量之間的關系。這時就需要建立一個公式,將各個因素包括其中,以便于推測其中的變量。而這就是多元回歸的任務,通過利用數學表達式描述各個變量間的相互關系。具體內容是,將需要預測的變量視為因變量,而其他影響該因素的變量視為自變量,通過各變量的值算出交叉乘積和得出預測變量。
假設Y是我們要預測或者研究的變量,X為其他影響因素變量,貝塔為影響因素的回歸系數,€被稱為隨機誤差,是包含在y里面不能被x和y的線性關系解釋的隨機因素。估計這些回歸系數通過利用最小化殘差平方和的方法:模型的求解采用最小二乘法計算,用最小二乘法做多元回歸需要以下四個統(tǒng)計假設,即正態(tài)性、獨立性、線性和同方差性[2]。
在模型做完回歸后采用AIC信息準則來衡量模型擬合是否優(yōu)良。AIC信息準則是鼓勵利用增加自有參數的數目的方法從而提高擬合的優(yōu)良性,同時盡量避免出現(xiàn)過度擬合的狀況,通常選出AIC值最小的作為優(yōu)先考慮的模型。
表1 指標基本信息
圖1 殘差與真實值關系圖
首先確定樣本空間,本研究選擇的是A股市場上的互聯(lián)網企業(yè)共73家。互聯(lián)網企業(yè)近幾年是投資者重點關注的企業(yè),隨著互聯(lián)網行業(yè)的不斷發(fā)展,大多數互聯(lián)網企業(yè)在2010年后股票市場有了大幅的上漲。在2012年達到巔峰,隨后的幾年有所下降,但隨著大數據分析、區(qū)塊鏈、人工智能等詞條逐漸與未來發(fā)展的話題相互聯(lián)系,投資者們也就格外地關注相關的企業(yè)。
其次確定相關指標,本研究以企業(yè)的每股收益指標作為因變量,自變量的選擇同樣來源于財務報告指標。分析一家企業(yè)時我們通常以這家企業(yè)近幾年的財報為參考來衡量這家企業(yè)的優(yōu)劣性。每股收益是投資者最為關注的指標之一,每股收益反映了股票的盈利能力,是市場上衡量公司盈利能力的重要指標,每股收益是由稅后利潤與總股本數相比得出。影響每股收益的指標很多,其中盈利性指標影響最大,我們在盈利性指標中選取具有代表性的指標作為后續(xù)的變量。
圖2 方差恒定檢測
首先通過Tushare數據庫下載A股市場互聯(lián)網企業(yè)的股票數據,篩選出需要用的指標。篩選過數據后簡單地對數據進行處理,得到各指標基本的信息。
處理后得出每個指標的最小值、最大值、均值、中位數等數據,處理后的數據如下:
由上圖可看出,互聯(lián)網企業(yè)有以下幾個特點:市盈率偏高的企業(yè)占多數,資產規(guī)模大多不高,流通股本數不高,每股收益較低,凈利潤率、毛利率各個企業(yè)間差別也很大而且極端值嚴重影響均值。
由上文可知,模型主要研究因變量在受到其他因素影響而相應地產生變化的規(guī)律。本文主要研究每股收益指標與其他金融指標間的變化規(guī)律,因此我們以每股收益作為因變量Y,收入同比增長作為x1,市盈率作為x2,流通股本最為x3,總資本作為x4,每股凈資產作為x5,市凈率作為x6,未分配利潤作為x7,每股未分配利潤為x8,利潤同比增長為x9,毛利率為x10,凈利率為x11作為自變量做多元線性回歸,其中β0為線性方程的截距,βi為回歸系數。模型的檢驗采用t檢驗,t檢驗用于比較兩樣本平均值之間是否具有顯著性差異,t檢驗要求樣本要符合正態(tài)分布或者近似于正太分布。通過以上信息我們建立起多元線性回歸模型,再通過繪制模型散點圖來檢測模型的假設是否滿足。
由回歸結果得出殘差標準差RSE為0.387,自由度為61。Multiple R-squared為相關系數的檢驗,越接近1則越顯著,越大越好,這里表示解釋每股收益的方差為0.917,剩余0.083是不能被解釋的,由此可見該模型擬合程度很好、解釋程度很高。Adjusted R-squared為相關系數的修正系數,該參數會設置一個懲罰項對那些增加的自變量且不改變模型效果的變量進行懲罰,它考慮了模型中變量的數目能實際地評估模型的有效性。回歸結果顯示Adjusted R-squared的值為0.901,與Multiple R-squared值的差距不是特別大。F-statistic表示F統(tǒng)計量,評估模型是否顯著,p值小于0.05則表明該模型是顯著的大于0.05則模型不顯著[3]。
根據回歸結果我們可得出一些結論。其中總資產、每股凈資產、未分配利潤、每股未分配利潤、凈利潤率這幾個指標的Pr值很小,說明這些自變量的回歸系數的不顯著概率比較小,影響因變量的概率大與因變量有線性關系。而其他指標的Pr值較大,說明不顯著水平較高,影響因變量的概率小,與因變量線性關系不明顯。
圖表2中左圖為殘差分布和擬合圖,主要描繪的是殘差的擬合程度。
表2 Anova分析
由圖可見,擬合程度較好,大多數點都出現(xiàn)在擬合線上個別點偏離了擬合線滿足線性的假設。右圖為正態(tài)Q-Q圖,適用于描繪標準化殘差是否符合正態(tài)分布的圖,一般圖中的點呈現(xiàn)斜率為1的直線說明服從正態(tài)分布,本實驗結果接近呈現(xiàn)斜率為1的直線,說明服從正態(tài)分布滿足正態(tài)性的假設。圖表3左圖是位置尺度圖,若滿足不變方差假設,那么在位置尺度圖中,水平線周圍的點應該隨機分布,顯然我們畫出的圖并沒有很好地滿足同方差性的假設,圖中畫線呈現(xiàn)出“上揚笑臉”的形狀說明方差是在變動的,這需要我們后續(xù)對數據進行處理和篩選,需要進行F檢驗。右圖是殘差與杠桿圖,該圖提供的是關注單個觀測點的信息用于檢查數據分析項目中是否有特別極端的點,從圖形可以鑒別出離群點、高杠桿值點和強影響點。
表3 多元回歸結果
由上述分析我們得知,繪制出的散點圖中位置尺度圖Scale-Location顯示出“上揚笑臉”的形狀,這與我們之前的假設之一同方差性假設相違背。這時需要進行模型檢驗,進行F檢驗。F檢驗用于本次研究相當于假設檢驗,第一步需要建立假設。多元回歸系數中一部分指標的Pr值過高,這類自變量與因變量的線性關系受到質疑。這些變量是收入同比增長、市盈率、流通股數、市凈率、利潤同比增長、毛利潤率。我們假設一組變量中不含有上述變量,也就是這些變量的回歸系數設為0,另一組則是包含所有變量。原假設為H0:β1=β2=β3=β6=β9=β10=0,對比的原本包括所有變量為備擇假設H1:所有回歸系數不為0。減少的模型為:
完整的模型為:
假設線性假設模型成立,則P值為:p= P(Fdf1 ,df2 > Fstat)。計算得 出 Fstat=1.2024,P值P(Fdf1 ,df2 > Fstat)=0.317。下面我們將原有模型和新模型進行離散分析。離散分析anova既F檢驗,也就是方差分析是用于兩個及兩個以上樣本均數差別的顯著性檢驗。通過采用R語言分析軟件,我們得出以下結果:
由P值我們可看出0.88>0.05,也就是說應該服從原假設,該假設成立。
下面我們進行AIC信息準則逐步回歸尋找最優(yōu)的模型,通過逐步回歸得出多個組合選用AIC值最小的模型為最優(yōu)模型。
由回歸結果得知最后一個組合AIC為-136.97為最小,自變量分別為總資產、未分配利潤、每股未分配利潤、凈利潤率、每股凈資產。多元回歸結果如下:
由新的結果我們可看出,篩去舊的相關性弱的自變量后剩下的新變量是總資產、未分配利潤、每股未分配利潤、凈利潤率、每股凈資產。這時每個回歸系數的Pr值則要較之前小很多,說明這些回歸系數不顯著的概率很小。相關系數R2為0.913,說明可以解釋每股收益方差中91.3%解釋程度依舊很高,調整的相關系數R2為0.907與多元相關系數R2差距很小。相比較之前模型的0.917之下降了0.004,從另一個角度說明了去掉的自變量對結果影響甚微,篩去的自變量與因變量線性關系很弱。我們將回歸系數帶入多元回歸模型中,為了預測變化區(qū)間,我們將之前對數據處理時計算出的各個自變量數據的均值帶入上面的多元回歸模型中,由于處理的數據中存在很多影響整體波動的極值,我們在選用各個自變量數據的中位數帶入上面的多元回歸模型中,得出的值分別為0.3637和0.4701,對比之前我們對數據處理中算出的每股收益平均值0.37,可以發(fā)現(xiàn)兩者差別甚微,說明該模型回歸結果可以作為預測每股收益的結果。在預測區(qū)間為95%內時的預測變化區(qū)間為:
根據得出來的結論發(fā)現(xiàn)總資產、未分配利潤、每股未分配利潤、凈利潤、每股凈資產這些指標對股票每股收益指標影響較大線性關系較為顯著。
本文選取了A股市場上所有互聯(lián)網企業(yè)作為研究對象,以企業(yè)每股收益作為預測變量將總資產、未分配利潤、每股未分配利潤、凈利潤、每股凈資產等指標作為輸入變量進行回歸,發(fā)現(xiàn)企業(yè)每股收益指標受到以上指標的影響。其中總資產、每股未分配利潤、凈利潤和每股凈資產指標與每股收益成正相關關系,未分配利潤與每股收益成負相關關系。可見在投資者以企業(yè)每股收益為指標進行投資時,可以適當同時關注企業(yè)總資產、未分配利潤、凈利潤和每股凈資產等指標,這些指標能更好地幫助投資者進行投資選擇。
基于以上研究可以發(fā)現(xiàn),在互聯(lián)網行業(yè)里各家企業(yè)各指標差別很大,無論是資產規(guī)模還是收入利潤,并且互聯(lián)網企業(yè)自身每年波動也很大,前一年的營收在下一年無法復制。
這就使得過大的差別產生出很多極端值,導致我們在散點圖分析中出現(xiàn)無法滿足方差協(xié)同性的假設,即使在后續(xù)自變量的調整中仍然存在該問題。一個明顯的例子就是在分析中我們對凈利潤率進行回歸,由于暴風集團和樂視網這兩個企業(yè)的存在,產生出很多影響整體波動的極值。這也提醒投資者們在進行投資時不要局限于一兩個指標的判斷。