王 哲,郭 強,劉建國 WANG Zhe, GUO Qiang, LIU Jianguo
(1. 上海理工大學 復雜系統科學研究中心,上海200093;2. 上海財經大學 會計與財務研究院,上海200433)
(1. Research Center for Complex Systems Science, University of Shanghai for Science & Technology, Shanghai 200093, China;2. Institute of Accounting and Finance, Shanghai University of Finance and Economics, Shanghai 200433, China)
物流活動是人類最基本的社會經濟活動之一,物流業是興起較晚但發展相當快的一個產業,對世界各國特別是發達國家的國民經濟增長發揮著重要的支持和帶動作用。據統計,發達國家像法國1996 年物流產值高達15 840 億法郎,德國物流產值高達1 580 億馬克,日本1995 年物流產值高達314 690 億日元,而且與日俱增[1],世界范圍內,不僅發達國家物流業的發展尤為迅猛,發展中國家也在逐步的進步。我國雖然物流行業起步較晚,但是人口眾多、土地幅員遼闊,市場潛力巨大,特別是在電商迅猛發展的刺激下,我國物流業實現了跨越式發展[2]。物流給人們的生活帶來的改變也越來越顯著,無論是網購已經成為人們日常生活消費的一部分;還是國際貿易、大宗商品的交易越來越便捷都能清晰的表現出來。當下,無論是科技革命的發展還是最近的疫情應對中,物流都在其中扮演著重要的角色,這些足以說明物流將會成為未來拉動我國經濟增長的重要助力。正因為物流業的重要性越來越顯著,對物流行業的分析也越來越多,研究的目光大多集中在成功的上市公司上。本文以研究上市公司會計報表為基礎,先選出了報表中基本的12 個指標,隨后利用隨機森林的方法進行指標的篩選,選出了覆蓋80%以上信息的6 個指標,接著根據Pearson 相關系數選擇了符合篩選原則的閾值來構造公司間的網絡,最后根據網絡中心性指標從中篩選出重要的上市公司,再進行深度剖析。
本文通過Wind 對物流企業的會計報表進行處理,得到了12 個指標,隨后用隨機森林進行指標的特征重要性評價。隨機森林是一種組合分類器,最基本的是決策樹[3]。本文在決策樹的生成過程中,節點分裂遵循的原則為最大程度降低該節點的不純度,達到局部最優化。目前大多數的分裂方法有ID3、C4.5 和CART。ID3 算法指的是信息增益;C4.5 算法指的是信息增益率;CART 算法指的是Gini系數[4]。ID3 和C4.5 對選擇的節點可分裂成多個子節點,但是不支持特征的組合,只能用于分類問題;然而CART 對每個節點只會分裂成兩個子節點,所以支持特征的組合,可用于分類和回歸問題。本文進行的是特征的重要性排序,即組合,因此本文采用CART 分裂算法。Gini系數是指一個隨機樣本被分錯的概率,則其公式如下:

其中:pk表示選中樣本屬于k類別的概率,則不屬于k類別的概率便是1-pk。CART 的分類規則是選用Gini系數較小的屬性作為分類屬性。
本文基于特征重要性對12 個指標進行篩選,并選擇出了涵蓋80%以上信息的6 個指標。
Pearson 相關系數是衡量向量相似度的一種方法,即兩個變量之間的協方差和標準差的商,其在比較變量相似度方面應用較廣。本文采用Pearson 相關系數度量不同公司的相關性,輸出范圍為-1 到+1,0 代表無相關性,負值為負相關,正值為正相關,其公式如下:

由于一籃子指數內的公司同屬于物流行業,故其相似程度較高,直接判斷區分度不大,所以在這里需要設置閾值,閾值的設立本文遵循使其網絡中拓撲結構穩定,并且可以很好地反應股票網絡的內在性質[5],這樣能清晰的看出它們之間的區別,緊接著根據相關系數構造臨邊,就可以進一步生成公司間的網絡[6-7]。
復雜網絡中節點重要性的評價方法源于圖論和網絡分析理論,網絡的分析主要通過各種中心性指標來進行度量。中心性指標由Bavelas 在1948 年首次提出,之后Freeman 在1979 年設計了最為經典的3 種中心性:度中心性、中介中心性和鄰近中心性[8]。
本文選擇了度中心性作為評價指標,度是指在網絡中一個節點其直接聯系的節點的個數,而度中心性是在網絡科學中分析節點中心性時最直接的一個度量指標。其表達為,一個節點的節點度越大就意味著這個節點的度中心性越高,那么此時該節點在網絡中就顯得越重要。一個包含N個節點的網絡中,節點最大可能的度值為N-1,通常為了便于比較而對中心性指標作歸一化處理[9],度數為ki的i節點的歸一化度中心性定義為:

本文用的數據是中證指數下的滬港深通物流指數在2015 到2019 年的年報。選擇滬港深通物流指數,因為其指數內涵蓋的中國物流上市公司最為全面,并且是由中證指數有限公司所開發,具有一定權威性。而年報是反映公司一年內運營狀況的重要來源,也是國家要求披露并受監督的文件,其價值巨大。本文將報表中的數據進行整理,選出了“每股收益(元)”,“每股凈資產(元)”,“銷售毛利率(%)”,“銷售凈利率(%)”,“凈資產收益率(%)”,“主營業務收入增長率(%)”,“凈利潤增長率(%)”,“應收賬款周轉率(次)”,“存貨周轉率(次)”,“流動比率(倍)”,“速動比率(倍)”,“資產負債率(%)”組成本文的特征數據,極少數的缺失數據設為零,漲跌情況是用0、1 表示,漲跌時間段是年報所反映的時間段,具體如表1所示。

表1 數據介紹
本文將經過處理的滬港深通物流指數2015 到2019 年的年報數據用隨機森林進行特征篩選,輸出特征重要性,結果如圖1所示。

圖1 2015 到2019 年指數數據的特征重要性輸出圖
本文選出的六個指標為:2015 年:主營業務收入增長率,應收賬款周轉率,存貨周轉率,流動比率,速動比率,資產負債率;2016 年:每股凈資產,銷售凈利率,凈資產收益率,流動比率,速動比率,資產負債率;2017 年:每股收益,每股凈資產,凈資產收益率,主營業務收入增長率,存貨周轉率,速動比率;2018 年:每股收益,銷售凈利率,凈資產收益率,應收賬款周轉率,存貨周轉率,流動比率;2019 年:每股凈資產,凈資產收益率,主營業務收入增長率,應收賬款周轉率,存貨周轉率,流動比率。每年選出的6 個特征均涵蓋了80%以上的信息。
然后,本文又用Pearson 系數對篩選出的數據進行矩陣化,得到了Pearson 相關系數矩陣。根據閾值篩選原則,本文得到閾值0.9,得出2015 到2019 年輸出圖,2015 年結果如圖2 所示。
從圖中得到在2015 年物流行業有較大影響力的公司為中遠海發、中遠???、中遠海運港口、北部灣港、光匯石油、日照港。
2016 到2019 年得到的有影響力的公司分別為:2016:中遠海能、東方海外國際、嘉里物流、中遠海特、中信海直;2017:中遠???、深圳華強、淮河能源、小商品城、鐵龍物流;2018:中遠??亍⒑XS國際、東方海外國際、韻達控股、順豐控股;2019 年:寧波港、北部港灣、白云機場、天津港發展、順豐控股。從中不難發現從2016 年和2017 年只有嘉里物流一個民營企業,到2018 年和2019 年順豐控股、韻達控股的嶄露頭角,物流行業的重要企業呈現出日新月異的變化和發展,隨著物流行業整體的大發展和民營企業的不斷進步,物流行業整體上發展還是較為樂觀。
本文研究了2015 到2019 年的滬港深通指數內上市公司的會計報表的數據信息,認為每個階段所發布的會計報表其所反映的上市公司的信息與當下其股價波動是有關聯的,進而能反映出上市公司在行業內的影響力,所以本文對報表進行分析進而研究。首先,通過Wind 數據庫對報表進行預處理,從報表中整理出了基本的12 個指標數據,其次運用了隨機森林的方法,以報表時間內的漲跌情況為結果,輸出涵蓋信息80%以上的6 個指標,基于Pearson 相關系數結合閾值0.9 進行矩陣化,并生成網絡圖,然后利用網絡科學的知識進行節點重要性分析,進而得到重要節點。從結果中不難發現,我國物流上市公司的重要節點分布從2015 年的純國企到近兩年像順豐控股和韻達控股這樣優秀私企的出現[10],說明我國物流行業的發展越來越多元化,私企的聲音也越來越大。
本文提出的基于會計報表和網絡中心性的對物流行業的研究,一方面拓寬了對物流行業研究的視角;另一方面也結合了機器學習、會計知識和網絡中心性分析契合當下的多學科結合發展的熱潮。當然,本文的研究也有不足:首先,本文對網絡中心性分析存在欠缺,完全可以考慮多個指標;其次,對選出的物流企業完全可以再進行更深度的剖析,這也是接下來要進行的工作。

圖2 2015 年結果輸出圖