周莊蝶 周曉東 王云娟



[摘 要]文章利用Kaplan-Meier生存分析法和Cox比例風險模型對我國2014—2017年間244家已倒閉互聯網企業和68家尚未倒閉企業進行實證研究,探尋我國互聯網企業生存期規律及其可能的影響因素。研究結果表明:我國互聯網企業生存期與企業的行業和地區都有顯著關系。建議互聯網企業應認清所在行業特點,深入研究所在地區網民習慣及地域特點,才能更好地持續經營。
[關鍵詞]互聯網企業;Kaplan-Meier生存分析;Cox生存模型
[DOI]10.13939/j.cnki.zgsc.2018.12.070
隨著我國互聯網的普及和消費者消費習慣的改變,以計算機網絡技術為基礎,利用網絡平臺提供服務并獲得收入的互聯網企業發展迅猛。但一個不爭的事實是,隨著市場競爭的加劇,大量的互聯網企業選擇退出甚至被擠出市場。與中國的大部分行業一樣,我國的互聯網企業也呈現出較高退出率的流轉特征(鮑宗客[1])。因此我國互聯網企業呈現的一個顯著特征是企業的持續經營時期很短。相關研究調查表明,中國企業平均生存時間大約為3.6年,其中中小企業的平均生存時間更短,僅為2.5年,與歐美企業相比相差甚遠。除了壽命周期短,我國互聯網企業能做強和做大的也是寥寥無幾。因此,分析我國互聯網企業生存時間的規律及其影響互聯網企業生存的因素,并基于此為創業者提供投資借鑒具有重要意義。
關于我國企業的生存期及其影響因素已有不少文獻進行了研究。吳利華等[2]對企業生存理論研究進行了比較好的回顧,指出企業能否生存是外部環境因素和企業能力互為作用的結果。根據經濟環境的變化,企業生存理論研究的側重點有所不同。不同的學者從不同的角度構建企業生存理論以及論證影響企業生存的各種因素,如:資源投入、學習能力、規模與影響力(王淼薇等[3]、王峰[4]、林蘭等[5]);戰略選擇(林蘭等[5]、戚建梅等[6]、鄧子梁等[7]);技術創新(鮑宗客[1]、吳冰[8]);外部融資約束(曹獻飛[9])。由于企業生存數據普遍存在刪失的特征,因此在上述企業生存理論研究和實證研究中多數引入了生存分析的理論框架。應用生存分析中的生命表分析、Kaplan Meier分析、Cox回歸模型描述企業生存過程(曹裕等[10])以及對企業生存過程的影響因素進行分析(陳鴿林等[11])。但上述研究存在的一個問題是其實證多數采用的是工業企業數據(逯宇鐸等[12]、王淼薇等[3]、戚建梅等[6]、鄧子梁等[7]),其他企業類型數據比較少見。因此這些文獻所得結論主要適用于工業企業,對其他類型的企業如互聯網企業未必適用。基于互聯網企業的生存分析研究除少數工作(如林若飛等[13])外尚不多見。本文彌補這一不足,研究互聯網企業的生存期特征以及影響互聯網企業生存的因素。我們采用大數據網絡爬蟲技術獲取相關聯網企業的數據,采用Kaplan-Meier生存分析法和Cox比例風險模型來探究不同行業、不同地區互聯網企業的生存規律及可能存在的影響因素。
1 我國互聯網企業數據
1.1 數據及變量
本文采用網絡爬蟲技術爬取了國家企業信用信息公示系統中2014—2017年互聯網企業數據。保留了注冊時間在2014—2017年之間的企業數據。共計312家。其中倒閉或退出的244家,68家仍在經營。對于已經倒閉的互聯網企業,將注冊時間視為企業存活的開始時間,將國家企業信用信息公示系統中顯示的注銷時間視為企業倒閉的時間點,將注冊時間和注銷時間之間的天數視為該企業的生存時間;對于尚未倒閉的互聯網企業,將注冊時間視為企業存活的開始時間,將注冊時間到2017年6月18日之間的天數視為企業的生存時間。
根據已有企業生存理論研究文獻,考慮到數據的可獲取性,在互聯網企業生存數據分析中,被解釋變量為企業的生存時間及到2017年6月18日止企業的生存狀態[0(存活)和1(倒閉)],解釋變量包含企業的注冊資本和第一股東出資比例兩個定量變量以及企業所屬行業和地區兩個定性變量。其中,根據隨機數據爬取的取樣結果中頻數由高到低,行業編號為:1(互聯網+金融)、……、8(互聯網+其他);根據截至2016年的全國各省份互聯網普及率由高到低,所在地區為:1(北京)、……、29(黑龍江)。數據概覽如下表所示。
1.2 統計特征
2 生存分析理論
2.1 生存分析概念
生存分析是研究生存現象和響應時間數據及其統計規律的一門學科。在刻畫企業生存時間時通常用以下三個函數來描述:生存函數、概率密度函數和危險率函數。
2.2 Kaplan-Meier生存分析
為得到刪失數據下生存函數的估計,Kaplan和Meier(1958)給出了生存函數非參數估計方法——乘積極限法,其優點是對數據的分布沒有要求,利用條件概率及概率乘法原理來計算生存率,適用于生存時間數據的原始資料(或未分組資料),可用于小、中或大樣本。應用中可以通過繪制Kaplan-Meier曲線比較不同條件下樣本生存函數之間有無差異。除此之外,我們也可以采用log-rank test對數秩檢驗等定量分析不同樣本的風險函數有無顯著差異。
2.3 Cox比例風險回歸模型
為研究企業生存究竟受到哪些因素的影響,考慮到刪失數據的存在,通常采用Cox比例風險回歸模型。該模型是一種半參數模型,對數據的分布沒有要求。其基本形式如下:
該風險比與基準函數無關,且不隨時間t變化。這也是Cox模型基本的比例風險(proportional hazards, PH)假定。通常可以通過Schoenfeld殘差圖進行PH假定的檢驗。
3 實證分析
3.1 Kaplan-Meier曲線
圖1為不同行業的Kaplan-Meier生存曲線圖。圖1表明不同行業的生存曲線存在很大差異,其中技術創新型互聯網企業有比較高的生存率。這與鮑宗客[1]
以《中國工業企業數據庫》中工業企業樣本的實證結果比較一致。圖1中結果還發現互聯網金融企業有著比較低的生存率。為驗證不同行業企業間生存函數之間的差異是否顯著,我們采用對數秩檢驗方法。檢驗結果(p=3.7e-06)表明,不同企業之間的差異比較顯著。我們采用同樣的方法按照地區對所獲取的互聯網企業進行分組并進行對數秩檢驗,得到的p值也小于顯著性水平0.05,因此不同地區的生存曲線也存在顯著差異。
3.2 Cox比例風險模型
基于已有數據構建Cox比例風險模型,得到的參數估計和檢驗結果如表3所示。
由模型總體的檢驗p值為2.78×10-5小于顯著性水平0.05看出,該Cox風險比例模型顯著。由各個變量的檢驗可以看出,地區和行業的檢驗p值均小于0.05,這兩個變量對模型的影響顯著,這與本文前面用對數秩檢驗得出的結論一致。表3可知擬合的風險模型為:
其中,x1,x2,x3,x4分別表示注冊資本(萬人民幣)、第一股東出資比例、地區和行業。由系數可以解讀到,注冊資本越多,互聯網企業倒閉的概率越低但影響輕微;第一股東出資比例越高,互聯網企業倒閉的風險越高;地區編號越大,也就是互聯網普及率越低的省份,互聯網相關企業倒閉的概率越高;行業編號越大,即在隨機爬取過程中頻數越大的行業下的互聯網企業倒閉的風險越低。
3.3 Cox模型診斷檢驗
3.3.1 PH假定檢驗
PH假定可以通過假設檢驗和Schoenfeld殘差圖檢驗,殘差應該與時間無關。如果殘差與時間有相關趨勢,則違反PH假設。殘差圖上,橫軸表示時間,如果殘差均勻分布,則表示殘差與時間相互獨立。根據上節建立的Cox模型進行PH假設檢驗,結果見表4。
由表4中第4列我們可以發現四個變量的p值都大于0.05,說明四個變量均通過PH檢驗,而模型的整體p值為0.746也大于0.05,因此模型整體也通過PH檢驗。圖2為Schoenfeld殘差圖,圖中曲線為樣本擬合曲線,虛線為樣本區間上下2個單位的標準差,由圖可以看出標準化Schoenfeld殘差在0的周圍波動,無明顯趨勢,因此和PH檢驗得到的結論一致,各變量滿足PH風險假設。
3.3.2 模型異常值識別
Dfbetas是一種通過考察剔去第i個觀測值對整體估計的影響來檢驗回歸異常值的方法,Dfbetas殘差檢驗可用來識別模型的異常值。對已建立的Cox模型繪制Dfbetas殘差檢驗圖,如圖3所示。由于殘差均勻地分布在0上下,表明該模型不存在明顯的異常點,不足以對模型系數的估計值產生影響。
3.3.3 估計的穩健性
上述實證結果我們采用2014—2017年244家已倒閉互聯網企業和68家尚未倒閉企業共計312家數據進行實證分析,為彌補數據不足帶來的統計結果的偏差,考察表3中統計結果的穩健性。我們采用非參數bootstrap 方法,通過有放回抽樣的方式抽取B=10000次容量為312的bootstrap樣本,針對每一組樣本估計Cox回歸模型的系數。結果見表5。
表5結果表明,模型參數估計與樣本選取具有一定的關系,但半數以上的抽樣結果生成的Cox模型變量系數與未經Bootstrap抽樣的原數據所得擬合模型各變量系數的符號一致,因此可以認為模型是穩健的,上述結論比較可靠。
4 結 論
本文運用Kaplan-Meier法和Cox比例風險回歸模型對2014年到2017年以來共計312家互聯網企業生存數據進行分析。考慮了可能影響企業生存的四個因素:企業的注冊資本、第一股東出資比例、企業所在行業、企業所在地區。研究發現,我國互聯網企業的生存率受到企業所在行業和地區的影響比較顯著。由Kaplan-Meier法和Cox模型一致得出的結果可以看出,互聯網企業的生存存在明顯的行業效應。其中信息服務、軟件開發、技術開發三大行業的互聯網企業生存期最長。近年來,各行各業的信息需求日益猛增,人們對手機的依賴更使得各種手機應用獲得巨大市場。因此這三大行業的互聯網企業比例以及生存期都名列前茅。而結合房產、汽車等傳統行業的互聯網企業由于低頻消費問題和難以如線下一樣建立信任等原因,生存期最短。另外,我國網民的人數和互聯網普及率在各個省份大相庭徑,這直接導致互聯網企業的生存規律有很強的地域差別。以北上廣為首的互聯網普及率最高也是互聯網企業存活期最長的地區,而靠近西部的寧夏、新疆等地區的互聯網企業由于互聯網用戶基數的原因,大多無法長期存活。不同行業在進入“互聯網+”時代的轉型中優劣有別,行業領導者和其他創業者需要摸清行業特點,實行有效轉型;不同地區的互聯網企業創業者也應針對本地區網民習慣及地域特點進行研究,采取具體措施彌補網民基數不足的先天劣勢,延長企業生存期。王淼薇[3]基于上海市規模以上工業企業的數據時實證了初始規模因素與企業生存之間有著顯著的非線性關系。王峰[4]分析第二次全國經濟普查數據發現企業規模與企業生存存在正相關。本文以企業的注冊資本度量企業初始規模,表3表明企業的初始規模越大、企業的生存概率越大,但統計上不顯著。可能的原因:一方面是樣本的數據量不夠,另一方面從2014年3月1日開始,我國公司注冊資本從實繳制改為認繳制,只要在企業經營期限內將上報的注冊資金入繳即可,因此國家企業信息系統上顯示的注冊資本并不是在企業成立初期就一步到位,因此2014年后將注冊資金看作企業初始規模并不完全恰當。所以在驗證企業的初始規模對企業生存的影響時后期需要更加合適的度量指標。因此今后我們將繼續加大樣本量的收集,依據企業生存理論研究,引入更多的解釋企業生存的變量,為企業或國家相關決策提供參考。
參考文獻:
[1]鮑宗客.創新行為與中國企業生存風險:一個經驗研究[J].財貿經濟,2016,37(2).
[2]吳利華,劉賓.企業生存理論研究的文獻綜述與機理分析[J].科技進步與對策,2012,29(1).
[3]王淼薇,郝前進.初始規模、生產率與企業生存發展——基于上海市規模以上工業企業的實證研究[J].經濟管理,2012(7).
[4]王峰.企業規模、效益、年齡和企業生存:理論與再認識[J].未來與發展,2011(7).
[5]林蘭,尚勇敏.影響我國小微企業生存發展的因素研究——來自上海浦東新區的證據[J].上海經濟研究,2016(9).
[6]戚建梅,洪俊杰,儀珊珊.多產品出口對企業生存影響的微觀數據分析[J].世界經濟研究,2017(2).
[7]鄧子梁,陳巖.外商直接投資對國有企業生存的影響:基于企業異質性的研究[J].世界經濟,2013(12).
[8]吳冰.生存分析及其應用:以創業研究為例[J].上海交通大學學報:哲學社會科學版,2006,14(3).
[9]曹獻飛,于誠.外部融資約束加劇了企業生存風險嗎?——基于Cox比例風險模型的經驗分析[J].中央財經大學學報,2015(9).
[10]曹裕,陳曉紅,王傅強.中小企業生存分析——以湖南省工業企業為樣本[J].科研管理,2011,32(5).
[11]陳鴿林,夏洪勝.基于生存分析模型的企業生存問題及其影響因素研究綜論[J].江蘇商論,2013(3).
[12]逯宇鐸,于嬌,劉海洋,等.出口行為對企業生存時間的強心劑效應研究——來自1999—2008年中國企業面板數據的實證分析[J].經濟理論與經濟管理,2013(8).
[13]林若飛,張惠萍.“互聯網+農業”企業生存能力的實證研究[J].福建師范大學學報:哲學社會科學版,2016(1).