董曉萌,南方雀
(1.渭南師范學院數學與信息科學學院,陜西渭南 714099;2.陜西龍門鋼鐵有限責任公司,陜西韓城 715405)
企業統計數據質量的實證檢驗分析
董曉萌1,南方雀2
(1.渭南師范學院數學與信息科學學院,陜西渭南 714099;2.陜西龍門鋼鐵有限責任公司,陜西韓城 715405)
企業進行決策的重要依據是其所掌握的數據信息,數據質量的好壞直接影響著企業決策的方向.根據2011年全國各省市規模以上企業的15項指標數據,利用K-S檢驗法驗證企業指標數據是否滿足對數正態分布規律,且根據判斷正態分布異常點的方法對15項指標中的異常數據進行識別.結果表明:2011年全國31個省市規模以上企業的統計數據的準確性和可靠性較好,只有西藏、青海、江蘇三省共4個指標未通過檢驗,需進一步核實未通過檢驗的指標數據.
企業數據質量;對數正態分布;K-S檢驗法;異常數據
企業統計數據質量最重要的特點是數據的準確性[1],準確性高的數據能為企業進行正確決策提供保證.因此,企業數據準確性高低的判斷就顯得尤為重要.本文基于K-S檢驗法驗證了規模以上企業統計數據的對數正態分布規律,根據統計數據質量評價指標體系,綜合評價2011年全國31個省市規模以上企業統計數據質量的好壞.
數據作為企業進行決策時的重要依據,無論是對國家進行宏觀決策還是企業進行微觀決策都起著非常大的作用[2].企業數據質量的影響因素很多,國外學者主要集中在技術性因素的研究上,而國內學者主要集中在非技術性因素的研究上,非技術性因素主要包含有企業規模大小、企業信息化程度高低、企業重視程度高低、企業統計力量強弱、規章制度是否完善、數據與利益的相關性大小、統計人員知識水平高低、統計人員地位高低等因素.
目前,國內學者對于企業數據質量的影響因素研究,主要是定性研究、因子分析及回歸分析.本文基于K-S檢驗法對2011年全國31個省市規模以上企業的統計數據質量進行實證檢驗,檢驗數據質量的準確性及可靠性,并找出其中的異常數據,分析異常原因.
1.1 K-S檢驗法
K-S檢驗方法[3]作為擬合優度檢驗方法之一,是根據樣本提供的數據信息去推斷總體是否服從某一理論分布,主要對于連續型隨機變量是否服從某一理論分布進行檢驗.單樣本K-S檢驗的原假設是:檢驗總體與指定的理論分布無顯著差異.常見的理論分布主要有正態分布、泊松分布、均勻分布及指數分布等,本研究的理論分布是基于正態分布下,結合R語言編制了K-S檢驗程序函數ks.test().
1.2 企業總產值的對數正態分布規律
企業總產值是反映一個企業經濟發展水平和規模的總量指標.在此,以全國31個省市的規模以上企業總產值的分布為例,驗證企業總產值的對數正態分布規律.[4]結合《中國統計年鑒(2012)》資料,得到2011年全國31個省市規模以上企業的總產值,見表1.

表2 企業的總產值在各地區中分布頻率表

圖1 企業的總產值在各地區中分布直方圖
企業總產值[3]的最高值為107 680.68億元,最低為74.85億元,對各企業的總產值x取自然對數lnx,lnx的取值范圍為4.32~11.59, 表2所示的是在不同范圍內的企業數量及其所占的比例,圖1是企業的總產值在各地區中的分布直方圖.
從表2或圖1可以得到企業總產值分布結構的特征為:(1)企業總產值比較小或比較大的地區占少數,大部分地區處在中間狀態,即企業總產值呈現出一種兩頭小中間大的分布狀態; (2)圖形關于均值9.60對稱,即企業總產值x的均值約為14 563億元;標準差約為1.44;(3)在無經濟危機發生的情況下,若以不同年份的數據作圖,其形態與圖1相同,只是均值和標準差的數值會發生變化.
在R軟件中調用函數ks.test()對各地區企業總產值指標進行對數正態分布檢驗[3,5],運行結果為0.736>0.05,因而可以判定各地區規模以上企業的總產值服從對數正態分布,表明該數據質量較高.
1.3 規模以上企業統計數據質量的準確性檢驗
根據中國2012年統計年鑒數據[6-7],選取2011年我國31個省市規模以上企業的統計數據,應用KS檢驗方法,檢驗企業統計數據各項指標是否服從對數正態分布,選取的指標為:企業單位數(x1)、工業總產值(x2)、資產總計(x3)、流動資產合計(x4)、固定資產原價(x5)、累計折舊(x6)、負債合計(x7)、流動負債合計(x8)、所有者權益合計(x9)、主營業務收入(x10)、主營業務成本(x11)、主營業務稅金及附加(x12)、利潤總額(x13)、本年應交增值稅(x14)、全部從業人員年平均人數(萬人)(x15).
在R軟件中調用函數ks.test()對上述指標進行對數正態分布檢驗,檢驗結果見表3.

表3 2011年全國31個省市規模以上企業各項統計指標對數正態分布K-S法檢驗結果(α=0.05)
由表3可以看出[8-10]:(1)各省市上報的規模以上企業的統計數據基本都通過了檢驗,但西藏有2個指標,江蘇、青海各有1個指標未通過檢驗,總體數據質量還是比較好的,對這幾個不正常的數據,應進一步核實,對因某種原因而引起的失實數據,應予以糾正,若是真正的觀察值,則予以保留;(2)被檢查的15個指標都通過了對數正態性檢驗,這表明,規模以上企業的統計數據服從對數正態分布這一假設是正確的,因而基于此假設采用對數正態分布的方法檢驗數據和識別異常點是可行的.
采用正態分布異常點的識別法進行異常點的識別,結果如表4.

表4 主要統計指標對數正態分布最大顯著性水平
由表4可以看出[11-12]:(1)31個省市規模以上企業的統計數據質量是比較好的;(2)選取的所有總量指標都通過了檢驗,并且絕大部分指標的相對擬合誤差小于20%,只有2個指標的相對擬合誤差大于20%,可見統計數據的可靠性比較好,質量比較高;(3)指標x4(流動資產合計)和指標x7(負債合計)分別有1個異常點,指標x13(利潤總額)有2個異常點.對這幾個不正常的數據,應進一步核實查明原因,對因某種原因而引起的失實數據,應予以糾正,若是真正的觀察值,則予以保留.
由準確性檢驗可知,2011年全國31個省市規模以上企業的統計數據的準確性和可靠性較好.
本文對2011年全國31個省市規模以上企業的15項總量指標,采用K-S檢驗法驗證企業總量指標的對數正態分布規律,并采用正態分布異常點的識別方法對異常數據進行識別.結果表明:2011年全國31個省市規模以上企業的統計數據的準確性和可靠性較好,只有西藏、青海、江蘇總共4個指標未通過檢驗,同時指標x4(流動資產合計)和指標x7(負債合計)分別有1個異常點,指標x13(利潤總額)有2個異常點.對這幾個不正常的數據,應進一步核實,對因某種原因而引起的失實數據,應進行糾正,若是真正的觀察值,則需要保留.
[1]馬鳳清.影響企業統計數據質量的主要因素及應對措施[J].數字化工,2005,(7):55-56.
[2]王穎.企業統計數據質量影響因素研究[D].杭州:浙江大學碩士學位論文,2006.
[3]成邦文,王婭莉,石林芬,等.統計規模指標的對數正態分布規律[J].科學與科學技術管理,2000,(9):9-11.
[4]袁志發,周靜芋.多元統計分析[M].北京:科學出版社,2002.113-120.
[5]湯銀才.R語言與統計分析[M].北京:高等教育出版社,2008.85-91.
[6]陳希孺.概率論與數理統計[M].合肥:中國科學技術大學出版社,2003.180-191.
[7]賈俊平.統計學[M].北京:中國人民大學出版社,2012.141-149.
[8]門登霍爾.統計學[M].北京:機械工業出版社,2009.124-136.
[9]龍海生.談影響企業統計數據質量的因素及提高措施[J].新疆農墾經濟,2000,(1):49-50.
[10]李盼.政府統計數據質量實證檢驗分析[J].統計與咨詢,2011,(5):18-19.
[11]王冬菊.影響企業統計數據質量因素分析[J].統計科學與實踐,2011,(4):58-59.
[12]余芳東.國外統計數據質量評價和管理方法及經驗[J].北京統計,2003,(7):54-55.
【責任編輯 牛懷崗】
Analysis of Empirical Test Based on the Corporations Data Quality
DONG Xiao-meng1,NAN Fang-que2
(1.School of Mathematic and Information Science,Weinan Normal University,Weinan 714099,China; 2.Shaanxi Longmen Iron and steel co.,Ltd,Hancheng 715405,China)
The data is the basis of decision-making,and data quality is related to country macro decision-making and enterprise microcosmic decision-making.Based on 15 measures of total amount of 31 provinces,municipal enterprises above designated size will be tested whether obey the lognormal distribution with K-S test method in 2011,and the abnormal data will be identified with the normal distribution of abnormal point identification methods.The results show that:the statistics of enterprises above designated size is better in accuracy and reliability with 31 provinces,cities in 2011,only in Tibet,Qinghai and Jiangsu province,a total of four indicators failed the test.
corporation data quality;logarithmic normal distribution;K-S test method;abnormal data
F222
A
1009-5128(2014)07-0008-04
2013-11-11
國家統計局科學研究項目:基于多元統計分析的我國環保支出研究(2012LY051)
董曉萌(1982—),女,陜西渭南人,渭南師范學院數學與信息科學學院講師,理學碩士.