中國電科第16研究所 陸杉
為貫徹習近平新時代中國特色社會主義思想,實現由高速增長向高質量發展的轉變,各類科研院所更加需要扎實可靠的數據信息為國家整體戰略規劃和經營管理提供數據基礎。
由于中小型科研院所缺少統計信息化平臺、批量化產品較少等普遍情況,導致其經營統計工作體系無法實現信息共享和全面管理,只能從成本與效率雙重角度出發,重點關注并搜集反映經營效益、運營效率以及可持續發展等重點數據信息。
以合肥低溫電子所為例。合肥低溫電子所統計工作體系依據自身經營管控目的,從四個維度劃分已有的數據信息:反映經濟規模指標的數據信息M 1;反映經濟發展指標的數據信息M 2;反映目標完成情況指標的數據信息M 3;反映新動能指標的數據信息M 4。
再根據四個類型統計數據信息在不同類別中的作用,進一步細分為:反映業務能力指標、反映經濟運行狀態指標、反映經營管理質量指標、反映市場競爭力指標、反映可持續發展能力指標、反映經營風險類指標及推動生產類和科研類新動能指標。綜上所述,合肥低溫電子所統計數據指標分類見表1。

表1 合肥低溫電子所統計數據指標分類
中小型研究所由于缺乏信息化設施和平臺,統計數據的收集主要依靠統計人員從已有的業務流程中摘取、提煉。再依據流程設計和制度要求逐級收集、匯總。因此數據收集和傳輸方式受統計工作體系運行質量的影響較大,易出現由于篡改、修正、修勻等人為因素導致的統計數據失真[2]。而且不同部門統計員的數據相對獨立,缺乏相關性,不易事后進行數據比對驗證。同時,受市場行業相對單一且產品多為科研任務的影響,可橫向比較的外部數據不足。
為保證統計數據的及時性、完整性、精確性,中小型研究所除需建立穩定可靠的統計工作體系外,還應設計專門的統計數據質量評價方法,對于數據的真實性進行驗證,避免由于人為因素導致影響統計數據質量、影響統計工作體系正常運作等情況發生。本文進行的統計數據評價不涉及統計數據經濟意義、類型等指標設置問題,只討論能否通過數據本身的結構和分布特征來描述和討論數據質量問題。
1.指標選擇
本文從反映經濟規模M 1、經濟發展M 2、目標完成情況M 3和新動能M 4四個方面各自選擇近10年相應具代表性的指標,例如:營業收入M 11,利潤總額M 12,應收賬款周轉率M 21,新簽合同額M 22,外部權益性融資M 23,流動比率M 24,營業收入目標完成率M 31,成本費用占營業收入比重M 32,專利數M 4等。上述指標來源于3個領域9個部門,數據經多次傳遞存在失真風險隱患,可以較為全面地反映實際運行的統計數據信息質量。
2.數據處理
由于Benford法則要求首位數字必須是有效的數字,既要求首數字必須非零、非負。所以在開始實證分析之前,本文對上述數據做如下處理:
(1)對指標數值為負的數據,將其負值取絕對值變為正數;
(2)為統一指標單位,考慮到本文于選擇指標的單位多為萬元,且Benford法則主要對所選數據的前兩位數字進行分析,故對于只有一位數字和小于1而大于0的數據,乘以10000得到新的符合條件的數字;
(3)為統一指標單位,百分比數字統一除以100再乘以10000得到新的符合條件的數字
3.假設條件
本文假設:(1)統計體系中統計的內外部經濟指標設計合理有效,符合實際經濟需求;(2)統計數據信息真實可靠,且內部溝通順暢;(3)統計工作體系可以穩定運行。
4.實證分析
本文的實證分析過程主要通過Excel軟件完成。在Excel中首先分別用LEFT函數和M ID函數將反映經濟規模M 1、反映經濟發展M 2、反映目標完成情況M 3和反映新動能M 4四個層面數據的首位數字和次位數字提取出來,再用COUNTIF函數統計各類型統計數據的首位數字為1至9共9個自然數出現的次數,次位數字為1至9共9個這個自然數出現的次數。然后計算各個數字在首位上和次位上的出現頻率,并將這些結果分別與Benford法則的期望頻率進行對比分析。最后通過擬合優度檢驗來檢驗數字分布同法分布的整體擬合程度,最終確定已有的統計數據是否準確可靠,進而達到對16整體統計工作體系數據質量分析的目的。
本文采用的是由皮爾遜х2擬合優度檢驗,具體公式如下:
首位數字:

次位數字:

從公式我們可以看出,x2統計量越大,說明所分析數據的分布與Benford法則的期望分布偏差越大,即越不符合Benford法則,其準確性就越值得懷疑。反之,所分析經濟部門的數據越準確,質量越好。
因此,我們需要先對已有數據進行統計,見表2,找出其與Benford法則期望規律的偏差情況。

表2 Benford法則的概率分布
從表2可以看出,進行分析的統計數據中首位數字的觀察頻率總體上來說是呈遞減分布的,只有數字4和數字9的分布頻率要比數字7的分布頻率要高一點;次位數字的分布總體上趨勢下降趨勢,但是在3以后下降趨勢不明顯。沒有明顯的遞減趨勢,所以上述統計數據在此階段受較大影響。
經過由皮爾遜x2擬合優度檢驗計算,表3和表4分別列出了四個類型統計數據的首位數字和次位數字檢驗的結果。對首位數字和次位數字,本文一次做零假設和備擇假設分別為:

表3 四個類型指標首位數字的x2檢驗結果

表4 四個類型指標第二位數字的x2檢驗結果
H00:在統計工作體系核算統計數據(反映經濟規模M 1、經濟發展M 2、目標完成情況M 3和新動能M 4)中,1至9作為首位數字的實際出現頻率與Benford法則下的期望頻率沒有顯著差異與Benford法則相符)。
H01:在統計工作體系核算統計數據(反映經濟規模M 1、經濟發展M 2、目標完成情況M 3和新動能M 4)中,1至9作為首位數字的出現頻率與Benford法則下期望頻率有顯著差異(與Benford法則不符)。對次位數字,本文做零假設和備擇假設分別為:
H10:在統計工作體系核算統計數據(反映經濟規模M 1、經濟發展M 2、目標完成情況M 3和新動能M 4)中,0至9作為次位數字的實際出現頻率與Benford法則下的期望頻率沒有顯著差異(與Benford法則相符)。
H11:在統計工作體系核算統計數據(反映經濟規模M 1、經濟發展M 2、目標完成情況M 3和新動能M 4)中,0至9作為次位數字的出現頻率與Benford法則下期望頻率有顯著差異(與Benford法則不符)。
從表4我們可以看出,在0.05的顯著水平下,四個類型統計數據的首位數字的分布都沒有落在拒絕域中,說明我們不能拒絕原假設H00,即反映經濟規模M 1、經濟發展M 2、目標完成情況M 3和新動能M 4這四個統計數字類型的首位數字分布和Benford法則的期望分布沒有顯著差異。也就是說合肥低溫電子所統計工作體系中統計數據的首位數字分布與Benford法則的期望分布一致。從x2的統計值來看,雖然四個統計類型指標的統計值中,有三個大于10但是小于自由度為8的15.51的x2分布臨界值,其中反映經濟規模和反映目標完成情況的統計值最大、反映經濟發展的統計值最小。這說明統計分析結果與統計樣本個數的最少有關。
從表4我們可以看出,在0.05的顯著水平下,四個類型統計數據的次位數字的分布也沒有落在拒絕域中,說明我們不能拒絕原假設H10,即映經濟規模M 1、經濟發展M 2、目標完成情況M 3和新動能M 4這四個統計數字類型的次位數字分布和Benford法則的期望分布沒有顯著差異,次位數字分布與Benford法則的期望分布一致。從x2的統計值來看,雖然四個統計類型指標的統計值中,有三個都大于10, 但是仍然小于自由度為9的16.12的x2分布臨界值。并且反映經濟規模的和反映目標完成情況的統計值最大、反映經濟發展的統計值最小。也說明統計分析結果受統計樣本數量的影響。
綜上所述,在0.05的置信水平下的四個統計類型指標,其統計數據的首位數字和次位數字均是準確的。因此有較大的把握地認為說這四個類型統計指標都比較好地符合Benford法則,即數據是準確的。
從數據構成分析和檢驗結果來看,合肥低溫電子所統計指標基本上是可信的,無數據舞弊跡象。這說明其建立的統計工作體系運行效率較高,可以為國家統計工作提供高質量的統計數據。而觀察Benford分布x2的擬合值,發現有部分領域的x2的擬合值接近其相應自由度的x2分布臨界值,這種數據類型可以作為合肥低溫電子所未來統計工作體系的重點關注領域。
相關鏈接
本福特定律,也稱為本福特法則,說明一堆從實際生活得出的數據中,以1為首位數字的數的出現概率約為總數的三成,接近直覺得出之期望值1/9的3倍。推廣來說,越大的數,以它為首幾位的數出現的概率就越低。它可用于檢查各種數據是否有造假。
一組平均增長的數據開始時,增長得較慢,由最初的數字a增長到另一個數字 a+1起首的數的時間,必然比a+1起首的數增長到a+2,需要更多時間,所以出現率就更高了。
從數數目來說,順序從1開始數,1,2,3,...,9,從這點終結的話,所有數起首的機會似乎相同,但9之后的兩位數10至19,以1起首的數又大大拋離了其他數了。而下一堆9起首的數出現之前,必然會經過一堆以2,3,4,...,8起首的數。若果這樣數法有個終結點,以1起首的數的出現率一般都比9大。
這個定律的嚴格證明,可以參見Hill,T.P."A Statistical Derivation of the Significant-Digit Law."Stat. Sci. 10, 354-363, 1996.。