摘"要:構建現代化統計調查體系,對于政府、企業及社會組織管理層正確決策、科學施策等具有重要意義。隨著大數據技術的日臻成熟和廣泛應用,構建現代化統計調查體系過程事務繁雜,呈現牽一發而動全身的特點,因此更加需要注重其科學性、規范性與流程化。文章以此為主題,在簡要介紹相應概念的基礎上,對大數據背景下構建現代化統計調查體系的特點、規律進行了著重論述,最后進行了深入思考,提出了實踐中應該遵循的方式方法和應該注意的關鍵問題。
關鍵詞:大數據;統計調查體系;現代化;抽樣樣本
中圖分類號:C829.2文獻標識碼:A文章編號:1005-6432(2025)12-0119-04
DOI:10.13939/j.cnki.zgsc.2025.12.029
1"引言
隨著經濟的飛速發展、信息技術的快速飛躍以及管理制度的不斷完善,當組織發展到一定階段時,如何強有力構建大數據背景下的現代化統計調查體系,成為政府、企業及社會組織關切的重大問題。文章以“大數據背景下構建現代化統計調查體系研究”為主題,在簡要介紹相關概念的基礎上,首先論述了大數據背景下構建現代化統計調查體系的規律性特點,其次提出了大數據背景下構建現代化統計調查體系的方式方法,最后討論了相應的幾個關鍵性問題,希望起到拋磚引玉的作用。
2"相關概念論述
2.1"大數據技術概述
大數據是隨著信息技術的飛速發展而產生的概念,是指使用一定的算法將海量信息進行存儲、篩查、過濾及應用的技術。值得注意的是,隨著數據篩查技術的日臻成熟,并不是所有的信息都能稱為“大數據”,而是特指具備一定意義,能夠為人類生產、生活、學習等產生重要指導意義和參考價值的信息[1]。
大數據技術有許多優點:一是大數據技術涉獵面及涵蓋面廣泛,是一個包羅萬象的大集合,使用該技術幾乎不會遺漏已有數據中的關鍵信息;二是大數據技術將數據處理層與邏輯操作層、交互層等隔離開來,使得有限的硬件軟件資源可以集中精力進行算法運行、人機交互等事項;三是大數據技術方便與其他各種先進技術進行結合融合,比如區塊鏈、云計算、人工智能等[2];四是大數據能夠極大提升工作效率,使得用戶在短時間內完成數據存儲、數據提煉、數據篩選等工作;五是大數據使得海量數據存儲擺脫了計算機硬件的限制,可以充分利用云存儲、計算機網絡、虛擬空間等技術,并通過合適的索引技術,在應用時對號入座進行下載即可。
大數據技術在具有許多優點的同時,不可避免也有一些缺點:一是海量的數據面臨巨大的存儲難題,與摩爾定律類似,信息量數據量翻倍的速度逐漸加快,周期逐漸縮短,儲存如此巨量的數據,硬件軟件方面的壓力越來越大;二是大數據技術在運用過程中容易遭到黑客攻擊,特別是與計算機網絡聯系在一起時,容易產生真假難辨的問題;三是大數據技術容易被濫用,如果在不需要使用大數據技術的場合使用會產生巨大的浪費[3];四是大數據本身儲存了相當一部分無用信息,如果算法設置不當,不僅會在數據處理過程中造成時間空間浪費,還不可避免會出現死循環的情況;五是大數據對網絡條件要求較高,特別是當使用的數據信息量過大的時候,如果網絡質量不高,會嚴重影響數據下載及處理的速度。
2.2"統計調查體系概述
統計調查體系是指針對政治、經濟、社會、法律、民俗等某一特定領域的具體課題,深入基層、深入一線開展調查研究,獲取第一手資料與數據,在此基礎上進行資料整合與數據法分析,得出最終結論的思想理論體系、方式方法體系、成果運用體系等的總稱。現代化統計調查體系要求必須綜合運用最先進的科學技術作為支撐,最大程度提升統計調查體系建立過程中的信息化含量,從而最大程度提升工作效率,節省工作時間和人力精力財力消耗,并在此基礎上提升結果的準確性[4]。
常用的描述統計學有四個量,分別是平均值、四分位數、標準差、標準分。平均值:容易被異常值影響,不能發現數據整體意義;四分位數:常用于找出異常值,但不能表示波動情況;標準差:常用來分析數據波動情況;標準分:主要用來計算出某個數值在數據中的相對位置。
3"大數據背景下現代化統計調查體系的新變化、新特點
大數據背景下構建現代化統計調查體系,具有以下三點特點規律。
3.1"大數據背景下抽樣完成形式的新變化
大數據研究中,產生了新的抽樣需求。如今,互聯網發展迅速,并且隨著以“我即媒體”為象征的社交媒體時代來臨,潛在的文本數量出現爆炸式增長,報刊書籍等各種媒介皆擴展至互聯網多種渠道上[5]。內容分析法的應用亦需要與時俱進,以及時應對海量的文本數據。將大數據技術、人工智能、深度學習及其他網絡技術手段引入到內容分析法的實踐當中,實現了處理文本數據能力的飛躍。似乎只要有權限觸及互聯網各個網站的數據、運用足夠先進的數據采集技術、擁有足夠強大運算能力的研究分析工具,就能采集到海量的文本數據,抽樣技術也就不那么重要了。大數據技術給了我們充分的自信,但這依然并不完美:收集到海量的文本數據,依然需要過濾掉存在歧義或無關的“雜質”信息;自然語言,尤其是漢語,是博大精深、千變萬化的,在實際應用中,相近或相同的語句,其實際語義會存在很大的差別,即使對算法不斷進行優化和改進,也無法制造出放之四海而皆準的分析工具[6]。
3.2"大數據背景下調查研究的新特點
大數據背景下構建現代化統計調查體系,具有樣本量更加隨機,但可以對所有總體量進行涵蓋的特點,局部未必能夠反映總體特征,從主觀到相對客觀等特征。
在研究實踐當中,當前的研究環境下,以大體量數據為對象的內容分析法,在樣本的選取上可以總結出兩種選擇方向[7]:第一類是利用計算機技術分析全體樣本,比如,在強大的計算能力和算法的加持下,快速分析文本數據的客觀性信息(來源分布、時間序列、主題、人物、表達詞等);第二類是需要分析文本相對主觀性內容,例如態度的分化等,技術所不能達,需要人工介入,而由于人工內容編碼需要時間和人力,當需要應對海量文本數據的時候,如果人工編碼的壓力過大,時效性會大打折扣。這種場景下就可能要考慮抽樣,選取部分樣本,在編碼的時效性、樣本的覆蓋廣度和編碼后的分析深度上做出平衡。此外,大數據背景下數據洞察與分析、統計調查體系也呈現一些新特點,限于篇幅,在此不再一一贅述。
3.3"大數據背景下典型調查與重點調查的區別
一是調查目的不同。典型調查的目的,是為了研究現象總體出現的新情況、新問題而進行的深入細致的調查[8]。重點調查的目的,是為了掌握現象總體的基本情況。二是樣本選取不同。典型調查中的典型單位是在對總體情況分析的基礎上有意識地抽選出來的。重點調查是在調查對象中,選擇一部分重點單位作為樣本,且重點單位標志總量占全部單位總量的絕大比重。三是推斷總體的可靠程度不同。典型調查中一定條件下可以推斷總體總量(當且僅當針對每個不同組成部分或者不同組成領域都選擇了“典型”的情況),但又不知道可靠程度。重點調查不能推斷總體總量。因為重點調查是針對重點領域、重要環節開展的統計調查,不能反映次重要、一般重要和不重要領域的情況,因此無法代表全局性的情況。四是適合場地不同。典型調查比較靈活,既可側重質的方面的研究,又可側重量的方面的研究;既可研究幾個典型,也可研究部分典型。重點調查適用于部分單位能比較集中地反映所研究的項目或指標的場合。五是調查對象選擇的不同。重點調查和典型調查的區別除調查方法不同外,主要在于調查對象選擇的不同。如要調查100個企業的銷售收入:第一,重點調查的調查對象是在調查總體中重要性較大的單位,如調查銷售收入總額居于前20位的企業。第二,典型調查的調查對象為調查總體中最具有調查特征的單位[9],如上述企業,將其按銷售收入總額大小分成5類,在每類中選一個企業調查。六是反映量的不同。類比分類數據和數值型數據,一個反映量一個反映性質。典型調查是根據性質特征調查有特征優勢的單位,解釋的是“型”;重點調查是數量優勢的單位,解釋數量[10]。
4"大數據背景下構建現代化統計調查體系
針對大數據飛速發展的現狀,結合統計調查體系的基本規律,提出以下方式方法僅供參考。
4.1"周期性普查
周期性調查是每隔一段時間即一個周期就進行重復性的調查,多用于變化較快或者同時具有周期反應的情況,優點是能夠最大限度體現出調查對象的變化情況,缺點是需要投入大量的人力、物力、財力。根據樣本量的大小和統計調查領域的重要程度,周期確定方法也不同。一般來說,統計調查的區域越大,預計人口越多,涵蓋層次越深,涉及范圍越廣,則周期越長,反之則越短。當然,越長的周期往往意味著需要耗費更多的時間、人力、物力和財力,組織的復雜度也成倍增加,需要工作人員付出更加艱辛的努力。
4.2"抽樣調查
抽樣調查是考慮到總體樣本數量太大,難以短時間內在一定的人力條件下達到窮盡,因此選用一部分具有代表性的樣本作為抽樣調查對象。特點:投入較少,取得的結果較大,例如對于我國人民群眾消費觀念的統計調查,沒有必要也沒有能力對全國所有人進行調查,而只需要按照年齡、性別、收入、職業等進行分組后,各選取一定具有代表性的進行調查即可;又如統計我國經濟作物在不同省份生長情況,只需要統計每個省份最具有代表性的幾個地市,就能起到管中窺豹的效果。有一部分經驗不是很豐富的統計工作者,往往在接到任務之后,不精心精細精準地進行抽樣工作,不可避免造成之后工作的被動。要牢記抽樣是磨刀不誤砍柴工,是夯基壘臺的工作。要提高思想認識,加強抽樣工作的組織領導;要對抽樣方法進行動態評估,適時調整完善方式方法;要建立容錯機制,采取有效性校驗、正確性評估等辦法,確保抽樣的每一個數據都正確反映客觀實際情況。
4.3"全面調查和重點調查
全面調查是指對于調查對象的全部情況一一進行調查,即使該情況只有極少數的存在,這反映在正態分布上,不僅需要重點分析中間區域,更要警惕尾部區域。重點調查恰恰相反,是只考慮調查對象中重要的部分,忽略次要的部分。這兩種調查方法的區別反映了辯證唯物主義抓住事情主要矛盾,忽略次要矛盾的取舍,全面調查沒有強調這點,而重點調查恰恰強調了這點。
4.4"行政記錄
行政記錄是指在進行行政方面的統計調查的時候,不僅僅當成一個數學的過程,而當成一個行政的過程,類似會議一樣對調查的每一個環節進行記錄,便于之后進行統計和分析,也便于利用類似區塊鏈的思想,當中間哪個環節存在錯誤或者出現瑕疵的時候,方便向上追溯是哪一個環節哪一個負責人出現的情況。
4.5"構建社會統計指標體系
統計指標體系中的統計指標是指反映總體現象數量特征的概念。它包括三個構成要素:指標名稱、計量單位、計算方法。這是統計理論與統計設計上所使用的統計指標含義。統計指標體系是指用來刻畫與描述總體基本狀況和各個變量分布特征的綜合數量。統計指標和統計標志有以下三點區別:①統計指標都可以用數量表示;標志中,數量標志可以用數量表示,品質標志只能用文字表示。②特定專業性的統計調查數據,一般不具有綜合的特征。③指標是說明總體綜合數量特征的,具有綜合的性質。
5"大數據背景下構建現代化統計調查體系的關鍵問題研究
在構建現代化統計調查體系過程中,很多統計數據不是用調查問卷得來的,那么這種數據是否有效呢?本節就來分析這個問題,并舉一個構建現代化統計調查體系的實例。
5.1"非調查問卷數據能否做信效度分析檢驗
信度和效度檢驗是調查問卷或量表數據經常要做的統計分析工作,目的是檢驗研究工具的可靠性和有效性。那么,很多非問卷的數據,例如客觀經濟數據、實際調查數據、不同主體或不同評分方法的評價數據,是否也需要信度和效度檢驗?或者說能不能做信度效度分析?以下是博主南心的個人理解,是主觀理解,不是學術規范,讀者切勿以此作為學術研究的參考。
首先,理論上南心認為信度和效度是用于測量工具的,但是這個測量工具不能簡單理解為問卷、量表,而應該理解為某種“評價指標體系”或者測量模型,二者相比較,測量模型的說法更為準確。測量模型是用若干測量指標測量的變量或構念,可以是一階或多階,在結構方程模型中,一個潛變量就是一個測量模型。因此,凡是用多個指標來測量的構念、變量、維度、因子、高階指標都是一個測量模型,一個評價工具,因而都要評估其測量的信度和效度。例如,在客觀經濟數據中,可能用各種收入、消費、債務指標來表示“財富”,那么,財富就是一個測量模型,因而可以分析,用收入、消費、債務等指標來評價財富的信度和效度如何。
其次,統計上該如何檢驗非問卷數據的信度和效度呢?在信度上,不能用傳統的克隆巴赫a系數,因為這個信度反映的是各個測量指標評分上的一致性,要求所有測量指標的評分尺度一致。例如問卷數據所有題目都是1~5評分或者1~3評分,如果有些題目是1~5,有些是1~4,則不適合用這個信度指標。顯然,很多非問卷數據的評分尺度是不一樣的,例如收入、利潤率,因而不能用a系數來評價,而應該用同質性信度的其他系數來表示,具體的系數可以百度或查閱相關文獻(搜索關鍵詞:“"a系數、內部一致性信度、同質性信度”等)。在效度分析上,傳統的因子分析方法仍然可用,只是缺陷較多,建議用結構方程模型。
總之,非問卷數據只要是涉及多指標評價測量特定變量、因子、維度的問題,都可以進行信度和效度的檢驗分析,只是需要改用其他指標和統計方法。比較流行的方法是基于結構方程模型的潛變量信度、效度檢驗方法。
5.2"以薪酬調查為例詳細論述步驟
薪酬調查的目的是通過了解市場薪酬水平,幫助企業制定有競爭力的薪酬體系。企業通過搜集信息來判斷其他企業所支付的薪酬狀況能夠向實施調查的企業提供市場上的各種相關企業(包括自己的競爭對手)向員工支付的薪酬水平和薪酬結構等方面的信息。實施調查的企業就可以根據調查結果來確定自己當前的薪酬水平相對于競爭對手在勞動力市場上的位置,從而根據自己的戰略定位來調整自己的薪酬水平甚至薪酬結構。具體薪酬調查方法步驟如下。
薪酬調查方法步驟一:準備階段。準備階段是在具體設計薪酬調查問卷上交實施調查之前要做的工作。主要包括以下三方面。一是確定調查的必要性。文章假設的背景是現有的薪酬調查數據難以提供企業所需要的大部分信息,必須按照體系化進行的思路,構建現代化統計調查體系,建立多層次寬領域的綜合體系框架。對于不包含特定專業及領域的統計調查對象來說,文章中所論述的一般方法完全可以滿足要求。二是確定調查的對象及職位。確定調查對象是管理層級還是執行層級,每個層級是否都有代表,并與基本數量保持一定的比例關系,以最大程度代表不同職位不同階層的所有人員??梢酝ㄟ^查看花名冊,登錄調查對象網頁等方式得到該信息。三是選擇所要收集的信息。首先確定把哪些薪酬范圍的情況列入調查的主要方向,從而起到事半功倍的效果。
薪酬調查方法步驟二:實施階段。薪酬調查的實施階段的主要工作是設計調查問卷并實施調查。調查問卷的內容通常包括企業本身一些信息、各種薪酬構成方面的信息、職位方面的信息、任職者的一些信息等。調查問卷的設計應當盡量考慮到被調查者使用方便。從時間的角度看,調查者最好是在與調查參與者初步接觸之后的2~4周內將問卷寄給被調查者,同時根據問卷所調查職位的多少來確定調查問卷的回答時間。在調查的過程中,調查者還可以采用其他方式來收集信息,以彌補問題調查的不足。
薪酬調查方法步驟三:結果分析階段。在調查問卷回收上來以后,調查者首先要做的是對每份調查問卷的信息進行分析、篩選和統計,以此確保數據的有效性。在統計分析過程中,注意統計口徑要統一,數據要準確真實,最好采用計算機技術進行數據分析和處理工作。當統計結果出來以后,就要對統計結果進行分析,繪制出反映市場薪酬水平的薪酬結構圖和本企業的薪酬結構線,并進行比較分析,最后寫出薪酬調查報告,作為企業制定薪酬策略的參考依據。
在進行薪酬調查時在調查對象上需要遵守三個基本原則,以本地區、本行業企業為主,跨地區、跨行業企業為輔;以行業地位大于或等于本企業的企業為主;以企業本發展階段所需要的關鍵性部門與人才為主。
5.3"一種最常見的統計結果分析
如果一個指標受到若干獨立因素共同影響,且每個因素不能產生支配性的影響,不管每個因素本身是什么分布,它們疊加后影響的這個指標平均值就是正態分布。中心極限定理的三要素,影響因素獨立,因素影響程度隨機但無法支配,各個因素之間是相加的關系。直接說概念感覺有點抽象,這里用身高來舉例說明,影響身高的原因有很多,可能是基因,后期的飲食、成長環境、日常活動等,多到都不知道具體有多少,但是每個因素只能影響一部分(沒有某個因素能直接決定身高),而身高就是它們這些因素疊加的結果。這種情況就符合中心極限定理的概念,最后實際情況也是與定理所表達的一致,如果對某個區域做身高的統計,結果就會近似的呈現正態分布。
6"結語
文章緊密結合大數據背景下構建現代化統計調查體系的一些共性問題,在介紹相關概念的基礎上,提出了大數據背景下構建現代化統計調查體系的規律性特點與方式方法,最后對幾個關鍵性問題進行了討論分析。應該看到的是,實際應用過程中需要按照具體問題具體分析的原則,合理確定相應對策。下一步研究重點是針對不同類型的政府組織、企業以及社會機構,如區分直轄市、副省級城市、大中城市及中小城市等,或者不同行業領域的企業,如煤炭企業、鋼鐵企業、電力企業等分別進行研究,并與文章研究結果進行對照。綜合來看,文章立意新穎、觀點突出、研究方法正確,對于在實踐中提升大數據背景下構建現代化統計調查體系的質量效益,具有一定的指導意義。
參考文獻:
[1]賀建風,陳茜儒,劉建平.中國共產黨領導下的政府統計調查體系百年發展回顧與展望[J].統計與信息論壇,2022,37(10):3-15.
[2]陳光慧,劉建平.構建新時代現代化統計調查體系的問題研究[J].統計研究,2018,35(6):11-17.
[3]楊峰.大數據時代政府統計改革研究[D].福州:福建師范大學,2018.
[4]吳建新.加快構建推動高質量發展的現代化統計調查體系[N].中國信息報,2020-12-25(1).
[5]浙江省統計局.數字的魅力[M].杭州:浙江工商大學出版社,2015.
[6]胡萍.立足統計改革創新服務機制——構建新時代現代化統計調查體系研究[J].中國統計,2018(12):7-10.
[7]沈巖,張怡珩,顧海琴.細化統計設計:塑造新時代統計新動能[J].中國統計,2019(4):4-6.
[8]CHO"H"K,PARK"C"H.Contents"and"patent"map"analysis"on"the"internet"sites"for"statistical"information[J].Journal"of"the"Korean"data"and"information"science"sociaty,2006,17(2):411-420.
[9]佐藤"正広.両大戦間期における政府統計の信頼性":"統計編成業務の諸問題とデータの精度について[J].經濟研究,2017,68(1):46-63.
[10]李法偉.西安市城鎮居民體育消費統計指標體系優化研究.Proceedings"of"2017"7th"International"Symposium"on"Knowledge"Acquisition"and"Modeling"(KAM"2017)[C].Berlin:Springer,2017.