顏晨芳 易艷春 謝愛群 李貝涵 尹 納
(衡陽師范學院南岳學院,湖南 衡陽 421002)
信息技術飛速進步中,大數據技術已成為推動社會發展的重要因素,通過其獲取信息的方式越來越多,速度也越來越快,人們對大數據的依賴在不斷地增加,思維方式也隨之在不斷地發生變化。在大數據時代背景下,抽樣調查作為政府統計工作中一種重要的調查方式,雖逐漸顯現出了不足之處,但其在統計工作中依舊起著非常重要的作用,有著無可替代的地位。
抽樣調查是在19世紀從概率論中逐漸發展起來的一項統計調查技術,在我國經歷了漫長的發展變化歷程。20世紀,我國明確要求調查體系要以抽樣調查為主體。政府統計離不開抽樣調查,抽樣調查方法在政府統計工作中已普遍得到運用。從目前狀況來看,抽樣調查方法在政府統計中的地位,已經是政府統計的重要支撐。抽樣調查在政府統計工作中是一種非常重要的統計方法,是當前統計調查信息獲取的最佳方式。
1.1.1 抽樣調查的概念
抽樣調查方法是一種非全面調查方法,指通過從要調查研究對象的總體中隨機選取一部分作為樣本,然后根據所選取的這些樣本開展調查分析,并把調查所得到的信息進行統計分析,進而對總體情況進行估計和推斷的一種調查方式,其基本原理為概率論。實施抽樣調查的大致過程包括確定調查總體、抽樣框的確定和個體編號、選擇調查樣本、調查實施、測算結果、分析統計數據以及結果公布。此外,抽樣調查可以按樣本抽取的隨機性分類,分為概率抽樣和非概率抽樣兩類。其中,概率抽樣中樣本的個體被抽取的概率是相等的,而非概率抽樣中樣本的個體被抽取的概率是不等的。
1.1.2 抽樣調查的優勢
抽樣調查有著嚴密的理論依據,其在世界各國的廣泛應用充分說明了其特殊的應用價值,經過100多年的發展,其科學性已得到證明。我國在1994年2月的全國統計工作會議中決定采用抽樣調查方法和全面調查方法相結合的方式。可知在最初時,抽樣調查方法是作為政府統計調查方法被提出來的,且與全面調查相比,抽樣調查能以最小的成本、最小的數據來獲取所需的信息,有著經濟性、時效性、靈活性等特點,能更節省人力、物力、財力和時間,且若組織得好,其效果完全可以達到與全面調查效果一致。在運用過程中,抽樣調查的優勢得到了充分的肯定,因此其在各種數據調查中被廣泛應用。
隨著數字生活空間的普及,大數據相關信息正呈現爆發式增長,大數據已經成為重要的生產因素。其通過采集大量的相關行為數據,幫助人們找到并了解目標信息,并以此對該目標的內容、形式、特點等進行研究與分析,以達到所需目的。
1.2.1 大數據的概念
“大數據”一詞最早于2008年8月由維克托·邁爾-舍恩伯格和肯尼斯·庫克耶在《大數據時代》一書中共同提出。大數據指廣泛的信息資源和數據資料。大數據分析指所涉及的數據資料程度廣泛,研究時直接采用所有數據進行統一分析的方法,而不是分類別進行分析。大數據的一大核心就是預測,例如銀行信用貸會根據客戶以前的消費習慣、收入能力去評估其能獲得多少金額的貸款。這些預測之所以可行,就是因為它們建立在大量數據的基礎之上,數據越多,預測越準確[1]。
1.2.2 大數據的特征
在當今信息技術飛速發展的時代,大數據得到了普遍的應用。大數據具有數據規模大、數據類型多樣、數據處理速度快、數據價值密度低的特點。
(1)數據規模大
隨著信息技術的高速發展,數據呈爆炸式增長,數據存儲單位從GB到TB,而大數據最小的單位是PB(1 PB=1 000 TB),甚至有大企業的數據已經達到了EB級別(1 EB=100萬TB),而人們平時常見的單位為KB、MB。由此可見大數據的數據存儲和計算規模之大。
(2)數據類型多樣
數據多樣化指的是大數據處理的數據格式多樣。數據可分為結構化數據和非結構化數據。傳統技術處理的都是結構化數據,即二維表格模型。一串數據粘貼到Excel表格當中,形成明確的行和列,這樣的數據就屬于二維表格模型。而人們日常生活中產生的各種圖片、視頻、音頻、地理位置信息等,沒有明確的行和列,相當于TXT文件,這些數據的載體就是非結構化數據。當今時代數據的來源十分廣泛,并且類型繁多,這就要求對數據的處理能力要達到新的高度。
(3)數據處理速度快
處理速度快、時效性高的特點是大數據與傳統數據庫最顯著的區別。現如今,數據的產生十分迅速,每時每刻都在產生著大量的數據信息,這使得大數據需要及時處理大量的信息,從中選取有用信息,實時分析。例如2018年天貓“雙十一”在2分05秒內交易額超過100億元,數據源源不斷地產生,大數據能基于當前產生的實時銷售紀錄進行計算和分析。
(4)數據價值密度低
互聯網的廣泛應用,使得信息數據無處不在,雖然產生的信息基數大,但其中真正可供利用的信息并不多,即價值密度與數據規模成反比。無用信息占比大導致信息可用率低,即價值密度低。如何提高數據價值密度,讓程序自動提取有價值的信息,是目前大數據時代值得研究的問題[2]。
隨著大數據時代的到來,傳統抽樣調查方法的地位隱隱受到了撼動,同時抽樣調查方法也面臨著新的挑戰和機遇。為了得到更好的統計數據和更科學的結論,可以“取其精華,去其糟粕”,結合大數據和傳統抽樣調查方法的優點,使它們相互融合和創新,以鞏固抽樣調查在政府統計中的地位,從而推動我國政府統計工作的發展進步。
1.3.1 大數據為抽樣調查提供了更多的數據收集途徑
大數據時代數據的收集不再局限于傳統的模式,而是增加了更多的數據收集途徑,比如對于一些傳統模式中無法提取的數據,運用大數據技術能更好地對數據進行提取。在大數據時代,數據采集可以依靠互聯網、手機和數字化行政商業記錄等多種途徑更好地獲取想要的數據信息,現場數據采集的調查模式也可能會逐漸被超市收銀系統、銀行轉賬支付記錄、在線支付賬戶等多種途徑所代替。大數據為抽樣調查的數據收集提供了極大的便利,節省了大量的人力、物力和財力,同時也極大程度地節省了時間。
1.3.2 大數據為抽樣框及時更新和維護提供了方便的條件
在傳統條件的限制下,抽樣調查方法面臨的最大困擾就是抽樣框架不夠完善。傳統的抽樣框更新和維護需要的成本高、時效性差,且存在較多缺點,而在大數據時代下,可運用大數據技術對信息的實時變化進行有效收集和整理,從而對抽樣調查中的抽樣框進行更新和維護。這種將一些數據轉化為有效數據信息的方法,不僅能降低抽樣框更新和維護的成本,而且還提高了抽樣調查的時效性。
1.3.3 抽樣調查可作為彌補大數據無法進行因果推斷的有效方法
大數據重視相關性而忽略了因果關系,并且其自身無法推斷出哪一種相關性是有意義的,哪些是無意義的,大數據所擁有的大量數據會使聚類過程變得困難,而抽樣調查方法可以極大地彌補大數據的不足。抽樣調查可作為挖掘和探測數據因果關系的工具,從雜亂無章的大數據中探尋數據間的規律和關系,然后選擇具有代表性的樣本對大數據進行深層次的分析。
1.3.4 抽樣調查可以作為大數據分析比較和驗證的基礎
大數據的結果是從大量且混亂的信息中獲得的,抽樣調查可以用作比較和驗證大數據分析結果是否可靠的工具。抽樣調查在研究數據質量、判斷數據結果可靠性、探索數據關系等方面效果顯著。抽樣調查可以有效驗證大數據推理結論的可靠性,從而及時發現問題、分析問題和解決問題,以避免大數據中出現錯誤推斷結論造成的不利影響[3]。
早在1994年,我國明確要求建立以抽樣調查為主體的新型統計調查體系,提出抽樣調查與綜合調查相結合的調查方法。之后我國又有相關法律法規規定,統計調查應以定期普查為基礎,以定期抽樣調查為主體,結合相關統計報告、數據分析等次要方式來收集和整合常規統計數據。隨著我國經濟的快速發展和科技的改革開放,抽樣調查在更多領域得到廣泛應用,在我國法律形式和應用層面上,其地位得到了充分的肯定。抽樣調查在政府統計工作中的地位體現在以下幾個方面:(1)抽樣調查方法將是未來一段時間內我國政府統計工作中的主要調查方法;(2)抽樣調查方法將全面滲透到各個信息計算領域和生產環節;(3)抽樣調查方法將得到政府、企業、個人等統計系統的廣泛推廣;(4)在每次統計工作中都將以抽樣調查方法與其他不同調查方法相結合的方式進行[4-5]。
在統計工作中,有著多種調查方法,但現階段,統計工作受到多種因素的影響和制約。面對這種情形,抽樣調查就成為主體的調查方式。同時由于其應用范圍廣泛,在一定層面上,恰好說明了它的主體地位的必然性。
2.2.1 客觀條件的限制因素
在當前市場經濟背景和大數據時代下,想要開展各種統計工作的目的和條件受到的限制非常大,因此只能將抽樣調查方法作為主要方法。抽樣調查方法在一定程度上大大避免了人力、物力和財力的浪費,并且提高了調查信息的時效性,抽樣調查方法適用范圍廣,可用于各個領域和各種情況的調查,因此抽樣調查自然成為首選的調查方法。
2.2.2 抽樣調查因果推斷的無可替代性
大數據更重視相關關系而忽視了因果關系。《大數據時代》這本書的觀點指出,數據關系是一種相關關系而不是因果關系,它知道是什么,不需要知道為什么,得出的結論往往存在一定的問題。此外,大數據所擁有的大量數據會使聚類過程變得困難,而抽樣調查方法可以彌補大數據的不足,是進行數據間因果關系分析的有效方法,因此抽樣調查方法的因果推斷能力是其他方法無法替代的。
抽樣調查被廣泛應用于政府在農業、工業、生物、金融、物理、教育等多個領域的統計工作,究其原因,主要在于抽樣調查具有明顯的實用性、科學性和經濟性等,在政府統計工作中起著非常重要的作用。
在大數據時代,政府統計部門可以快速、高效地獲取數據,減少統計工作中抽樣調查的數據獲取和處理時間。政府統計工作中抽樣調查所要調查的個體單位只占總體單位的一小部分,所有獲得的資料和數據等都可以進行快速匯總和分析,同時也方便政府調查統計人員按時、快速地獲取調查結果。特別是在某些緊急時刻,需要有關數據信息時,抽樣調查可以快速獲取,此時抽樣調查顯得尤為重要,這也正是抽樣調查的高效性和重要性的體現。
政府統計中的全面調查往往要對調查對象中的所有個體進行調查,耗費的物力、人力和財力非常大,抽樣調查則往往省去了全面調查中對個體逐一進行分析和計算的煩瑣環節。因此,抽樣調查相對于全面調查更節省物力、人力和財力,更進一步提升了數據處理的效率,能夠節省出更多的時間。
政府統計部門進行抽樣調查時,在抽樣調查的樣本數較少的情況下,參與調查總結的工作人員也就較少,而這一部分人員均受過高度嚴格的訓練,因而出現登記操作失誤的可能性也就較小。在大數據時代下,數據經過層層記錄,并且能毫無保留地呈現,因此可有效提高調查的質量和效果。例如,在調查消費者的滿意度時,需要對所有消費者逐一了解、登記,在這一過程中,不僅會消耗大量人力、物力、財力,還有可能會使本來滿意的消費者產生煩躁心情反而轉變為不滿意的情況出現,這樣的情況會對調查數據的真實性造成一定的影響。而若采用抽樣調查方法,將調查問卷放置在醒目的位置,由部分感興趣有意向填的顧客自愿進行問卷的填寫,這不僅能節省時間,而且更能保證數據的準確性,以達到更好的改進目的,最終提高消費者的滿意度[6]。
由于抽樣調查具有實驗無破壞性的特點,所以在政府的日常統計工作中,測量或試驗某些事件時,對其調查對象本身具有巨大的破壞性的情況下,往往采用抽樣調查的方法以減少對樣本的破壞。例如,政府進行森林資源調查時,需要調查的因素非常多,且數據量龐大,然而在實際調查中,由于某些樣本所處的地理位置復雜,政府調查人員不能或者難以進入,導致收集到的數據不夠全面、完整。不僅如此,在收集某些森林資源時,還可能對生態平衡造成不可逆的傷害和影響。因此在這種情況下,一般采取抽樣調查方法進行數據的收集和分析。
在政府統計工作的某些事件的調查中,由于調查對象或者調查因素的限制,必須通過受過高度嚴格訓練的工作人員或者專用的設備來獲取所需的數據,而這種受過高度嚴格訓練的人才或者專用的設備在數量上是有限的,因而基于抽樣調查具有難度小的特點,一般采用抽樣調查方法,能夠大大縮減人才和設備的消耗。
大數據時代對各行各業的人員都提出了更高要求的職業素質,特別是統計人員。很多政府統計人員不是統計相關專業畢業的,甚至有些人不懂統計知識,也不懂計算機軟件,因此必須加強對統計人員的培訓,提高其統計軟件應用能力,使其掌握對大數據進行搜集、篩選、整理和分析的方法,經常性進行統計大數據專項培訓。同時,政府統計部門還要大力引進更多的大數據發掘、整理、加工和分析人才。當下,青年干部在這方面相對于年長的干部來講,有著更強大的能力和技巧,對計算機的操作也更加熟練,可以利用其優勢所在,由青年一代對這方面進行技術的指導與主導,形成由青年一代帶領突破現代技術應用,上級領導來把控的一種陣型[7]。
在大數據時代,很多的數據可以利用現代計算機技術,通過支付記錄、通信記錄、行程記錄、行政記錄等多種渠道獲取,并可以利用統計學的相關知識,對數據進行分析和處理。這樣大大地增加了數據信息獲取和收集的渠道,改變了政府統計部門的工作形式,從而降低數據調查過程中的成本,并提高調查工作的效率和質量,還可以避免人為的誤差和影響,同時提高調查數據的可信度。相對于傳統的政府統計調查數據獲取方式,大數據的操作更簡單和便捷,數據獲取也更方便且準確。目前大數據技術被廣泛應用,政府統計部門的工作人員應調整工作方式和方法,改變數據收集的方式,將大數據技術融入政府統計工作,為數據的收集提供更多的渠道,幫助統計工作人員進行數據的采集。
現有的SPSS、SAS、STATA等統計軟件,主要是用來提升數據處理效率的,但若要結合大數據技術進行應用,其在技術方面還有所不足,比如在存儲和傳輸方面,還需要進一步提升,且又因為這些軟件的操作都比較復雜,要想在基層進行推廣和使用是比較困難的。就當前情況來說,如果能在這些統計軟件的基礎上,簡化操作步驟,并增強對數據的存儲和傳輸功能,開發出一種功能更全面的統計軟件,這樣,這個統計軟件可以說是一個數據的存儲和處理中心,也就是所謂的數據中心,能夠達到大數據在統計工作的統計軟件中運用的目的,從而提高數據統計、傳輸、分析和處理的效率[8]。
抽樣調查的科學性強,能減少對樣本的破壞,并且其應用范圍廣,適用于各個領域和各種問題的調查,同時還可作為彌補大數據無法進行因果推斷的有效手段,因此抽樣調查成為我國政府統計調查工作中的首選調查方法,并在我國政府統計中依舊起著非常重要的作用,有著無可代替的地位。在當今的大數據時代下,要努力抓住調查工作發展的機遇,通過與現代技術的有效結合,使抽樣調查方法的效率更高、數據更準確、成本更低,為我國政府統計工作的進步提供更多的可能和更有力的支持。