馬詠梅
摘要:在經濟社會調查中,對空間的相關性應用較為廣泛,傳統的抽樣設計已經跟不上時代的發展。隨著時代衍生出來的空間平衡抽樣設計方案,對總體單元的空間信息考慮相對全面。文章主要通過分析經濟社會調查中的空間相關性和空間平衡抽樣設計的概念,進而研究經濟社會調查中的空間平衡抽樣設計方法。
關鍵詞:經濟社會調查;空間平衡;抽樣設計
一、經濟社會調查中的空間相關性
經濟社會調查中所需要研究的對象分布較為離散,雖然他們在一定空間內也會相似,產生相關性,但是這種空間相關性會對抽樣設計產生一些影響:空間相關性的出現打破了傳統抽樣方法中總體的每個單元是相互獨立的假設前提;如果空間中的許多相似單元進入樣本中,效率樣本空間,導致樣本信息出現大面積的重復,從而降低樣本的代表性,產生估計結果偏差。所以,在抽樣調查中,應該在抽樣設計過程中分析總體單元的空間信息,重視總體單元空間屬性對抽樣產生的影響。經濟社會調查中的相關性所表現出來的是局部空間中的部分總體特征,說明了總體空間中各單元存在一定程度的聯系。
二、空間平衡抽樣設計
社會經濟調查中,空間平衡抽樣設計具有一定的優勢,能夠提前分析單元所在的空間位置,在抽取樣本的時候,同一時間段內,盡量抽取到彼此相關性較弱所隔距離較遠的單元,從而避免樣本信息重復,達到樣本均勻分布的目的。為實現這一設計,設計空間平衡的方法如下所述。
1. 構造抽樣框。基本的抽樣框應具備總體單元的經緯度坐標信息,作為設計空間平衡的輔助信息,單元的經緯度可以通過電腦端網絡地圖軟件、網絡在線預覽地圖軟件和專門的手機地圖APP來獲取。
2. 設定初始包含概率。采用等概率方法或者不等概率方法設計總體單元的初始包含概率。
3. 采用空間平衡抽樣算法選取樣本。空間平衡抽樣算法主要包括空間相關泊松抽樣,局部樞軸法和空間雙重平衡抽樣三種。
空間平衡抽樣算法把設定的包含概率進而發展成入樣指示變量,根據總體單元的經緯度計算出各單元之間的空間距離,充分利用樣本空間的輔助信息。空間相關泊松抽樣算法N次逐一地訪問總體單元,每一步的更新都取決于上一步包含概率更新的結果,如果一個單元成功入樣了,將會推動空間上和它相鄰單元的包含概率的更新,相鄰單元的包含概率將會變得高度負相關,并且這種算法主要在計算權重的過程中應用空間輔助信息。
局部樞軸法簡稱LPM,主要分為LPM1和LPM2兩種,LPM1首先進行隨機抽樣,選取樣本,然后根據空間輔助信息計算出空間中單元之間的距離,選出離得最近的兩個單元,然后對這兩個單元的進行包含概率的更新,理論上的運算次數超不過冪的三次方。LPM2首先也是進行隨機抽樣,但是對于兩個單元之間的距離不做過多要求,而是利用樞軸法直接進行兩個單元的包含概率的更新,所以其運算的次數不超過冪的二次方,雖然LPM2的空間平衡性相對較差,但是所耗費的時間和做運算次數卻低于LPM1;空間雙重平衡抽樣簡稱DBSS,又叫做局部立體算法,這個算法主要是重復抽取總體空間里的子集,在所抽取的子集中抽取空間平衡樣本,對于算法中所涉及到的重復計算,首先需要在一個全新的集合中隨機抽取一個單元,將所抽取的單元和它附近的單元組成一個子集,并算出子集的中心點和每個單元與中心點距離的平方和,選出距離平方和最小的單元組成一個新的子集,并重復以上的計算,直到找出整個空間中距離平方和最小的單元為止,并得到最終的空間子集,其次,在所確定的空間子集中,對于平衡方程的構造,需要把經緯度坐標當做一個平衡變量,并利用立方體法中的起飛步進行抽樣,然后不斷重復,直到所剩余的單元樹不足以進行計算為止,然后采用立方體法中的著陸步抽樣選取剩下的單元,空間雙重平衡抽樣算法利用了空間局部計算的方法所獲取的樣本具有空間平衡性。
4. 根據抽樣的結果進行調查。分析調查的實際需求,匯總那些前往實地調研獲取的樣本單元的目標變量或根據查閱資料所獲取的樣本單元的目標變量。
5. 根據所得到的空間平衡樣本,進行一系列的統計和推斷。包含概率更新后變成入樣指示向量,從一定程度上來講,更新包含概率就是選取樣本的過程。對于入樣指示向量的更新,是在空間輔助信息下,隨機的實現初始包含概率。所以,在估計的過程中,使用的是初始設計的包含概率,選取樣本的過程中應用了空間輔助信息,而估計的過程中沒有使用。
三、空間平衡抽樣設計可以有效降低估計量的標準差
在多次重復抽樣過程中,空間平衡抽樣設計的方法可以獲取在空間中均勻分布的樣本,增強了穩定性,確保了所抽取的樣本相對于空間總體具有一定的代表性,使得后續的統計推斷變得更加真實可靠。空間平衡抽樣設計可以利用所計算出來的空間中單元之間的距離,來進行總體單元包含概率的更新,減小那些距離較近的單元同時被抽取的可能,從而確保每次抽取的單元能夠在總體空間中離散的分布,使樣本更具代表性。在空間平衡抽樣中,由于所抽取的樣本在總體空間中都是均勻分布的,而且都是按照比例進行抽取的,所以空間差異較小,可以很大程度的提高樣本的估計效率,減小估計量的相對誤差。
四、對于經濟社會調查中空間平衡抽樣設計方法的探析
1.調查總體界定和總體特征
在經濟社會調查中,需要獲取所要調查對象的實際數據,得出目標變量和輔助變量。將所獲得的輔助變量、空間信息和總體單元名錄編入抽樣框,選取合適的抽樣方法,并將局部空間內的總體單元相似性表現出來,可以通過繪制圖像或圖表的方法更直觀地分析總體單元。
2.設計抽樣方法
對于抽樣框的抽樣可以采取以下三種方法:第一,分層隨機抽樣法。找出分層的標志,并按比例劃分每一層的樣本量,增強估計量的統計性,從而提高所抽取樣本的代表性;第二,簡單隨機抽樣法,雖然簡單隨機抽樣比不上分層隨機抽樣,但是在實證分析中,不妨引入簡單隨機抽樣,參照它進行估計效率的比較;第三,空間平衡抽樣法,在經濟社會調查中,由于空間性較強,可以計算出總體單元的經緯度坐標,將其當做空間的輔助信息,然后利用空間平衡的算法進行單元間距離的計算,進而抽取滿足該調查的空間平衡樣本,但是這類方法的計算量很大,需要借助軟件工具,可以幫助減小計算量,利用軟件優化計算過程,更容易獲取空間平衡樣本,然后對所獲得的樣本進行估計。
3.確定樣本含量
對于不固定的樣本量可以采取等概的抽樣設計法,設定初始包含概率,獲取在目標容量上下波動的樣本。
4.評估方法
在經濟社會調查中,所采用的是傳統的HT估計量進行估計。盡管HT估計量具有無偏性,但是最應該注重的是進行反復多次的抽樣后,所應用的抽樣方法得到的估計結果表現出來的特征,然后對該抽樣方法進行評估。對于經濟社會調查來說,主要采用的評價估計效果的方法是相對均方根誤差。
5.估計結果并討論
(1)估計結果
在經濟社會調查中,采用軟件需要編寫并運行程序,從而達到重復抽樣的目標,估計目標變量和減少計算量。應當采取空間雙重平衡抽樣,因為相對于傳統的抽樣方法來說,這類方法能夠獲得更加精確的估計量,并且對于樣本容量少的情況,空間雙重平衡抽樣具有絕對的優勢。
(2)空間信息對抽樣設計的改進
對于總體單元,當存在空間相關性時,可以通過合理利用空間信息的方式,來改善抽樣設計。空間雙重平衡抽樣算法通過計算出總體中單元間的距離實現對空間信息的利用,并結合平衡變量這個輔助信息,充分發揮二者的作用,提高所抽取的樣本對于總體單元的代表性。
在經濟社會調查中,對于空間抽樣的設計,通過專業地圖軟件獲取總體中各單元的經緯度坐標信息,把它們當做平衡變量,用于局部立方體法中,把它們當做空間輔助信息,用于計算空間距離中。雖然這樣做的估計效率較好,也充分考慮了平衡變量,但是卻沒有太大的改進抽樣設計。所以,最好的方法還是需要把空間輔助信息當做平衡變量用于局部立方體的計算,從而來確保所抽取的樣本能與總體保持一致,利用經緯度坐標完善空間輔助信息,可以確保所抽取的樣本在空間上是均勻分布的,進而達到所抽取樣本是相對平衡的目的。
五、結語
綜上所述,空間平衡抽樣設計結合了空間抽樣設計把經緯度坐標信息當做空間輔助信息的優點和平衡抽樣設計把經緯度坐標信息當做平衡變量的優點,結合空間多種類型的輔助信息,獲取代表性強又相對平衡的樣本,豐富了抽樣調查的理論方法體系,完善了抽樣調查的進展流程。雖然在空間平衡抽樣算法中利用了空間信息,但是在估計的過程中卻沒有利用,多少有些可惜這些空間信息。對于樣本中的總體空間信息,如果進行合理利用,不僅可以改善方差估計量的形式,還可以提高估計效率,獲得更加準確的估計。但是如果樣本單元在空間中的距離很遠,無法集中的展開調查,將會極大地增加調查的人力、物力和財力,導致調查的成本急劇增加。因此,對于社會經濟調查來說,在設計空間平衡抽樣的過程中,應當同時考慮調查成本和樣本代表性,盡量做到二者的統一與平衡,極大程度的減少成本投入。此外,對于空間輔助信息,還有很大的利用空間,可以在調查中加以利用,進一步改進對于估計量的使用。
參考文獻:
[1]郝一煒,金勇進.經濟社會調查中的空間平衡抽樣設計[J].統計與信息論壇,2018,33(11):3-10.
[2]李明陽,張向陽,吳文浩,等.基于GIS的森林資源調查空間平衡抽樣方法研究[J].林業資源管理,2008(04):137-142+150.
[3]李苑菱,陳宗鑄,雷金睿,等.海口市森林資源調查空間平衡抽樣研究[J].林業資源管理,2019(02):47-53.
[4]趙文飛.基于居住-就業視角的南京老城區職住空間研究——以南京市主城區(城中片區)控制性詳細規劃老城單元為例[D].江蘇:東南大學,2018.
[5]李苑菱,陳宗鑄,雷金睿,等.基于GIS海南森林資源調查抽樣方法研究[J].熱帶林業,2019,47(01):38-42.
[6]朱龍騰.建筑中水系統中的水量平衡與能耗分析——以北京市飯店行業為例[D].北京:中國科學院大學,2013.
(作者單位:內蒙古民族大學)