何 濤,魏國紅
(赤峰學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,內(nèi)蒙古 赤峰 024000)
隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,進(jìn)入信息時(shí)代以后,人們?cè)絹碓揭蕾嚧罅康男畔ⅲ@取真實(shí)有效的數(shù)據(jù)難度也逐漸增大。因此,采用抽樣調(diào)查獲取數(shù)據(jù)的信息得到了廣泛的重視。在我國經(jīng)濟(jì)統(tǒng)計(jì)工作中,分層抽樣由于具有較強(qiáng)的科學(xué)性,成為調(diào)查方式的首選,得到廣泛采用。分層抽樣調(diào)查中充分利用輔助信息,能夠節(jié)省財(cái)力、物力和人力,同時(shí)也有助于調(diào)查結(jié)果精度的提升[1]。所以,對(duì)分層抽樣中輔助信息減少降低成本、提升精度的研究十分必要。1 相關(guān)概念闡述
抽樣調(diào)查中的輔助信息作為可利用的樣本信息,是調(diào)查過程中獲取的指標(biāo)或者調(diào)查前確定的已知信息,具有代表性的輔助信息能夠積極地促進(jìn)估計(jì)量的精度提升。本文的輔助信息是指輔助變量帶來的信息,而這些輔助變量包括剔除目標(biāo)變量以外的其他所有變量。
在抽樣調(diào)查中,將總體單位按照一定的依據(jù)進(jìn)行劃分為獨(dú)立的類型,形成若干層次之后,采用隨機(jī)方式抽取樣本,這種方法也被稱作類型抽樣法。分層抽樣法適用于單位較多、差異較大的抽樣過程。與簡(jiǎn)單隨機(jī)抽樣相比,由于分層抽樣具有潛在的統(tǒng)計(jì)效果,所以在調(diào)查過程中被廣泛采用。
本次研究選取的實(shí)證案例為包頭市青山區(qū)2018年交通運(yùn)輸業(yè)專項(xiàng)調(diào)查中公路運(yùn)輸量小樣本。在這次調(diào)查的范圍中,貨運(yùn)車輛主要是依法營(yíng)運(yùn)的車輛,其中不包括消防車、用作公路養(yǎng)護(hù)的車、駕校學(xué)校的車輛;調(diào)查內(nèi)容涵蓋了車輛的類型基本信息、行駛里程、運(yùn)輸里程等。調(diào)查采用了抽樣調(diào)查法,通過訪問進(jìn)行調(diào)查。樣本采用了分層等距抽樣方法,按照“省—市—車輛類型—車輛噸位”的順序進(jìn)行。車輛信息庫中基本信息,包括車輛號(hào)牌、顏色、日常管理機(jī)構(gòu)行政區(qū)劃等,這些輔助信息能夠?qū)\(yùn)輸量抽樣調(diào)查產(chǎn)生作用。本次研究從中選取了管理機(jī)構(gòu)行政區(qū)劃、燃料類型、經(jīng)營(yíng)業(yè)主類型等,如表1和表2所示。

表1 車輛分類和基本層編碼

表2 車輛相關(guān)信息
對(duì)這次包頭市青山區(qū)載貨汽車抽樣調(diào)查中的定性輔助性信息進(jìn)行了可用性驗(yàn)證,按照車型及噸位劃分為7層,并進(jìn)行顯著性差異分析,正態(tài)性檢驗(yàn)如表3所示。

表3 正態(tài)性檢驗(yàn)
通過表3中的數(shù)據(jù)可以得知,P值<0.05的有掛車、2-4噸貨車以及20噸以上貨車,這三層不服從正態(tài)分配。
采用非參數(shù)檢驗(yàn)對(duì)不滿足方差分析的進(jìn)行顯著性差異分析,結(jié)果如表4所示。

表4 檢驗(yàn)統(tǒng)計(jì)量
計(jì)算數(shù)據(jù)可得,P值=0.034<0.05,貨車的運(yùn)輸量與車型噸位呈現(xiàn)顯著性差異。這也表明,在進(jìn)行抽樣調(diào)查時(shí)按照車型與噸位劃分,具有統(tǒng)計(jì)意義和可行性。
總體車輛有較大差異時(shí),簡(jiǎn)單隨機(jī)抽樣會(huì)有較大的誤差產(chǎn)生。依據(jù)車型與噸位劃分基本層,能夠使總體方差變小,確保抽樣精度的提升。科學(xué)地利用輔助信息分層,以較小的車輛抽取代表總體車輛特征,從而減少了工作量,降低了抽樣調(diào)查的成本費(fèi)用。
抽樣方案設(shè)計(jì)要確保實(shí)施簡(jiǎn)便有效,不等概率抽樣和等概率抽樣相對(duì)其他抽樣方式較為常用。等概率抽樣操作相對(duì)簡(jiǎn)單,但估計(jì)量的精度不夠準(zhǔn)確。而在不等概率抽樣中劃分大層時(shí),利用輔助信息,能夠使分層更為合理,從而提升了估計(jì)數(shù)值的精度。在包頭市青山區(qū)這次公路運(yùn)輸量抽樣調(diào)查中,將輔助信息應(yīng)用到分層抽樣方案設(shè)計(jì)中,主要應(yīng)該考慮分層標(biāo)志、分層界限、分層層數(shù)以及分層樣本量分配,以確保充分發(fā)揮輔助信息的作用和優(yōu)勢(shì)。
2.2.1 利用定量輔助信息確定分層界限
在包頭市青山區(qū)專項(xiàng)調(diào)查中,利用車輛噸位的輔助信息,對(duì)其他載貨汽車確定分層界限。

表5 包頭市青山區(qū)專項(xiàng)調(diào)查其他載貨汽車分層
通過累計(jì)公式法,確定各層的分層界限。假定分為五層,根據(jù)上表中的數(shù)據(jù)得到:
k=-87.69,H=5,Ah=K/H=87.69/5=17.54, 由此,各層界限確定為 25.86、35.08、52.62、70.16。 由上表可以得到第一層噸位(0,2];第二層噸位(2,4];第三層噸位(4,6];第四層噸位(10,16];第五層噸位(16,∞)。充分利用輔助信息來確定科學(xué)合理分層界限,能夠減少抽樣調(diào)查的工作量和調(diào)查成本支出,且保證抽樣調(diào)查的數(shù)據(jù)更為精準(zhǔn)[2]。
3.2.2 利用輔助信息確定樣本量分層分配[3]
包頭市青山區(qū)專項(xiàng)調(diào)查中,分配樣本采用比例分配。在每個(gè)基本層中用到的輔助信息單位數(shù)為Nh。以計(jì)算貨車樣本分配量為例,剔除青山區(qū)沒有的輪胎式拖拉機(jī)、其他貨車和集裝箱車輛,其他載貨汽車的分層如表6所示。

表6 包頭市青山區(qū)結(jié)果展示
由于基本層的樣本量要確保估算精度,就要達(dá)到一定要求[4]。基本層車輛總數(shù)在10輛及以上、小于10輛時(shí),樣本分別不能少于5輛和7輛。為此對(duì)基本層樣本量進(jìn)行修正,如表7所示。

表7 包頭市青山區(qū)樣本分配量
通過以上分析,利用輔助信息將抽樣樣本分發(fā)到基本層,能夠以較低抽樣方差減少對(duì)估計(jì)量的影響,確保最終得到估計(jì)量的準(zhǔn)確度,減少抽樣費(fèi)用。
在抽樣調(diào)查作業(yè)現(xiàn)場(chǎng)時(shí),常常會(huì)遇到輔助信息無回答和樣本替換,借助于輔助信息,能夠較好地解決這些問題。以這次包頭市青山區(qū)專項(xiàng)交通運(yùn)輸業(yè)經(jīng)濟(jì)普查中的公路水路運(yùn)輸量小樣本為實(shí)例,分析利用輔助信息解決抽樣調(diào)查現(xiàn)場(chǎng)的問題。
2.3.1 無答案的問題可以通過輔助信息來解決
無回答這一主要問題往往會(huì)較大地影響估算總體參數(shù),會(huì)造成估算估計(jì)量的偏差。直接或間接利用輔助信息,通過插補(bǔ)信息,能夠解決無回答問題。使用插補(bǔ)法能夠確保數(shù)據(jù)集的完整構(gòu)造,降低數(shù)據(jù)缺失而引起的估計(jì)量偏差。青山區(qū)2020年交通運(yùn)輸專項(xiàng)普查中公路運(yùn)輸量的調(diào)查無回答,主要是因?yàn)檐囍鞑磺宄陨碥囕v信息。在這種情況下,采用熱卡插補(bǔ)能夠使運(yùn)輸量信息獲取更為完整,利用已回答的數(shù)據(jù)代替無回答的車輛。考慮運(yùn)輸貨物類型不同,造成同一層車輛運(yùn)輸量的差異,此時(shí)利用運(yùn)輸貨物類型這一輔助信息,對(duì)調(diào)查數(shù)據(jù)進(jìn)行完善估計(jì)總體總值,可以避免數(shù)據(jù)精度的降低。
2.3.2 利用輔助信息進(jìn)行樣本替換
在公路運(yùn)輸量抽樣調(diào)查中,樣本替換主要是針對(duì)所有信息都無法獲取的情況。如何使替換后的運(yùn)輸信息與替換前的差異減小,降低對(duì)抽樣精度的影響,次時(shí)利用輔助信息找到更相似的車輛就極為重要。在包頭市青山區(qū)的運(yùn)輸量普查中,可以將車輛的基本信息作為輔助信息。在選取替換樣本時(shí),由于原始樣本能夠獲取噸位、車型、行政區(qū)域等信息,所以,首先在第一階段可以選取屬于相同行政區(qū)域的車輛。然后,在基本層中將車型結(jié)構(gòu)作為重要的輔助信息依據(jù),來選取替換樣本范圍。之后,依據(jù)噸位這一輔助信息選取目標(biāo)樣本。最后,采取隨機(jī)抽樣等方法,替換樣本車輛。
通過以上分析,在調(diào)查作業(yè)中充分利用輔助信息解決無回答和樣本替換,有助于節(jié)省調(diào)查成本,最大限度地減少因此對(duì)數(shù)據(jù)精度產(chǎn)生的影響。
改進(jìn)抽樣估計(jì)量,能夠借助輔助信息來實(shí)現(xiàn),從而提升抽樣調(diào)精度,這也是一個(gè)改善精度的重要方法。采用這種方法需要新的估計(jì)模型構(gòu)建,在新的估計(jì)模型中加入輔助信息,充分利用這些輔助信息的優(yōu)勢(shì),使抽樣估計(jì)精度得到提升。
輔助信息在抽樣估計(jì)量構(gòu)造中的應(yīng)用,以包頭市青山區(qū)專項(xiàng)的交通運(yùn)輸業(yè)經(jīng)濟(jì)普查中貨運(yùn)汽車為例,分析比較簡(jiǎn)單分層抽樣以及采用分別回歸估計(jì)得到的數(shù)據(jù)[5]。在包頭市青山區(qū)此次專項(xiàng)普查中,該城區(qū)沒有輪胎式拖拉機(jī)、其他類型的貨車以及集裝箱車輛。所以,將上述三個(gè)類型車輛剔除后,把貨車按照噸位和車型劃分為8層。通過分層抽樣得到的估計(jì)量數(shù)據(jù)如表8所示。

表8 包頭市青山區(qū)貨運(yùn)量分層抽樣相關(guān)數(shù)據(jù)


建立回歸模型,運(yùn)用車輛噸位、車輛構(gòu)造輔助信息,對(duì)包頭市青山區(qū)貨物運(yùn)輸量進(jìn)行估算,詳細(xì)情況及相關(guān)數(shù)據(jù)如表9所示。

表9 包頭市青山區(qū)貨運(yùn)量線性回歸估計(jì)相關(guān)數(shù)據(jù)

在包頭市青山區(qū)運(yùn)輸業(yè)抽樣調(diào)查時(shí),規(guī)定了數(shù)據(jù)的誤差范圍,抽樣調(diào)查的數(shù)據(jù)在范圍之內(nèi)的都可以使用。這次專項(xiàng)普查的允許誤差范圍設(shè)置為相對(duì)允許誤差γ≤0.1。

對(duì)以上估算方法的運(yùn)算得到的誤差0.074,符合這次普查的誤差允許要求。
通過以上分析發(fā)現(xiàn),對(duì)包頭市青山區(qū)貨物運(yùn)輸量的估算,采用分層抽樣和分別聯(lián)合回歸[6]得到的運(yùn)輸量估計(jì)數(shù)值分別為187.62噸和191.61噸。兩種方法得到的估計(jì)量都在這次普查規(guī)定的允許范圍之內(nèi)。分層抽樣的標(biāo)準(zhǔn)差與回歸估計(jì)的標(biāo)準(zhǔn)差分別為10.528噸和7.344噸。所以,通過聯(lián)合回歸估計(jì)有著估計(jì)精度更高的效果。證明了在抽樣調(diào)查中,利用符合條件的輔助信息,能有效地改善數(shù)據(jù)精度,從而節(jié)省抽樣的成本與費(fèi)用。
同時(shí),為了更為準(zhǔn)確地比較精度,將其和簡(jiǎn)單隨機(jī)抽樣做比較。本次調(diào)查中涉及的車型有牽引車、罐車、掛車以及其他載貨車輛,個(gè)體之間差異較大;在簡(jiǎn)單的隨機(jī)抽樣中,每一個(gè)人都同樣有可能被抽取。由于此次調(diào)查總量過大,調(diào)查對(duì)象并非有規(guī)律可循,所以很容易造成抽樣結(jié)果不公平。如果進(jìn)行簡(jiǎn)單隨機(jī)抽樣,那么得到的結(jié)果相對(duì)分層抽樣缺乏準(zhǔn)確性。眾所周知,分層抽樣可以根據(jù)調(diào)查的比例來劃分層次,得到的調(diào)查結(jié)果更加具有針對(duì)性,并且通過輔助信息改善估計(jì)量更能增強(qiáng)結(jié)果的可信度。由此分析可得,在同一個(gè)調(diào)查中,利用分層抽樣和分別回歸估計(jì)比簡(jiǎn)單隨機(jī)抽樣得出的精度更高,更具有參考價(jià)值。
在調(diào)查過程中科學(xué)合理地利用輔助信息,在提升抽樣設(shè)計(jì)的精度方面有著不可或缺的作用,同時(shí)輔助信息的應(yīng)用還能夠節(jié)約調(diào)查成本,時(shí)效性較高,相對(duì)其他調(diào)查效率較高。對(duì)充分發(fā)揮輔助信息提升評(píng)估精度,降低抽樣成本的作用提出建議。
通過加強(qiáng)法規(guī)制度建設(shè),確保在調(diào)查實(shí)踐中有法律法規(guī)依據(jù),促進(jìn)調(diào)查工作的開展,保證調(diào)查的真實(shí)性,提升查詢質(zhì)量,這樣得到的結(jié)果更具有說服力,貼近人們生活選取的真實(shí)數(shù)據(jù)相比虛擬的數(shù)據(jù)更可靠。同時(shí)也要加強(qiáng)調(diào)查人員的專業(yè)技術(shù)培訓(xùn),針對(duì)如何獲取數(shù)據(jù),怎樣進(jìn)行數(shù)據(jù)保存,數(shù)據(jù)的分類存儲(chǔ)以及如何分區(qū)調(diào)查等方面。這些基本而又必不可少的技能在調(diào)查中發(fā)揮了重要的作用,是調(diào)查的保障。抽樣數(shù)據(jù)的獲取是最為重要的環(huán)節(jié),在調(diào)查中我們不能僅僅調(diào)查某一種類的數(shù)據(jù)或者某一特定地點(diǎn)的數(shù)據(jù),要多方探討進(jìn)行比對(duì),最終得出具有代表性的數(shù)據(jù)。因此在調(diào)查過程中,調(diào)查人員的專業(yè)水平起到?jīng)Q定性作用。只有調(diào)查人員專業(yè)素質(zhì)較高,才能確保真實(shí)準(zhǔn)確地獲取調(diào)查數(shù)據(jù),奠定抽樣精度提升的保障。
在調(diào)查中合理運(yùn)用輔助信息,產(chǎn)生了良好的查詢效果,那么建立應(yīng)用模型、確定方法體系便是不可缺少的步驟。輔助信息在調(diào)查中的作用相當(dāng)于理論創(chuàng)新,建立在基礎(chǔ)概念體系上,通過參考前人的文獻(xiàn)資料,在調(diào)查過程中明確哪種輔助對(duì)調(diào)查有所幫助,一定要及時(shí)建立其應(yīng)用模型,之后通過模型的各大模塊、標(biāo)記的功能、實(shí)現(xiàn)步驟進(jìn)行統(tǒng)計(jì)分析,在極大程度上提升了研究速度;整個(gè)調(diào)查根據(jù)完備的方法體系不再毫無頭緒,使研究分步實(shí)現(xiàn),條理清晰有邏輯,即使有哪一步出現(xiàn)問題需要更改,亦可快速地做出修正。
分層抽樣調(diào)查中的大部分的輔助信息,重要的獲取渠道是完善的數(shù)據(jù)庫。所以,要適應(yīng)經(jīng)濟(jì)發(fā)展的需求,充分借助信息化手段來健全和完善數(shù)據(jù)庫的智能化建設(shè),從而為抽樣調(diào)查提供可靠的數(shù)據(jù)來源。數(shù)據(jù)庫技術(shù)對(duì)于信息的處理與存儲(chǔ)有著重要的作用,而數(shù)據(jù)庫的設(shè)計(jì)理念是在一個(gè)確定的數(shù)據(jù)環(huán)境中,創(chuàng)建一個(gè)相對(duì)最有效的數(shù)據(jù)庫,對(duì)用戶各方面的要求做出快速的處理。因此想要構(gòu)建一個(gè)完善的數(shù)據(jù)庫,單單用人工收集和整理往往是效果緩慢、浪費(fèi)時(shí)間的;可以采用人工與設(shè)備結(jié)合的方法,發(fā)揮兩者采集數(shù)據(jù)的各自優(yōu)勢(shì),人工收集數(shù)據(jù),設(shè)備進(jìn)行整理存檔,在保證數(shù)據(jù)真實(shí)有效的前提下可快速高效的保存。同時(shí),要及時(shí)更新數(shù)據(jù),確保數(shù)據(jù)的動(dòng)態(tài)管理與運(yùn)行,確保抽樣調(diào)查使用數(shù)據(jù)庫時(shí),數(shù)據(jù)真實(shí)準(zhǔn)確。
在調(diào)查中使用輔助信息是探討輔助信息對(duì)抽樣調(diào)查有何效果,因此在各項(xiàng)調(diào)查中合理運(yùn)用、開發(fā)輔助信息是必要的,同時(shí)要收集佐證資料,要充分利用業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)。另外,推動(dòng)多層次的應(yīng)用輔助信息,根據(jù)調(diào)查的不同選擇有效的輔助信息提升效率,而不是一味地根據(jù)某一輔助信息進(jìn)行多次篩選,一定要學(xué)會(huì)變通。在抽樣調(diào)查過程中,在設(shè)計(jì)、現(xiàn)場(chǎng)作業(yè)以及估計(jì)量構(gòu)造等環(huán)節(jié)均可加強(qiáng)應(yīng)用輔助信息。充分地發(fā)揮輔助信息在分層抽樣中,改善查詢精度,降低調(diào)查成本的優(yōu)勢(shì)和作用。
抽樣調(diào)查作為獲取信息的重要手段,被廣泛應(yīng)用在各個(gè)領(lǐng)域。由于輔助信息容易獲取,來源多樣,同時(shí)具有很強(qiáng)的參考性。因此在抽樣調(diào)查過程中,充分利用輔助信息,能夠節(jié)省費(fèi)用支出,獲取較高評(píng)估精度,為抽樣調(diào)查的效果起到重要的作用。
在實(shí)際的調(diào)查中,輔助信息的利用能加強(qiáng)調(diào)查的力度,涉及較大范圍的查詢時(shí)也可通過不同的輔助信息進(jìn)行實(shí)例分析,得到真實(shí)有效的結(jié)果,充分地發(fā)揮輔助信息的優(yōu)勢(shì),極大程度地提升了調(diào)查的準(zhǔn)確性。縮減調(diào)查時(shí)間的同時(shí)保證其結(jié)果的可靠性,這種兩全的方案是傳統(tǒng)的調(diào)查手段不能相比的。因此,在日常抽樣調(diào)查中,輔助信息的作用是至關(guān)重要的。學(xué)會(huì)使用輔助信息能夠極大地提升調(diào)查效率,亦具有精度保障。
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2022年8期