楊飛
(浙江省統計局民生民意調查中心,浙江杭州 310012)
研究探索
移動電話抽樣在CATI調查中的應用與實踐
楊飛
(浙江省統計局民生民意調查中心,浙江杭州310012)
本文在理論和實踐相結合的基礎上,結合2014-2015年多個政府滿意度調查實例,從定性和定量的角度對當前的CATI調查抽樣技術進行較為初步的總結,對移動電話抽樣技術在CATI調查中的實踐與應用做了歸納,并對CATI中存在的誤差問題進行了分析。
移動電話抽樣;CATI;實踐
在政府決策過程中積極開展民意調查工作,傾聽民眾呼聲,吸納民意,積極引導人民群眾參與政府決策和公共服務管理,充分發揮人民群眾在建設中國特色社會主義事業中的主體地位和作用,是當前推進服務型政府建設、不斷改進政務工作的重要途徑;是提高政府決策科學化、民主化程度的重要環節;同時又是提高政府決策透明度和民眾參與度的重要舉措。近年來,隨著居民隱私保護和安全防范意識的增強,入戶調查訪問的配合程度一直呈下降趨勢,特別是城市市區的入戶調查,小區保安制度越來越嚴格,居民樓門禁系統的應用越來越多,居民戶的防范意識越來越強,調查員入戶難度也越來越大,由此帶來了較大的調查樣本分布誤差。面對入戶難問題,各地的統計調查員普遍采用由社區干部或地方工作人員陪同入戶的方法來降低拒訪率,提高入戶成功率。但由此帶來的問題是,對于涉及到地方政績考核的敏感性指標,受訪者由于顧慮到有當地政府工作人員在調查現場,往往不敢作出真實意愿的表達,從而影響到調查結果的可信度。
CATI調查是新興事物,就目前來看,其主要優點是:調查成本低,調查效率高,而且調查全過程由計算機主導,能較好地避免人為因素對調查數據的影響,調查結果客觀公正。但電話調查由于自身的特殊性,存在問題內容不能過于深入、問題數量不宜過多等限制,而且從近年來的調查實踐來看,還面臨拒訪率增加、樣本代表性變差等問題,亟待解決。
當前,大多數CATI調查出于調查樣本定位(通常要求定位到縣一級,移動電話抽樣定位上暫不支持)和調查樣本代表性(通常要求訪問者為本地常住居民回答)的考慮,多僅采用固定電話局號抽樣的方法。近年來,隨著移動電話的快速普及,固定電話普及率一直呈逐年降低趨勢,據國家統計局2016年2月發布的《2015年國民經濟和社會發展統計公報》顯示,2015年末全國電話用戶總數達到153673萬戶,其中移動電話用戶130574萬戶,固定電話用戶23099萬戶,移動電話普及率上升至95.5部/百人,固定電話普及率下降至16.9部/百人。浙江省統計局、國家統計局浙江調查總隊同月發布的《2015年浙江省國民經濟和社會發展統計公報》顯示:2015年末浙江省移動電話用戶7466萬戶,比上年增加95萬戶,移動電話普及率為135.6部/百人;固定電話用戶1500萬戶,減少142萬戶,固定電話普及率27.2部/百人。而近十年的統計數據也顯示:浙江省的固定電話普及率已由2006年的48.0部/百人減少到2015年的27.2部/百人,全國的固定電話普及率由2006年的28.1部/百人減少到2015年的16.9部/百人;另一方面,浙江省的移動電話普及率由2006年的60.5部/百人增加到2015年的135.6部/百人,全國移動電話普及率由2006年的35.3部/百人增加到2015年的95.5部/百人。由此不難看出,固定電話的抽樣人群代表性誤差正逐年增大,當前僅使用固定電話局號抽樣已很難滿足CATI調查發展的需求,在CATI抽樣中引入移動電話抽樣是當前CATI調查的必然趨勢。

圖1 2006-2015年固定電話及移動電話普及率變化情況(部/百人)
(一)CATI調查中常用的抽樣方法
根據CATI調查的特點,抽樣方法既可以是概率抽樣也可以是非概率抽樣,然而在實際操作中,嚴格意義上的概率抽樣幾乎無法進行,所以非概率抽樣一般更具有實踐意義。常用的CATI電話號碼的抽取方式有以下幾種,每種方式的限制條件不同,各有利弊。
1.電話全碼抽樣。電話全碼抽樣又稱電話號碼本抽樣(sampling telephone directory),是把合適的、包括完整的電話名錄作為抽樣框,采用隨機抽樣或系統抽樣的方式隨機抽取電話號碼。采用該抽樣方式,出現所撥號碼為空號、停機、傳真電話等無效號碼的情形比較少。如湖南省統計局聯合本地移動運營商建立了覆蓋全省的移動電話全碼資源;浙江省臺州市統計局聯合臺州電信建立了覆蓋全市全體電信用戶的固定電話全碼資源。采用全碼抽樣方式具有空號率低、執行效率高、樣本代表性好等優點,但需要注意的是,當前固定電話和移動電話的普及率正處于快速變化的階段,如不能及時更新樣本框,則會出現新入網的用戶因未納入樣本框無法被抽取,停機減少的用戶無法在樣本框中被剔除而造成抽樣效率下降等現象。以浙江省為例,《2015年浙江省國民經濟和社會發展統計公報》顯示:2015年底移動電話用戶比上年增加95萬戶,平均每月增加7.9萬戶;而固定電話用戶比2014年底減少142萬戶,平均每月減少11.8萬戶。如果樣本框更新不及時,抽取樣本的代表性和抽樣的執行效率就會受到影響。因此,如果要利用電話全碼進行抽樣,為保證抽樣人群的代表性、科學性,必須及時更新作為抽樣框的電話號碼目錄,如協調相關通信管理部門或運營商,按半年度或年度更新一次。
需要指出,由于中華人民共和國工業和信息化部2013年公布的《電話用戶真實身份信息登記規定》中規定“電信業務經營者及其工作人員對在提供服務過程中登記的用戶真實身份信息應當嚴格保密,不得泄露、篡改或者毀損,不得出售或者非法向他人提供,不得用于提供服務之外的目的。”即便是政府部門出于公益性要求的調查需求,真正能從通信管理部門或者運營商處拿到一個地區完整的電話名錄的情況并不多。因此,實際中很少采用這種方法。
2.固定電話局號隨機抽樣法。目前,我國的固定電話號碼是由區號、局號(四位或三位數字)加后四位數字構成的,如浙江省內的杭州、寧波和溫州等城市,區號為四位0571、0574和0577,這三個市內電話號碼為八位,局號為四位,后四位是局號后數字;另外還有一些城市如浙江的湖州、舟山和麗水,區號分別為0572、0580和0578,這三個市內電話號碼為七位,局號為三位,后四位是局號后數字。就每個地區而言,區號是唯一的、固定的,而局號抽樣框可通過與電信部門聯系或查找有關資料找到,局號后的四位數字則可通過計算機軟件自動隨機生成。這種抽樣方法的隨機性很強,樣本的代表性與實際相對較吻合,在國內外的民意調查實踐中經常被采用。目前全國統計系統普遍采用的就是這種后四位號碼隨機生成的抽樣方法。浙江省統計局民生民意調查中心自2008年開始探索6位電話局號抽樣方法,從全省統計系統基本單位名錄庫中提取6位電話局號作為調查樣本框,并按年度進行更新,目前6位樣本框中全省共有不重復局號段28.86萬條,覆蓋全省11個設區市、90個縣(市、區)。與4位電話局號相比,6位電話局號具有以下特點:(1)定位信息全。目前6位電話局號理論上已可支持定位到社區(村)一級,但定位差錯率還較高,但對于定位街道(鄉鎮)的要求已能較好滿足。(2)定位效率高。監測數據顯示,目前6位電話局號定位縣(市、區)差錯率相對較低,定位準確率更高。(3)空號率低。采用后四位(或兩位)號碼隨機生成的抽樣方法隨機性非常強,不可避免地出現了較高的空號率,但通過CATI系統自帶的智能預撥號和空號過濾系統,可以將系統隨機生成的空號等無效號碼快速過濾,提高執行效率。目前6位電話局號抽樣抽中的空號率相對低些,相應的抽樣執行效率也更高一些。
3.移動電話局號隨機抽樣法。目前移動電話號碼組成是由局號(前七位數字)加后四位數字構成的,通過七位的移動電話局號已可確定號碼歸屬地、運營商名稱等信息,如“1370571”的局號段,定義為杭州市移動通信公司的全球通卡。因此,在配置了全省7位移動電話局號樣本框后,再采用后四位號碼隨機生成的方法也能對移動電話用戶進行CATI抽樣訪問。在移動電話樣本框配置方面,2014年5月,浙江省統計局民生民意調查中心在省通信管理局的大力協助下,建立了包含三大移動運營商(移動、聯通、電信)覆蓋全省11個設區市的移動電話號碼局號段,并按年度進行更新。目前在用的7位樣本框中全省共有局號段16747條,覆蓋全省11個設區市、90個縣(市、區)移動電話用戶。需要特別注意的是,移動電話局號隨機抽樣法與固定電話局號隨機抽樣法相比,目前7位移動電話局號只支持定位到設區市一級,如果需要定位到縣(市、區)或者街道(鄉鎮),必須通過訪問員人工詢問受訪者來進行確定。
需要指出,局號后可排列出來的四位數字并不都是有效電話號碼,通信管理部門或運營商在發放號碼時不會一次把所有電話號碼都分配出去,通常考慮到未來的發展,會預留一定的號碼;另外由于所處地理位置的不同,每個局號下的電話的數目也是不同,如商業區局號下辦公電話多,住宅電話少;而處于居民區的局號,則是住宅電話多,辦公電話少。由于每個局號下所包含的電話數目是不同的,所以不同局號下的電話號碼被抽中的機會不同,比如以135、136、137、138、139等開頭的移動電話局號肯定比147、157、177、187開頭的局號所包含的有效號碼要多。因此,為保證抽樣樣本近似于自加權樣本,理論上此階段要事后加權,事后加權系數等于每個局號下電話數目占全部電話號碼數目的比例,但實際上這個數據沒有辦法得到,只能利用撥打電話時獲得的有關記錄(如每個局號下有人接聽電話的比例)去估計,并在今后的調查實踐中不斷完善樣本框。
全國社情民意調查系統對移動電話抽樣的官方實踐探索起源于2014年。2014年6月,國家統計局社情民意調查中心在其組織的2014年上半年全國安全感調查中首次使用了移動電話抽樣調查。調查中對移動電話的抽樣采用全碼抽樣方式,即根據有關部門提供的移動電話號碼庫(非全體樣本庫,是按照設區市樣本配額1比10提供的部分樣本庫),按照分層隨機抽樣的方法完成規定的樣本數量。為保證調查數據前后年度的可比性,2014年上半年全國安全感調查移動電話樣本占全體樣本的比例為12%,下半年為18%,2015年上半年為23%,下半年為30%,移動電話樣本比例占總體樣本的比例呈現遞增趨勢。
浙江省統計系統對移動電話抽樣的探索也開始于2014年,浙江省統計局民生民意調查中心在自主組織的全省民生改善居民感知度調查中首次嘗試使用了移動電話抽樣調查,調查采用的是移動電話局號隨機抽樣調查方法,通過分層抽取移動電話局號,后四位由CATI系統隨機生成的方式,在定位受訪者居住地時,采用人工詢問確定的方法。調查中移動電話樣本占總樣本量的比例為25%左右。此后,還在多個省委省政府及其相關部門的委托調查和自主調查中嘗試使用了移動電話抽樣,如2015年3月的全省法治建設群眾滿意度調查,移動電話占社會公眾樣本量的10%;2015年5月的全省社會道德環境和公共文化服務公眾滿意度調查,移動電話占總樣本量的15%;2015年11月的平安浙江群眾安全感電話調查,移動電話占總樣本量的20%等等。
作為一種調查方法和技術,CATI已在歐美發達國家使用了30多個年頭,目前國際上90%以上的社情民意調查是采用計算機輔助電話調查系統(CATI)開展的。現如今,CATI理論及技術已經相當成熟,并廣泛地應用于多種調查研究領域,如政府公共服務的滿意度調查、政府政策的成效評估、企業品牌知名度研究、服務質量跟蹤調查及選舉支持率民意測驗等等。雖然CATI調查具有其他傳統民意調查所不具有的許多優點,但限于CATI調查是通過電話進行的,存在訪問主題不宜過于深入、訪問時間不宜過長等不足。另外,CATI調查在抽樣過程中還存在一些問題,主要是誤差問題,應該引起重視。
在CATI調查的執行過程中,主要存在兩類誤差:抽樣誤差和非抽樣誤差。抽樣誤差在統計學上已經有一套比較成熟的理論與方法,這種誤差是不可避免的,它會隨著抽樣規模的增加而減少,并可以根據一定的置信水平來估計抽樣誤差。而與之相比的非抽樣誤差就很難測定和評價。實際上,CATI調查的質量控制主要就是對非抽樣誤差的控制。非抽樣誤差包括樣本設計誤差和計量誤差。樣本設計誤差是在樣本設計或樣本抽樣中而產生的誤差,如空號誤差,每個CATI調查中都會存在相當數量的空號或無效號碼,這些號碼可能是系統隨機生成的空號,也可能是近期才停機的號碼,如果這部分號碼所對應的個體分布與調查總體分布存在顯著差異,則必然出現調查的系統性偏差,但這并不是CATI調查誤差的主要來源,CATI調查的誤差主要是來自于計量誤差。計量誤差是所得到的計量結果與原始真實信息不符而引起的差異。與傳統的調查方法相比,由于CATI調查全過程的智能化設置,可以大大減少調查員由于工作疏忽造成的計量誤差和登記、匯總等過程中產生的計量誤差,CATI調查的計量誤差主要包括:拒訪誤差和回答誤差等。
1.拒訪誤差。拒訪誤差是指由于被調查中部分個體不愿意或者無法完成調查或者被調查者有能力回答而未回答而產生的誤差,目前拒訪現象一直存在并保持在較高的水平,并且拒訪個體具有相對同質性,從而又導致樣本的代表性問題。拒訪的原因一般包括:如由于監管缺位,當前電話詐騙、電話營銷等不良現象比較猖獗,受訪者在接到電話訪問后容易對電話訪問產生強烈的防備心理,被調查者很容易把這種情緒轉嫁到調查上,從而拒絕配合進行調查;另外對于一些綜合性復雜性比較高的調查主題、或者指標設置不合理,指標、選項過長過多的調查,被調查者認為回答問題比較麻煩,不愿意接受調查等等。
2.回答誤差。如果被調查者在某一特定問題的回答中有特定的偏向,就容易產生回答誤差。回答誤差的產生有兩種基本形式:有意識誤差和無意識誤差。有意識的誤差產生是由于被調查者故意對所提問題做出不真實的回答。他們可能是隱瞞他們認為屬于個人隱私的內容,比如,在一個有關政府辦事窗口的滿意度調查中,被調查者對于過去3個月內去過幾次辦事大廳,他可能記不清了,但對于這類問題,他們可能寧愿進行簡單的推斷,也不愿意寫上“不知道”。無意識誤差是指被調查者希望能夠給出真實準確的回答,但卻給了不正確的答案,這種類型的誤差可能是由于問題的格式、內容或概念偏差所造成的。
對于在CATI調查過程中存在的誤差問題,根本措施還是在于完善調查方案設計的科學性。合理設計調查問卷對于CATI調查起到至關重要的作用。為了減少回答誤差,對問卷的要求就更為嚴格,問卷力求能夠更易于理解,來保證被調查者填寫準確而真實的回答;問卷的內容也需要簡明扼要,答題形式要力求簡單,方便操作,最好全部使用選擇式答題,避免出現開放性問題。同時,要努力爭取被調查者的合作,給予被調查者適當的獎勵和答謝,比如贈送話費、積分兌換等,這將有利于被調查者參與CATI調查的積極性。
(責任編輯:牛域寧)