基于等級反應理論的民意類調查問卷選項策略

2013-02-21 05:15:40劉全

統計與決策 2013年9期

劉全

（成都信息工程學院統計學院，成都 610103）

1 問題提出

民意調查是使用科學的調查和分析方法，對某地方政府所管轄的居民的調查，通過調查了解公眾的需求、行為特征、政策偏好及其對政府服務的評價，并確定公眾對政府服務評價高低的決定因素，以利于政府改進服務的過程。

民意調查是對現行統計調查格局的突破，是對現行統計調查制度的重大創新和補充。我國統計工作受傳統計劃經濟體制的影響，重心一直放在經濟領域，而文化、社會領域的統計調查及研究始終處于從屬地位，政治領域才剛剛起步。同時，我國民意調查的實踐遠遠超前于理論的研究，這使得我國民意調查工作面臨著諸多問題。綜合國內民意調查研究，主要是對西方理論的介紹、我國民意調查實踐工作的經驗總結，而具有前瞻性、有針對性地對開展民意類調查理論研究，并有創新性成果的還鮮見。

民意調查的基本目的是了解公眾對政府行為及其產生后果的評價，以及決定公眾評價的影響因素。對政府行為和績效的評價上，公眾本著“合理的無知”原則，一般只能給出他們看得見、摸得著的政府施政行為及其結果的感知。所以，如何設計出科學的問卷（態度量表），能就公眾對政府行為及其產生的后果進行準確地心理感知（如感受、意愿、態度等）調查是關鍵，其中，問卷中的問項選項、多級問項的選級、基于不同受訪群體的問卷選項尤為重要。

項目反應理論（Item Response Theory,IRT）是心理學上對所謂潛在心理特質測量的一種科學理論，這與民意類調查研究目標一致。其中，等級反應理論（Graded Response Model,GRM）則是由Samejima(1969)發展起來的IRT模型的一種廣義形式，R.Koch(1983)在他的研究中，首次證實了等級反應模型可應用與態度量表[1]。70年代起，GRM理論已在大多數國家成為心理測量學家的主要研究課題。近幾年，國內學者漆樹青、余嘉元、何曉群、柯惠新等在這方面進行了大量研究[2～4]，但其研究側重于GRT在心理測評、標準化考試、試題庫建設、自適應測驗的應用等方面。

2 GRM模型研究

2.1 民意類調查問卷的GRM建模

根據IRT理論，若調查問項的備選答案只有正面（如滿意，同意等）、負面（如不滿意、不同意等）兩種情形，并采用“0-1”記分法(正面為1，負面為0)時，則受訪者對問項給出1（正面或積極）回答的概率可采用項目反應理論中的Logistic模型刻劃。實際中常用二參數Logistic模型[1]（2PLM）：

在民意類調查中，實際問項設計普遍采用Likert等級態度量表（如：3、5、7或9等級量表），其備選答案有多個等級（如：4=非常滿意、3=滿意、2=一般、1=不滿意、0=很不滿意，等等），為此，必須對“0-1”記分法的模型（1）進行擴展。

每條概率曲線表示受訪者在問項i上評價為l等（l=0、1、2）及以上的概率。利用這種曲線，可得到態度量值為θ的受訪者對問項i評價恰好為0（負面）、1（正面）的概率：

進一步，如果問項i共有ki個等級。則態度量值為θ的受訪者給出評價為l（l=1，2,…,ki）等及以上的概率，不難由（1）式推廣得到：

模型（3）便是普遍意義上的等級反應模型[5]，其函數圖形稱為等級項目特征曲線（Item characteristic curve，ICC），并都是（2）式中兩條概率曲線之差。

2.2 基于GRM模型的調查問卷估計精度定義

通過問卷調查，獲取受訪者對某問項給出滿意評價所對應的態度量值θ，實質是一個抽樣推斷過程。根據抽樣理論，抽樣推斷的置信區間由抽樣分布的標準誤SE(θ)決定，其大小與估計精度成反比，為此，定義 I(θ)=1/SE(θ)2作為等級反應模型的估計精度是合理的，并稱I(θ)為信息函數。

根據A.Birnbaum(1957)結論，問卷對受訪者a的總信息量為各問項信息量之和[6]，即：

其中，m是問卷所含的問項數，Ii(θa)是問項i對態度量值為θ的受訪者a的信息函數。在（3）式情況下，可以證明[7]：

信息函數Ii(θa)給出了問項i的基于不同態度量值θ受訪者a的不同調查精度，或者說，Ii(θa)給出了問項i在態度量值為θ的受訪者a上調查所能得到的信息量。

對態度量值為θ的受訪者a，若已知各個問項所能提供的信息量Ii(θa)，則根據以上結論，顯然有整個問卷對受訪者a調查所產生的標準誤：

顯然，問項所能提供的調查信息量越大，則SE(θa)就越小，對受訪者態度量值θ的估計就越精確，反之亦然。

3 基于GRM的問卷選項策略

3.1 基于目標信息曲線TIC的整體問卷選項策略

一個問項的信息量越大，則對整個調查的貢獻越大；反之亦然。因而用問項信息函數值的大小來衡量問項的優劣顯然是合理的。具體策略是：

⑵計算各個備選問項的信息量，并按其信息量從大到小依此選取，直至信息量累計值剛好達到或超過TIC。關于備選問項信息量的計算，一般采用專門的等級項目反應軟件，其計算過程是：先由（3）式得到各個備選問項的ICC曲線，然后根據（4）式計算出其問項的信息量。如某地關于“社會和諧度”民意調查問卷設計中，筆者采用Likert 5級態度量表編制出初始問卷（含39個問項），對該地區500位居民進行預調查，并經同向化處理，取得模型擬合的基礎數據。若用戶要求抽樣標準誤 SE(θ)在區間-1.0≤θ≤+1.0 內不大于 0.4，則由公式：I(θ)=1/SE(θ)2=1/0.42=6.25，表明問卷信息量累計值須大于或等于6.25。為此，利用以上500位居民的預調查數據，選用二參數邏輯斯蒂GRM模型（已對基礎數據進行了單維性假定檢驗，檢驗結果表明符合GRM建模要求）。使用Multilog7.0軟件得到相應的ICC曲線及各問項在-1.0和+1.0處的信息量Ii(θa)，再根據IRT要求去掉其中a≤0.3或a≥4，b＞2.95或者b＜-2.95 的項目，余下的24個問項依信息量從大到小排列（見表1）。

表1 各問項測量精度（信息量）排序

從表1按信息量大到小依次提取所需問項，直至滿足最低累計信息量6.42的要求，從而得到滿足調查誤差要求的問卷方案（含20個問項）。

圖1 某地“社會和諧度”民意調查問卷信息曲線

3.2 基于邊際信度和擬合度的問項選級策略

選用多少等級（如3、5、7或9等）的量表是民意類調查中的另一個重要問題。由（3）和（4）式可知，問項的評價等級Ki對GRM的擬合度和評價精度有直接影響，換言之，選擇合理的Ki可提高模型擬合度和調查評價精度。GRM在信息函數基礎上，構建了邊際信度（Marginal Reliability,MR）指標，MR反映了問卷的整體精度[8]，相當于經典測量理論中的信度系數α，其值越大越好。同時，GRM還采用似然比卡方統計量（-2Loglikelihood）進行模型-數據整體擬合檢驗[8]，其值越小越好。因此，問項等級的選擇可通過考察其各種等級組合模式下GRM的精度和擬合度，選取最優等級組合模式而得到。

如“社會和諧度”問卷設計中，為了確定“您對該地區現時社會和諧程度評價”的備選項，從“非常不和諧”到“非常和諧”擬采用多少等級（如3、5、7或9）為宜。則在固定其它問項不變情況下，采用了對該問項按3、5、7或9等級分別設計，預調查取得數據后，選用二參數邏輯斯蒂GRM模型，使用Multilog7.0軟件得分析結果（見表2），比較各等級下的MR、-2Loglikelihood值可知，該問項采用5等級評價最佳。

表2 “您對該地區現時社會和諧程度評價”各等級評價的統計量

另一方面，在民意調查中，當量表的備選等級設置較多（如5、7或9級）時，往往受訪者容易出現趨中化或極端化的反應傾向，這種情況在前兩級和后兩級間最易發生，從而導致選擇同一等級的受訪者與其真實情況并不一致。為此，可將其量表的等級進行適當的合并。如在Likert 7等級量表中，可將第1、2等級，第6、7等級分別合并，即將7級評分改為5等級甚至3等級評分，則有可能使調查的精度和模型-數據擬合得到提高。

3.3 對不同受訪群體的問卷選項策略

等級項目特征曲線ICC雖然刻劃了受訪者對問項各等級進行評價的概率，但是，對不同的受訪者其刻劃精度是不一樣的，同樣，對受訪者團體的不同子體的適用性也是不一致的。比如，在社會和諧度調查中，可能存在問項i的等級特征曲線ICC適用于城市居民，但不太適用農村居民。換言之，問項i能很好地篩選出不同滿意度的城市居民，但不能很好地篩選出不同滿意度的農村居民情況。為此，問卷設計中，針對不同受訪子體，基于等級反應曲線ICC，選擇出更能準確評價出該子體態度量值θ的問項i，這對調查來說也是重要的。

如“社會和諧度”問卷設計中，考慮到城市、農村居民可能對問卷中的某些問項評價存在明顯差異。為了選取分別適合城市、農村居民的調查問項，可就城市、農村不同受訪群體，分析研究同一問項的等級項目特征曲線ICC在不同受訪群體中的優劣，選出對該群體能更準確獲得其態度量值的問項。

如“您對當前財富與分配滿意度”問項的調查，一般來說，認可和諧度越高的受訪者（不管是城市或農村受訪者），圈填“4-滿意、5-非常滿意”的概率應更高，反之亦然。以下是該問項分別對城市、農村居民的項目特征曲線（圖2、圖3）：

圖2 問項四的項目特征曲線（城市）

圖3 問項四的項目特征曲線

從圖2可知，對當前財富與分配滿意（特質區間[0，+3]）的城市居民評價中，圈填“4-滿意、5-非常滿意”評價等級的概率高，這符合實際情況。而從圖3可知，對當前財富與分配滿意（特質區間[0，+3]）的農村居民評價中，圈填“5-非常滿意”評價等級的概率更高，這不太符合我國現階段城鄉差別的實際，說明該問項對農村受訪者的態度量值測試質量低，即該問項不太適合農村受訪者。

4 結論

本文構建了民意類調查問卷設計的等級反應理論模型GRM，研究了利用等級反應模型的信息函數評價問卷調查中的誤差估計問題，提出了民意類調查問項的選項策略、多級問項的選級策略、基于不同受訪群體的問卷選項策略等，一系列基于等級反應理論的民意類問卷設計技術問題，并結合某地開展的和諧社會調查討論了具體實現過程。

實踐表明，以上基于等級反應理論的民意類調查問卷選項策略具有嚴謹的科學性、很強的操作性。本方法允許調查方案設計者根據規定的調查精度，確定出目標信息曲線TIC，編制出符合調查精度要求的調查項目。同時，調查精度能在受訪者滿意度θ連續統上的若干點或區間得到嚴格控制。可見，本方法對民意類調查問卷設計質量提高具有重要的理論和實踐意義。

[1]余嘉元.項目反應理論及其應用[M].南京：江蘇教育出版社,1992.

[2]柯惠新,祝建華.傳播統計學[M].北京：北京廣播學院出版社，2003.

[3]漆書青.現代教育與心理測量學原理[M].北京：高等教育出版社,1998.

[4]許健,馬世曄,何曉群.標準化試題的評價與IRT模型的應用[J].考試研究，2004,（8）.

[5]羅照盛等.項目反應理論等級反應模型項目信息量[J].心理學報,2008,40(11).

[6]涂冬波.信息函數在標準參照測驗中的應用研究[J].江西師范大學學報,2005,（03）.

[7]周駿.等級反應模型下項目特征曲線等值法在大型考試中的應用[J].心理學報,2005,37(6).