居民閱讀調查的難點、誤差和解決路徑

2020-08-15 10:50:04李志勇

統計科學與實踐 2020年5期

□李志勇

閱讀是人類獲取知識、增長智慧的重要方式之一，是一個國家、一個民族精神發育、文明傳承的重要途徑。為全面及時準確掌握全省居民閱讀狀況，自2018 年起，江蘇省社情民意調查中心受省全民閱讀辦委托，利用計算機輔助電話調查系統和全國統計系統社情民意調查熱線電話“12340”，在全省范圍內開展居民閱讀狀況電話調查，及時獲取全省居民閱讀情況數據,其中根據調查結果計算的居民綜合閱讀率納入了江蘇省高質量發展監測評價指標體系，因此準確可靠的反映居民閱讀狀況顯得更為重要。本文從江蘇居民閱讀調查的實踐出發，分析調查中的難點和易產生的誤差及解決路徑。

| 開展閱讀調查的難點

難點一：不同調查方式對調查質量的影響不同

自2014 年江蘇開展居民閱讀調查狀況以來，前期主要通過入戶或街頭攔截訪問的形式開展。2018 年至今，全省居民閱讀狀況調查由江蘇省社情民意調查中心組織開展，采用的是計算機輔助電話調查方式。除了上述的調查方式外，有些調查還通過網絡平臺進行。這些調查方式在組織方式上以及對數據質量的影響各有哪些優缺點呢？如下表如示：

難點二：閱讀行為界定難

閱讀行為的客觀界定與不同的人對閱讀行為的主觀判斷存在誤差。按照現代社會普遍接受的最寬泛的定義，閱讀指的是“理解書寫或印刷符號的能力”。隨著數字媒介的變革，閱讀從印刷時代過渡到電子時代，再過渡到數字時代，人們對閱讀的理解呈現出更豐富的內涵。閱讀寬泛的定義，更像是一種獲取各類信息的行為，不僅從印刷介質上，還包含了從電子屏幕等高科技界面上獲取編碼信息的能力，不僅有“看”，還包括了“聽”。本文所談的“閱讀”，是一種狹義的理解范疇，是讀者通過印刷媒介和電子媒介傳播的圖文讀物獲得有意義的行為，不僅強調的是“看”，更強調“看什么”。即閱讀的具體介質應包括閱讀紙質類、電子類的書、報、刊物和文章作品。

表1 不同調查方式優缺點比較

雖然，閱讀行為的客觀界定用文字很好定義，但在調查實踐中，不同的人對閱讀行為有著不同的理解，其差別在于對自我閱讀量、閱讀頻率及閱讀內容在閱讀行為界定上的不同理解。有的人認為偶爾看下報紙不算閱讀，有的人則認為就看看微信也算閱讀，如果不在調查時特意解釋說明在一段時間內（如一年）只要有過閱讀紙質和電子類的書報刊的行為，就算是有閱讀行為，會使一定數量的人更傾向于把有無閱讀習慣當作有無閱讀行為。我們把這種客觀界定與主觀判斷產生的調查誤差稱為抽樣調查中非抽樣誤差的一種——計量誤差。當然在閱讀狀況調查中，計量誤差不僅僅限于前面提及的概念理解誤差，還有一些問卷設計不科學、測量不準確形成的計量誤差；還有調查閱讀量，如“一年中閱讀了多少本書？”這類回憶性的測量也易造成計量誤差。

難點三：無閱讀行為人群入樣難

調查實踐證明，居民閱讀狀況調查與其他調查不一樣的是，居民閱讀狀況調查反映的是居民自身的閱讀行為、偏好等情況，不是對外界事物的評價。顯然，在對調查的配合程度上，有閱讀行為人群和無閱讀行為人群是不一致的，有閱讀行為人群的配合程度明顯高于無閱讀人群。無閱讀行為人群認為你調查的是閱讀狀況，和我沒關系，就不愿意接受調查。因此，無論是哪種調查方式，都會或多或少的存在無閱讀人群對調查的配合程度低、易產生拒訪、難以入樣的現象，特別是電話調查這種本身拒訪率就高的調查方式更是如此。

這種拒訪現象我們可看作為“無回答”的種類之一，還有一種是因調查內容缺失行程的，也可稱為“無回答”。由“無回答”產生的誤差，我們稱之為無回答誤差，也是非抽樣誤差的種類之一。如果“無回答”層和“回答”層在所研究標志方面沒有顯著差異，則“無回答”的影響不大。但如果“無回答”層與“回答”層存在顯著差異（如有閱讀行為的人和無閱讀行為的人），會造成估計量是有偏的，且由于“無回答”沒有提供樣本數據，即實際調查到的樣本比目標樣本小，估計誤差就可能會增大。如果不解決這個問題，易造成調查樣本中無閱讀行為人群結構性缺失，使居民閱讀調查變成對“文化人”的調查，使調查結果產生一定誤差。因此，要提高閱讀調查數據的準確性和可靠性，必須要把無閱讀行為人群摸準查實。

| 對調查誤差的思考

眾所周知，只要是調查、進行測量就會有誤差。全面調查有調查誤差也有數據處理誤差。而抽樣調查也同樣存在誤差，誤差的大小決定調查數據的估計精度。從理論上說，抽樣調查估計精度的高低只取決于抽樣誤差的大小。抽樣誤差是抽樣過程中產生的，由樣本隨機性引起的且不可避免，但可計算。每一次抽樣調查都能根據抽樣設計的方法來計算抽樣誤差，即每一次抽樣調查都有一個唯一確定的估計精度。然而在實踐中，往往還存在抽樣誤差以外的因素在影響著抽樣估計精度，這個因素就是非抽樣誤差。它的存在改變了實際的估計精度，又使我們難以客觀衡量抽樣估計精度。當抽樣估計值受非抽樣誤差的影響而與真實情況相差甚遠時，討論抽樣估計精度就毫無意義。

非抽樣誤差是指除了抽樣誤差以外的各種原因引起的誤差，主要包括抽樣框誤差、計量誤差和無回答誤差三大類。抽樣框誤差是指目標總體與抽樣總體不一致產生的誤差，如在電話調查中電話號碼（電話號段）不能涵蓋目標總體；計量誤差主要是問卷設計階段產生的誤差，如用詞不準確，問句存在誘導性和傾向性等；也有調查員引起的調查誤差，如對被訪對象回答內容的理解產生偏差等；還有調查對象原因形成的誤差（如對問題的理解產生偏差，如需要回憶才能回答的問題等)。非抽樣誤差由于原因的復雜性和不隨機性，難以測量、計算、控制。

可見，對居民閱讀調查誤差的考量，不僅要根據樣本量的大小、總體指標的變異程度、抽樣設計方法、估計方法以及總體大小等因素來計算抽樣誤差估計調查精度，還要對調查本身會產生哪些非抽樣誤差作深入考量，采取措施，最大限度的避免非抽樣誤差，讓非抽樣誤差對數據精度的影響降到最低。

圖1 抽樣調查誤差的種類

| 解決路徑

在江蘇居民閱讀狀況的調查實踐中，針對調查中的難點和易產生的誤差，要降低和控制誤差，提高調查數據的準確性和可靠性，使調查數據能更好推動居民閱讀工作的開展，要做到以下四點：

（一）認真做好調查前準備工作

1.整理和編制與目標總體近似的抽樣框。如在計算機輔助電話調查中盡可能收集大而全的電話號段，即通過收集基本單位名錄庫、各類普查資料中的電話號碼，并整理和編制電話號段（如固定電話中的前四位，手機號碼中的前七位），在調查時采用尾數隨機法，自動生成電話號碼，確保調查時，計算機自動形成的電話號碼能將目標總體全涵蓋，以降低抽樣框不準、缺失帶來的抽樣框誤差。

2.收集、整理調查區域與人口結構相關的數據。如城鄉、性別、年齡、受教育程度等數據，并根據被調查區域的人口結構數據在調查時作好樣本配額控制，使調查樣本的人口結構與被調查區域的人口結構相近似，使調查結果更精確地反映本地區真實的閱讀狀況和水平。

（二）科學進行調查設計

1.選擇合適的調查方式。前面已經闡述了各種不同調查方式的優缺點。目前，江蘇居民閱讀狀況調查采取的計算機輔助電話方式，解決了無閱讀人群入樣難的問題，在確保數據真實可靠的前提下，電話調查的組織便捷、時效性高、數據質量可監控等優點將得到充分利用。

2.科學設計抽樣方法。根據調查的目的和調查估計精度的要求，設計更為科學的抽樣方法，如江蘇采取的分層抽樣，可以在相同樣本量的條件下減少抽樣誤差。

3.科學設計調查問卷。通過精準設計，讓被訪者更加清晰明確調查問題的內容、定義及界定，使其能更準確地回答，更準確地反映實際情況，以降低計量誤差。如對無閱讀人群配合程度低、易拒訪的現象，在問卷設計上可設置跳轉，對明確表示自己無閱讀行為的人群，不再詢問閱讀相關的內容，只需詢問被訪對象相應的背景信息，使其作為有效樣本，使實際調查完成的樣本縮小或接近目標樣本，從而降低無回答誤差帶來的影響，降低估計誤差。

（三）確保調查數據質量

1.做好訪問員的配備和培訓工作。嚴格按照《社情民意計算機輔助電話調查管理規范》（DB32/T 3618—2019）的要求，做好訪問員的配備和業務培訓工作。

2.質量控制貫穿于工作全流程。嚴格按照《社情民意計算機輔助電話調查管理規范》（DB32/T 3618—2019）的要求，規范執行數據采集，將質量控制于調查全流程，提高調查數據質量，降低訪問和數據處理時產生的誤差。

（四）注重調查指標對工作的引領和推動作用

要多角度來衡量、評價居民閱讀狀況。不僅要測量居民的閱讀行為，更要從多角度來衡量、評價居民閱讀狀況。要克服單一指標——居民綜合閱讀率評價閱讀行為不夠全面不能體現閱讀工作成效的不足，而采用更科學的居民閱讀指數來進行衡量和評價閱讀狀況。如從居民閱讀個體指數和閱讀工作指數來共同構建居民閱讀指數，不僅包括反映居民自身的閱讀行為、閱讀時長等，也要包括反映閱讀服務設施的建設、利用情況，閱讀活動的開展、參與情況等，以期更好地發揮指標的引領作用，把促進全民閱讀作為建設“強富美高”新江蘇的“賦能工程”，更好地推動書香社會建設，建設社會文明程度更高的新江蘇。

統計科學與實踐2020年5期

統計科學與實踐的其它文章: 長三角地區城市主要指標（2020年1季度）; 建立“泰順鄉鎮經濟地圖”制度的探索; 諸暨與義烏經濟發展比較分析; 南通農村人居環境整治情況調研報告; 2019 年上海利用外資綜述; 江陰高新區產業集群化發展研究