基于網上調查的科研成果可信嗎？

2016-12-06 06:52:50李勇

長江叢刊 2016年33期

李勇

基于網上調查的科研成果可信嗎？

李勇

本文以2016年美國總統大選網上調查和專業調查機構的調查結果大相徑庭為例，說明網上調查可能存在的一些局限性，并初步分析了產生這些局限性的統計邏輯。進而認為基于網上調查取得的信息用于科學研究需慎之又慎，其運用必須滿足統計的基本原則。

網上調查科研成果統計原則

網絡的匿名性與虛擬性導致的信任缺失問題及調查的參與率低等缺陷始終阻礙其普遍應用。而很多社交網站（SNS， Social Network Sites）的實名制特性能夠增強被調查者的受信水平，使其更用心地作答。朱文龍等（2014）以人人網、騰訊QQ為例，研究了匿名調查與非匿名調查獲取科研數據的一致性問題，得出在非敏感性量表下，兩類調查具備完全一致性，而對于敏感性量表，兩類調查數據不完全一致。類似的相關研究，國內外已有不少文獻。2016年10月16日，《新周刊》總主筆閆肖鋒在2016年美國總統大選全國選民投票還未開始前，大膽預測民主黨候選人希拉里勝券在握。其主要依據為，專業調查機構的調查比網上調查的樣本更具總體代表性。這引起了筆者的深思，當下，很多科研工作者通過發放網絡問卷，網絡在線問答，運用網絡技術收集網絡輿情等方法收集相關信息，然后對所獲得的信息進行分析進而得出結論。那基于這些網絡調查的科研成果真的能反映真實的狀況嗎？筆者的答案很明確，不一定。下面從此次美國總統大選說起。

美國總統大選的全國選民投票時間為選舉年11月第1個星期一后的第1個星期二，今年則為11月8日。由于美國總統選舉實行選舉人團制度， 11月8日選民投票時，不僅要選舉總統，還要選出代表50個州和首都華盛頓哥倫比亞特區的538名選舉人。美國除了緬因州和內布拉斯加州，其他州和首都實行“勝者全得”的制度，即獲得選民票數最多者獲得該州或首都所有選舉人票。贏得270張及以上選舉人票的總統候選人即獲得選舉勝利。在選舉年的12月第2個星期三之后的第1個星期一，選舉人按照選民投票結果選出總統，今年為12月19日。新當選美國總統將于次年1月20日宣誓就職。2016年總統大選第一場辯論結束后，總統候選人希拉里和特朗普均自信滿滿地對外聲稱自己勝出。CNN發布的輿論研究公司所作的調查結果為，希拉里以約62%比27%，大勝特朗普。而各種網絡投票結果恰恰相反，例如Twitter上的網民投票結果顯示，特朗普將以62%比29%大勝。為什么會產生如此大的差異？專業調查公司對線下的登記選民作調查，通常是通過發放問卷或電話調查。根據以往統計，線下調查的結果，只有4.5%左右的誤差，且被調查樣本人數有時甚至少至521個。很多人質疑，這樣的調查結果之準確性怎能和網站幾十萬的擬投票選民樣本的調查結果之準確性相提并論？

從統計學來說，樣本不一定需要很大，但一定要保持樣本抽樣的隨機性，這才能保證樣本能較好地代表總體的特征。而專業調查公司有相對科學的抽樣調查和統計分析方法。例如，蓋洛普民意測驗所（Gallup Poll）是美國最大的民意測驗機構。它在美國總統大選民調中，根據性別、年齡、受教育程度、職業、收入、信仰等標準，在美國各州和首都按比例選擇調查對象，然后對調查結果加以分析并得出結論。這樣做的好處可以保證選取的樣本有較好的總體代表性。其實，一個統計學運用于實際民調的非常有名的案例，為1936年的美國總統大選。當時，競選下一任美國總統的是民主黨候選人在位總統羅斯福和共和黨候選人蘭登。當時，美國權威雜志《文學摘要》（The Literary Digest）根據電話簿和俱樂部成員名單上記載的地址發出1000萬封調查信，收到回信200萬封，這么大的樣本容量在調查史上也是罕見的，雜志社因此花費了大量的人力、物力。得出的調查結果是蘭登將以57%對43%的比例在總統大選中獲勝。而最終的選舉結果卻是羅斯福以62%對38%的顯著優勢連任總統。這使《文學摘要》名譽掃地，不久后即停刊。究其原因是《文學摘要》抽取的樣本不是從總體（全體美國選民）中隨機抽取的。因為在1936年，美國擁有電話和參加俱樂部的家庭都是比較富裕的家庭。1929年到1933年的世界經濟危機，使美國經濟遭受重創，“羅斯福新政”動用行政手段干預市場經濟，損害了部分富人的利益，但廣大的美國非富人群體卻從中得到了好處。由于富人群體在全體美國選民中只占少數，所以，基于調查樣本幾乎都是富人而得出的民調結果實際上已經嚴重偏離了大多數美國人的真實選舉意愿。

社會學中有一個“二級傳播理論”，是由美國著名社會學家拉扎斯菲爾德1944年出版的調查報告《人民的選擇》中提出的。該理論的核心思想在眼下的語境中可理解為理念總是先從網絡、報刊、電視、廣播等媒介傳播到關鍵意見領袖（Key Opinion Leader，簡稱KOL），然后再由這些關鍵意見領袖傳播到那些 “沉默的大多數”。而關鍵意見領袖這個概念源自營銷學，通常被定義為：擁有更多、更準確的產品信息，且為群體所接受或信任，并對該群體的購買行為有較大影響力的人。例如，某人購買某款產品，并不決定于其先前看到過的該產品的媒體廣告，而真正促使其購買的，有時僅僅可能是其周圍某個關鍵意見領袖的一句話。所以網民在網上表達出來的觀點，并不一定是左右大多數人行為選擇的觀點，很多時候還依賴于關鍵意見領袖的中介作用。

最后引用肖鋒文章中作家余華說過的話：一上網，感覺中國人明天就要鬧事；一上街，感覺中國人一百年都不會鬧事。

[1]肖鋒．"網紅"特朗普為什么突然不行了[OL]．功夫財經,2016-10-16．http://news．hexun．com/2016-10-16/186436727．html．

[2]朱文龍,邵培基,方佳明．社交網站調查的科研數據一致性研究[J]．科研管理,2014(02)．

（作者單位：河南大學商學院）

長江叢刊2016年33期

長江叢刊的其它文章: 高職《前廳與客房服務管理》一體化課程改革的思考; 基于翻轉課堂教學模式改革的高職體育課程設計——以秦皇島職業技術學院《傳統武術》選項課為例; 淺析小學體育教學傷害事故的預防; 滿族地區中學開展滿族傳統體育項目的現狀分析; “N+1”教學模式——高職院校田徑訓練組織與開展的新途徑; 本科工程人才就業適用性的調查與思考——以機械類專業為例