王 霄 王小寧 劉允強
大數據與人工智能技術突飛猛進的發展潮流下,市場調研數據在消費者洞察領域依然具有自身獨特的優勢和不可替代的價值,只有代表人“態度”的調研數據和代表人“行為”的大數據的完美融合才能更深刻更全面地洞察消費者。市場調查設計是消費者洞察背后看不見的“觸手”,對調研結果的影響不容小覷。然而,它與當前調研方式逐步向互聯網調查多元、飛速的變革相比顯得相對滯后,傳統的調查問卷設計冗長而復雜,導致調查數據存在許多潛在問題,消費者洞察出現偏差。因此,合理的調查問卷設計是調查行業目前面臨的主要挑戰和亟待解決的問題。
市場調查設計一般要綜合平衡成本效率、準確和速度三個目標之間的關系。為了實現成本效率目標,市場調查機構通常會通過調查問卷實現客戶對信息“量”的需求。因此,大多數調查往往包含人口特征、消費行為、媒體接觸等多個主題,相應的問卷冗長而復雜。這種設計會破壞市場調查目標間的權衡關系,特別是在網絡調查中尤為突出,主要表現在:①調查項目響應率下降。受訪者合作的積極性下降,制約了調查項目的進度,降低效率、抬高成本,導致調查機構負擔加重。②調查中斷。調查經驗顯示,問卷長度每增加5分鐘,受訪者中途放棄率便會上升5%左右,而網絡調查中途放棄的可能性比傳統面訪要大。③增加數據異常值比率。受訪者的厭倦情緒會增加數據未在估計范圍內的可能性,夸大或降低回答的真實得分,虛增或弱化變量間的相關性,直接影響對調查目標的推斷。④增加受訪者與調查項目間的摩擦。針對固定樣本,受訪者合作態度消極,對后續更多調查項目的正常開展不利[1]??梢?,調查問卷冗長而復雜已經成為市場調查設計不能承受之重。為了從根本上提高市場調查質量,更深刻地洞悉消費者,問卷分割技術的研究與應用迫在眉睫。
問卷分割技術從“矩陣抽樣”發展而來,最初適用于對教育服務的評估,已經在國外的市場調查領域得到一定應用。例如,德國媒體和消費調查采用問卷分割技術設計和分析樣本,證實了問卷分割技術和數據插補能夠再現原始數據[2]。美國勞工部將問卷分割技術應用到消費者調查中,Gonzalez和Eltinge[3]考慮了在問卷分割條件下基于插補的樣本均值和總體的估計方法。Adigüzel和 Wedel[4]、Chipperfield 和 Steel[5]詳細論述了問卷分割技術結合數據插補是提升抽樣效率的有效方法。
本文研究的問卷分割技術是現有研究成果的延伸和突破,增加了問卷聚類分割設計、分割模式選擇、最優樣本量設計等環節,是包含從問卷如何分解到調查數據如何處理及研究的完整技術體系,有別于以往調查設計僅片段式解決某些單獨環節問題,更加具有全局效應。
問卷分割技術,簡而言之是指將長問卷分割成若干個子問卷,每個受訪者只需回答其中部分問題即可。由于每個人回答的問題數量減少,提高了問卷的響應率和完成率,再通過最優樣本量設計、多重插補等技術手段可保證調查成本效率和調查數據質量。
問卷分割技術主要解決兩個問題:一是如何分割問卷,二是如何處理問卷分割后得到的調查數據。對于第一個問題,我們在做問卷分割前要明確我們的調查目的和需求,結合項目預算和問卷架構對問卷問題進行分組形成若干個數據項,然后進行分割模式的劃分,根據總的模式個數、各個數據項的重要性、費用和精確度的約束來計算不同分割模式對應的樣本量。對于第二個問題,一種方式是直接根據現有采集的調查數據進行參數估計而不做其他處理,另一種方式是針對缺失數據利用數據插補技術進行插補,然后根據插補后的完全數據進行參數估計和預測等。問卷分割技術涉及問卷調查設計的各個方面,每個環節對應不同的技術手段和處理方式,主要流程如圖1:

圖1 問卷分割技術的主要流程
(1)基于相關矩陣的K-means聚類變量分割
問卷分割一般是將問卷分割成一個核心部分和若干附屬部分。核心部分的問題一般是指受訪者的個人屬性特征,如受訪者的年齡、性別、學歷、職業、收入等,而附屬部分主要包含問卷主體調查內容。每個受訪者只需回答核心部分和其中幾個附屬部分(或稱數據項),有效地減少了問卷長度。問卷分割技術的思想類似于評價考核中常用到的“矩陣抽樣”方法,可以說是“矩陣抽樣”方法的延伸和改進。其結構特征見表1,表1就是將長問卷分為1個核心部分和n個附屬部分,每個附屬部分中對應的問題數為 n1,n2,n3,…,nn。

表1 長問卷分割的結構特征
具體分割方法:首先要計算問卷中變量的相關性,可以利用變量間的相關系數作為衡量變量間相關性的指標。對于連續變量,計算變量間的相關關系可采用皮爾遜相關系數:

其中X和Y表示兩個連續型變量,Cov(X,Y)表示X和Y的協方差,D(X)和D(Y)分別表示X和Y的方差。對于二元離散變量之間的相關性,一般用φ相關系數計算:

其中A、B、C、D分別表示X和Y組合的個數,且A+B+C+D=n。
在得到變量間的相關矩陣之后,通過對相關系數的K-means聚類將變量聚成不同的數據項,分類遵循“類內差異小、類間差異大”的原則,即相關性高的變量聚為一類,相關性低的變量聚為不同的類。
長問卷往往為了達到多個不同的調查目的而被設計成若干個主題,如媒體接觸、消費行為、生活態度等,各主題間沒有明顯的相關關系,可視為獨立的調查體系,因此直接按問卷中原有主題設計分割問卷也不失為一種高效簡單的分割方法。
(2)數據實證
以某電視頻道受眾調查項目為例,除背景信息外,問卷包括“A.媒介接觸習慣與收視需求、B.頻道評價、C.節目評價、D.價值觀和生活態度”4個部分,問題數量多達55個,調查時長將近半小時?;谧兞肯嚓P矩陣的K-means聚類分割將長問卷分割為5個附屬部分,其中A部分問題多達36個,根據調查時長可以將其分為兩個部分。聚類結果轉化為二元聚類圖,如圖2:

圖2 某電視頻道受眾調查問卷K-means聚類分割圖
可見,由于不同主題間相關性低、主題內相關性高的特點,聚類結果仍將不同主題分為不同類別,再次印證了問卷按主題分割的合理性。表2為該問卷聚類分割后的結構特征以及每個附屬部分對應的問題數量和時長分配。

表2 某電視頻道受眾調查問卷分割后的結構特征
問卷分割模式主要有兩種。一種是利用單調的累積模式形成分割后的問卷,簡稱為累積模式;另一種是從總的數據項中選擇固定數目的數據項,進行排列組合得到不同的模式形成分割后的問卷,簡稱為排列組合模式。
(1)累計模式
累計模式主要是在問卷變量重要性程度比較明顯的情況下使用。比如一些綜合性問卷,根據研究的需求對各個分割的數據項或問卷模塊的重視程度進行等級劃分。對于特別重要的數據項,讓所有受訪者回答或大部分受訪者回答;對于相對不重要的數據項,按照一個較低的比例來進行分配。累計模式相對來說是一種比較主觀的分割模式,以包含5個數據項(K=5)的問卷為例,具體的分割模式如表3所示:

表3 K=5問卷分割的累計模式
(2)排列組合模式
排列組合模式主要是在問卷數據項重要性較為均衡的情況下,根據預期的問卷調查時長進行設定的模式。具體是指在分割后的K個數據項中隨機抽取其中m(m為整數,且1≤m≤K)項來構成新的問卷,可總共得到個模式。選擇組合的方式比較靈活,如果想把調查時間控制在一個時間段(如15分鐘)內,則需要保證分割問卷的組合方式盡可能在此范圍內。如從原來的5組選擇其中的2組或3組,組成的形式,以為例,問卷的組合形式可用下表4表示:
表4 K=5問卷分割的排列組合模式

表4 K=5問卷分割的排列組合模式
問卷分割編號1 2樣本量分布核心部分分離變量數據項1√數據項2數據項3 n1 n2√ √√√√數據項4 數據項5

續表
這種方式的優勢是從整體看各個模式有相同的缺失比例,數據的缺失情況可以看成是隨機缺失,這樣在后續數據插補時可以選擇成熟的插補技術。
(3)數據實證
仍以上文電視頻道受眾調查項目為例,聚類分割將長問卷分割為5個數據項,根據排列組合方式,問卷調查時長設定在10—15分鐘的范圍,因此應選擇的模式。分割后短問卷共計10種模式,調查時長最短9分鐘(問卷3、問卷4),最長17分鐘(問卷1)。
表5 某電視頻道受眾調查項目問卷分割的可能形式

表5 某電視頻道受眾調查項目問卷分割的可能形式
問卷編號1 2 3 4 5 6 7 8 9 1 0樣本量分布n1 n2 n3 n4 n5 n6 n7 n8 n9 n10核心部分年齡、性別、學歷、職業、收入(1分鐘)√√√√√√√√√√第1部分媒介接觸習慣與收視需求1 18道題(8分鐘)√√√ √第2部分媒介接觸習慣與收視需求2 18道題(8分鐘)√√ √ √分離變量第3部分頻道評價11道題(5分鐘)√ √ √ √第4部分節目評價7道題(3分鐘)√√ √ √第5部分價值觀和生活態度1道矩陣題(5分鐘)√√ √ √
經過分割及模式選擇后,短問卷共10種模式,即10份短問卷,然后隨機發放給受訪者進行調查數據采集,對應的樣本量 n1,n2,n3,…,n10的設定,將在下文中具體介紹。
確定樣本量是設計市場調查方案的一項重要內容,需要綜合考慮精度、費用、抽樣方式等多方面因素。問卷分割技術將原來的長問卷分割為短問卷,問卷模式、抽樣方式、費用等均發生了變化,因此分割后短問卷的樣本量需要重新設計。如果僅是簡單地按照原有長問卷的樣本量來確定短問卷數量,顯然缺乏理論依據和合理解釋。在此,我們考慮在固定費用下精度最高或固定精度下費用最小兩種框架下探討問卷的最優樣本量設計。實際項目中,具體應用哪一種框架則要由市場研究決策者根據實際情況確定。
這里對需要用到的一些符號給出定義,用CB表示調查所需要的總花費,c0表示與樣本量無關的固定花費,cj表示第j個模式(問卷)每個樣本的花費;Wk表示不同數據項的重要性,且,估計精度為μk。
(1)固定費用下精度最高
在此約束條件下,精度使用如下最小化距離函數Dsq表示:

其中,n=(n1,n2,…,n)J表示J個不同模式(問卷)的最優樣本量分配組合,n 表示樣本總量。表示第k 個數據項的誤差,在這里用這個變異系數來衡量,將最小化距離函數和約束條件轉化為拉格朗日乘子法,可求出各問卷模式的樣本量分配。
(2)固定精度下費用最小
固定精度情況下費用最小化是為了保證調查數據的質量,我們用另外一種方式來表達最小化距離函數Csq:

(3)數據實證
實際數據的誤差計算涉及多變量協方差矩陣的計算,利用R程序可以實現,結果可以作為高精度的樣本量理論值,其價值在于抽樣設計階段可以作為參考和指導。但是,實際項目的調查過程較為復雜,樣本的實際花費與項目執行進展關系密切,可能出現波動變化的情況,不能完全依照公式推導,因此根據項目實際情況來設計樣本量更為合理。另外,綜合考慮成本花費、回答率、數據質量等情況,市場調查經驗證實10—15分鐘的問卷性價比最高。因此,綜合考慮項目實際執行情況和行業經驗,借助樣本量設計理論框架,在費用和精度的約束下進行樣本量設計是最佳的解決方案。
例如,上文某頻道受眾調查問卷分割為10個模式(問卷),用 c1,c2,c3,…,c10表示不同模式的花費,調查所需的總花費為CB,我們根據實際情況考慮各數據項重要性相等,那么如果使用固定費用下精度最高框架,每個模式(問卷)分配同樣多的樣本量即n1=n2=…=n10=CB/(c1+c2+…+c10);如果使用固定精度下費用最小框架,每個數據項樣本量應與原始長問卷的樣本量n0保持一致,即該模式下,每個數據項的樣本量為n1+n2+n3+n4。
這里采用根據經費劃撥和精度雙項驗證的方式更為簡單方便,即根據經費劃撥大體情況和樣本量計算公式計算出一個大體值,然后看此種情況下模擬是否能達到最優值,如果不能達到,需要增加或減少花費直到達到為止。
(1)缺失數據處理的可行性分析
調查數據采集后的數據處理,一種方式是直接根據現有調查數據進行各數據項的匯總分析和參數估計;另一種方式是針對樣本量重新設計后可能出現的調查數據精度損失的情況,相對于原來的完整問卷而言,將受訪者只回答了部分題目的短問卷視為包含“缺失數據”的情況(如圖3、圖4所示),我們探索利用多重插補技術進行數據插補,根據插補后數據進行參數估計的可行性分析。近年來,處理無回答的插補技術尤其是多重插補技術日趨成熟,完全能夠應用在分割問卷中對缺失部分進行插補,以構成完整的數據集。
(2)多重插補(MI)方法
多重插補主要是通過模擬的方式對缺失數據的概率分布進行推測,然后采用不同的模型對缺失值構造多個替代值進行插補。多重插補方法與其他插補方法相比具有獨特的優勢。第一,多重插補方法能夠盡可能地利用其他輔助信息給出多個插補值,保持了估計結果不確定性的分布情況;第二,多重插補方法能夠盡可能接近真實情況去模擬缺失數據的分布,最大限度地保持變量之間的原始關系,提高參數估計的有效性和可靠性。一般用馬爾可夫-蒙特卡洛方法(MCMC)進行插補。多重插補的主要步驟如下:
①插補:為每個缺失值構造出m個可能的插補值,從而得到m個完整的數據集;②分析:對插補后的m個完整數據集使用相同的統計分析方法進行分析,得到m個統計結果;③綜合:綜合m個統計結果,將最終結論作為缺失值的替代值。
(3)數據實證
為驗證多重插補技術的效果,我們需比較問卷分割前后的調查數據間有無統計學顯著性差異以及探討不同數據缺失比例下多重插補的效果。調查問卷的數據類型主要分為離散型和連續型,因此需要針對不同的數據類型進行多重插補的效果分析。我們已通過電視觀眾滿意度調查、消費者態度和行為研究、新產品上市研究等若干項目的模擬和實際測試,驗證了基于問卷分割的多重插補技術能夠再現原始數據,彌補數據缺失造成的精度損失。
針對連續型數據驗證多重插補效果。數據來源于上文中某電視欄目受眾調查。問卷要求受訪者針對電視頻道、電視欄目的滿意度進行評分。

圖3 問卷分割前后,不同欄目觀眾滿意度打分平均分差異
由圖3可見,問卷分割前后不同欄目觀眾滿意度平均分差異控制在較小范圍內。進一步對問卷分割前后數據進行假設檢驗,概率P值均大于0.05,無統計學顯著性差異,說明多重插補的效果可以保障問卷分割后數據質量的穩定和可靠。

表6 問卷分割前后,不同數據缺失比例、不同欄目觀眾滿意度打分平均分差異 單位:分
表6顯示了不同數據缺失比例下不同欄目觀眾滿意度平均分差異。可見,隨著缺失比例的增加,該差異呈現逐漸增長的趨勢,但是絕對值差異均在很小的范圍內,并滿足假設檢驗概率P值大于0.05,無統計學顯著性差異。因此,多重插補仍能達到預期效果。
針對離散型數據驗證多重插補效果。數據來源于某進口鮮奶消費行為調查。

圖4 問卷分割前后,進口鮮奶的購買場所選擇比例差異
由圖4可見,問卷分割前后不同選項的選擇比例差異很小,進一步對問卷分割前后數據進行假設檢驗,概率P值均大于0.05,無統計學顯著性差異,說明多重插補的效果可以保證離散型數據的穩定和可靠。
表7顯示了不同數據缺失比例下不同問題選項的選擇比例差異。由于離散型變量的變異比較微妙,插補的難度較連續性變量稍大,隨著缺失比例的增加,差異也比連續性變量要大。因此,離散型數據進行多重插補時,盡量將數據缺失比例控制在較小的范圍內(小于30%)為宜。

表7 問卷分割前后,不同數據缺失比例進口鮮奶的購買因素和地點選擇比例差異 單位:%
通過上述分析可得出數據缺失比例越小,多重插補效果越好的結論。連續型變量的插補效果非常理想,二元離散型變量的插補效果略遜色于連續型變量,但在實際項目中能大概率地通過顯著性差異檢驗,達到預期效果。在較高的缺失比例情況下,多重插補與其他方法相比也表現出更好的效果,我們已通過若干項目的對比分析證明此結論,在此不再贅述。因此,對于多變量的數據缺失,多重插補可以說是插補效果最好的缺失數據處理技術。
需要注意的是,問卷分割技術的實際項目應用不宜過度復雜,應按照調查時長的要求,盡量選擇簡單的問卷模式,既要考慮到樣本量設計的合理和高效,又要考慮到后期數據缺失比例盡可能控制在較小的范圍內。技術流程中很多細節的把控需要豐富的市場調查經驗的輔助和指導。
短小而精煉的問卷設計能更好地適應互聯網市場調查的發展趨勢,更精準透徹地洞悉消費者背后的真相。問卷分割技術的研究及應用,主要是利用聚類算法將長問卷合理分解為短問卷,在費用和精度的約束下設計優化樣本量,采用多重插補技術提高調查數據精度,從而保證調查數據質量。本文不僅完整搭建了問卷分割技術的理論模型,并且結合實際案例詳細闡述了問卷分割技術的具體實施過程。問卷分割技術中提出的方法已經在實際案例中進行了驗證,結論如下:
首先,問卷分割技術在調查項目的實際執行中體現出了明顯的優勢:①受訪者合作率上升,有效地提高了項目執行效率,降低了成本費用;②有效降低了受訪者中途放棄的概率;③降低了調查數據異常值的比例,長問卷越靠后的部分越容易出現數據異常,通過對長問卷及分割后短問卷相應問題的數據對比有力地證實了這一結論。另外,問卷分割技術會促進固定樣本積極、持續地接受調查項目,有利于固定樣本的長期維護。
其次,通過問卷分割技術的研究及應用,我們找到了兼顧數據質量、成本效率、執行速度等市場調查設計目標間關系的方法,進而找到了對市場調查方案中樣本量設計這一重要環節系統化的解決方案。
最后,多重插補技術豐富了我們在缺失數據處理方面的經驗,特別是在提高調查數據精度方面提供了有利的技術支持,這將在今后的數據處理工作中發揮更大的作用。
在市場調查復雜性越來越高、獲取調查數據途徑越來越廣的形勢下,客戶和受訪者對問卷調查設計的要求也越來越高,未來各個調查機構對長問卷進行適當分割再進行相應調查勢必會成為一種趨勢,因此研究問卷分割技術的系統應用十分必要且具有現實指導意義。豐富的案例討論和經驗積累對以后實際調查設計中實施問卷分割技術具有較大的借鑒價值,我們將在實踐中不斷對其進行完善和優化。