李曉英,周大濤
(湖北工業大學 工業設計學院,武漢 430068)
隨著調查研究理論的深化,各種調查方法、技術和工具等也獲得不斷發展[1]。而調查問卷作為獲取統計資料的重要手段,既可以收集性別、年齡等簡單的人口統計信息,也可以獲得體驗、行為、情感等復雜信息,并且通過科學抽樣,就可以從少量樣本數據的研究得到一般性推論,其在企事業單位、大眾媒體和學術研究等部門得到了廣泛應用。因此,針對調查問卷進行的方法理論研究具有重要的實用價值。
文獻研究發現:現階段的研究成果多是關注于問卷的內容設計[2]、樣本選擇、實施過程[3]及問卷的效度、信度檢驗方法[4]等方面,對調查問卷結果的統計方法研究卻很少提及;現行的結果統計多采用平均賦權算法,由于未能充分考慮主體人(調查對象)對客體物(調查目標、內容)在不同層次或角度上的認知差異水平,稍有偏差就會導致結果出現不可靠性、誤導性等問題。針對這個問題,提出基于K-means聚類的調查問卷動態賦權統計方法,結合某高校圖書館服務質量滿意度調查的實證研究,驗證其可行性、有效性及優越性。
由于客觀事物的復雜性、不確定性,在調查問卷中往往需要對個體或事物的屬性特征做綜合、全面的調查分析。例如,產品市場需求調查中,就會涉及到產品的功能、結構、造型、材料以及經濟價值、社會環境影響等多方面的因素調查,這就要求主體人對產品的各個因素有清晰、全面的認識。但由于主體人的經驗、專業、文化背景及需求、偏好的不同,缺乏對事物屬性特征的全面了解,這在一定程度上導致同一主體對同一客體不同方面的認知程度上趨于不一致而非一致,即被調查者對待不同問題評分結果的可信度或權重是不同的。這一點往往會被調查問卷的設計者所忽略,僅采用傳統的平均賦權方法對調查問卷的樣本數據進行統計分析,使由調查問卷樣本數據獲得的理論值和由表征客體屬性特征的真實值之間出現一定程度的誤差,導致研究結果缺乏可靠性。
針對上述問題,為了保證調查問卷統計結果的可靠性,在綜合考慮主體人對客體物認知差異程度的基礎上,提出基于K-means聚類算法的調查問卷動態賦權統計方法,具體的應用流程如圖1所示。

圖1 基于K-means聚類的調查問卷動態統計方法流程圖
首先,為便于客觀、真實地表征主體人對客體物在不同層次上的認知差異,需預先編制調查問卷層次量表,即圍繞調查問卷評估的總體目標要求,將個體或事物的屬性特征分解為若干不同的方面。如表1所示,調查問卷層次量表的總體目標(Z)由一級層次(A)和二級層次(B)的屬性特征組成,下一次層次的屬性特征是對上一層次屬性的不同角度或層面的描述。
其次,采用K-means聚類算法演繹出不同層次下樣本數據的歸類分布情況:
定義1:設有n個樣本的p維調查樣本數據為:

每個樣本可以看作p維空間的一個點,則任意兩個空間點xi和xj之間的Euclid距離為d(xi,xj):

表1 圖書館服務質量滿意度調查問卷層次量表

其中,當P=2或3時,d(xi,xj)為二維或三維空間中的兩點之間的距離。
定義2:設n個樣本需要分成k類,則第k個初始聚類點的集合為:

由公式(1)可記:

將n個樣本聚成了k類,得到了一個初始分類集合C0:

從初始聚類C0開始計算新的聚類點集合為H1,計算:

其中,ni為類C0集合中的樣本數量,得到一個新的集合:

從H1開始再進行分類,并迭代上述步驟m次,得:

其中Cm=Cm+1時,則迭代計算結束,獲得最終聚類集合Cm。
定義3:由上述K-means聚類算法將n個樣本聚成了k類,進一步假設第i個樣本屬于第t類Ct(顯然1≤t≤k),類別Ct中包含的樣本個數Ft(Ft可稱為類容量)與樣本總數n的比值,稱為樣本i的置信因子Ti,則:

顯然,同一類別中的樣本具有相同的置信因子,也即同一類中樣本所表達的信息可以認為是相似的。其中,Ft較大的類中樣本所表達的信息符合多數調查對象的意見,應該被賦予較大的權重,由此有以下權重系數βk的確定原則:

其中:

求解方程組(2)有:

由于屬于同一類別的樣本具有相同的置信因子,所以:

由式(3)和式(4)得,樣本權重系數βk:

最后,通過動態賦權計算某個層次的得分匯總,實現對客體物特定特征的評估,進一步地通過各個層次的得分再加,獲得最終的綜合評估結果。
圖書館作為社會的服務性行業之一,與其他服務行業評估在理論、方法模式方面具有通用性。因此,本文以某高校圖書館服務質量的滿意度調查為實踐案例,進一步闡述和驗證該方法的可行性、有效性。
現有的圖書館服務質量滿意度調查量表有多種形式,結合某高校的實際情況,在參考美國研究圖書館協會(ARL)的LibQUAL+TM體系的基礎上。依據上述層次量表編制要求,繪制了如表1所示的調查問卷層次量表,以開展圖書館服務質量滿意度調查工作。
依據心理學中的情感梯度理論[5]確定該層次量表的打分準則,分為7個等級:很不滿意、不滿意、不太滿意、一般、比較滿意、滿意、很滿意,分別對應1分、2分、3分、4分、5分、6分、7分。
在本次調查中,共發放問卷250份,回收225份,其中有效問卷212份,有效率為94.2%。限于篇幅本文僅給出有形性層次下的部分評分數據,如表2所示。
采用內部一致性系數(Cronbach α系數)檢驗問卷信度,采用KMO檢驗和Bartlet球形檢驗進行因子分析的適用性檢驗[6],以確定問卷的結構效度,具體檢驗結果如表3所示。

表2 圖書館服務質量滿意度調查結果評分表(部分)

表3 圖書館服務質量滿意度調查問卷效度、信度檢驗結果
由表3可知:Cronbach α系數在0.8以上,說明問卷調查結果具有較高的一致性和穩定性,信度較高;除了關懷性的KMO值(0.587)尚可外,其余層次的KMO值都在0.6以上,效度較高;Bartlet球形檢驗中的顯著性水平p<0.05,表明變量之間具有明顯的結構性和相關性,效度較高。
為了便于計算、描述和說明該方法的可行性、有效性,需進行兩個方面的假設:一是認為調查對象對二級層次下的屬性特征無認知差異,僅對一級層次下屬性特征的認知差異進行考慮;二是采用由樣本數據的方差和均值所組成的二維數據演繹歸類分布情況。結合定義3中K-means聚類算法的步驟,在Matlab軟件中演繹出一級層次下樣本數據的歸類分布情況。限于篇幅,本文僅說明有形性層次下的歸類情況,結果如圖2所示。

圖2 有形性層次下的樣本歸類分布情況
由圖2可知,212個樣本被清晰、明確地聚成了7個類別,證明了K-means聚類算法的可行性。進一步地可以確定各個類別的類容量Ft的大小,有:
Ft={13,19,42,46,11,49,32}
由式(5)可以計算各調查對象的權重系數βk,有:

其中,為有形性層次下各樣本類的權重系數。進一步的重復此步驟可以獲得其他層次下的樣本類權重系數:

為了進一步說明動態賦權統計的概念,進行隨機抽樣獲得4個樣本(20號、56號、135號、205號)在不同層次下的權重系數分布情況,結果如圖3所示:與平均賦權的水平直線相比,4個樣本的權重系數則是動態變化的曲線,會隨著各層次屬性特征的改變而變化,能夠真實地表征主體人對客體物不同方面的認知差異,證明了該方法的有效性。

圖3 動態賦權與平均賦權的權重系數對比圖
為了進一步證明該方法的有效性、可靠性及優越性,進行平均賦權方法與動態賦權方法下獲得的調查問卷綜合評分結果的對比分析,具體結果如圖4所示。

圖4 動態賦權與平均賦權的綜合評分結果對比圖
由圖4可知,兩種賦權方法下獲得的評分結果存在明顯差異:一方面,在某些屬性特征上,動態賦權獲得的滿意度評分較高于平均賦權,尤其在有形性層次下的差異表現最為顯著;另一方面,兩種方法獲得的綜合排序結果差異較大。通過數據對比分析發現,導致這種差異的原因是兩種賦權方法在調查對象權重大小的確定上存在明顯區別,例如,在針對B13(電子資源豐富,數據庫全面)的評分數據上,平均賦權對評分較低(3分以下)的31號、43號、104號等14個樣本數據賦予了較大的權重(0.0047),而動態賦權對其賦予較小權重(0.0014)。通過回訪調查發現,這14位被調查者使用圖書館電子資源的情況不多,甚至從未使用過圖書館電子資源,其評分結果明顯不可信。但平均賦權方法下卻對其賦予了較高權重,顯然該賦權方法下的評分結果缺乏可靠性。相比之下,動態賦權方法獲得的評分結果更符合實際情況。
使用同樣的方法對其他差異點進行回訪調查,結果表明:平均賦權方法未能夠識別出調查對象的實際認知情況,導致綜合評分結果出現偏差;基于K-means聚類的動態賦權統計方法能夠綜合考慮主體人的認知水平差異,并減小其對綜合評分結果造成的影響,增強了調查問卷結果的可靠性,減少誤導。對比結果表明調查問卷的動態賦權統計方法在有效性、可靠性等方面較平均賦權方法具有優越性。
針對主體人對客體物的認知差異導致調查問卷綜合統計結果出現偏差的問題,提出基于K-means聚類算法的調查問卷動態賦權統計方法。通過圖書館服務質量滿意度調查的實證研究,對比不同賦權方法下的評分結果,驗證了該方法的可行性、有效性。但K-means聚類算法需要預先指定類別數目,且多數情況下樣本數據的類別數目及最優類別數目是無法預知的。因此,下一步的工作重點將圍繞樣本數據最優類別數目的確定方法而展開,以進一步保證調查結果的可靠性。