陳奇奇, 王觀虎, 徐吉朋, 張 儉, 張國權, 邵 斌, 種小雷
(1.空軍工程大學航空工程學院, 西安, 710038;2.94899部隊, 福建 福清, 350300;3.94826部隊, 上海, 200000)
軍用機場飛行區設施一般包括跑道、土跑道、聯絡道、平地區、停機坪、滑行道、助航燈光、端保險道等,此外還有凈空條件限制的設施,是飛機停放、滑行、維修、加油掛彈等所必需的基本場地和保障前提,飛行區設施保障效能就是飛行區內各項設施保障飛機正常完成各項活動尤其是各種飛行任務的可能性和時效性的度量[1]。因此,設施保障效能不僅與飛行區設施的狀態有關,與各個設施的保障能力以及設計布局合理性有關。現有的關于跑道平整度,跑道外觀質量等狀況的測量手段費時費力,同時關于機場各項設施布局合理性也沒有一個有效測量手段去進行評估。
IRT是在經典測驗理論基礎上發展而來的一種現代心理測量理論。近年來,國內學者羅照盛[2]、許志勇[3]、杜文久[4]、楊業兵[5]、涂冬波[6-7]等在這方面進行了大量研究,但大多側重于IRT基礎理論及其在自適應測驗、試題庫建設、人格測驗與標準化考試的應用等方面。將IRT應用于滿意度調查的國內文獻只有劉全的關于社情民意調查問卷設計[8],而此文在進行記分時采用的仍是簡單的1、0記分法,即滿意記為1分,不滿意記為0分,雖然文章提到問卷采用李克特5級記分法,但并沒有給出5級記分和2級記分轉換的原則與方法。國外學者Quan N h、Zhao D Q、Jolai F與Gupta R等利用非參數IRT開發工作角色功能問卷,測試了四因子和三因子模型并確定出有問題的項目[9-12]。因此,本文在原有研究基礎上采用IRT等級反應模型(Graded Response Model,簡稱GRM),使得調查問卷設計及結果分析更加科學合理。
作為經典模型,IRT的大部分論斷或命題的成立是建立在一定的假設前提基礎之上,并由此逐漸演變發展而來,IRT有如下3個基本假設:
1)潛在特質空間的單維性假設。所謂單維性,是指IRT假設只有一種潛在心理特質(如態度、看法等)對反應數據起作用,其他潛在特質均可忽略。對于機場飛行區設施使用滿意度調查問卷來說,問卷各個項目測量均是飛行員對設施的主觀態度。
2)局部獨立性假設。局部獨立性是指針對不同的調查者,在對任何一個題目作答所得到相應各自態度的機率是獨立不相關的,即影響被調查者作答態度的因素是唯一的,是問卷本身的潛在特質,當排除這個因素的影響后不同項目間的作答反應不會有任何關系[13]。局部獨立性有2個條件:一是題目之間不能存在內容相依或關聯,二是被調查者不能抄襲。
3)項目特征曲線的假設[14]。IRT理論中分析并量化了被調查者的潛在心理特質和項目參數之間的數學表達關系,通過項目特征曲線來具體表示,其本質是被調查者通過選擇不同選項的概率與潛在特質分數所對應的回歸曲線。
IRT中的項目對于調查問卷來說就是問卷中的題目,因此,為了方便理解,下文中除專有名詞外均用題目表示項目。機場飛行區設施是飛機進行各項活動所必需的基本場地和保障前提,飛行員通過駕駛飛機或者平時的觀察體會等活動都會對飛行區設施有自己的心理認知或稱態度量值。
假設飛行員在使用機場飛行區設施的過程中,對設施的使用滿意度評價為θ(-3≤θ≤3)。在任何時刻,每一個被調查者(飛行員)都只會有一個態度量值θ,然而該θ值不可能立即知道,需通過一定的分析并計算得到。調查時,當我們把第i個調查題目呈現給被調查者時,將會誘發出被調查者的一個態度反應Ri,此時,被調查者對某題目的評價結果如何,關鍵取決于其潛在態度反應Ri是否大于某個等級參數bj。例如:關于飛機跑道平整度的題目選項分為非常不滿意、較不滿意、一般、較滿意、非常滿意5個選項,對應的分值分別為0,1,2,3,4。之所以將得分等級定為0~4而不是1~5,是因為要和常規的能力測試相統一起來,以便后期數據分析方便。b1~b4分別是4個“難度”級別,其中b1是“較不滿意”的等級參數,其它依此類推,并且有b1 本文采用多級反應模型來描述項目特征曲線(Item Characteristic Curve,ICC),多級記分模型應用最多的是由Samejima于1969年提出的GRM。對于該模型,其相應的反應函數實際形式為: (1) 式中:ai表示題目區分度,對應特征曲線圖中曲線拐點處切線斜率的絕對值;bik表示第i個題目第k個得分等級的難度,在特征曲線圖中顯示為相鄰兩個選項的特征曲線的交點;θ為被調查者的態度量值;Pik(θ)表示態度量值為θ的被調查者在題目i上恰得第k等級分數的概率;D為常數1.7。 相應的ICC形式如圖1所示。 測量誤差是評價測驗質量的主要指標,IRT用信息量代替CTT中的信度的概念[15]。信息量一般通過信息函數來計算,信息函數是IRT中一個控制調查精度的參數,它分為項目信息函數和測驗信息函數,項目信息函數通過一定規則的累加,即可得到測驗信息函數。IRT中測量標準誤差為測驗信息函數在該特質水平上的值的平方根的倒數,即為: (2) 式中:Ii(θ)為項目信息函數。 IRT中把題目在評價被調查者特質水平時貢獻的信息量大小關系定義如下: (3) 則對于上文提到的5級反應模型,每個題目在態度量值上的信息函數為: (4) 由式(4)可知,每個題目在態度量值上的信息函數可根據每一個態度量值θ得到被調查者的不同調查精度。信息函數圖象呈多峰形,在θ接近調查題目某個等級難度bik時達到最大。因此,根據得到的不同態度量值,決定出最利于提高估計精度的選項,以使得相應調查能夠得到預期的滿意精度。 基于IRT的問卷調查設計主要程序為:①明確調查目的;②編制調查計劃;③設計調查指標;④問卷整體設計;⑤試調查;⑥數據分析;⑦指標精簡;⑧形成最終問卷。調查問卷設計程序中核心部分是⑥數據分析,具體分為如下步驟: 1)單維性檢驗。單維性檢驗通常選用主成分分析法,通常來說第一主成分與第二主成分的特征根之比大于5即說明此假設成立。利用SPSS軟件對所得數據進行處理分析,得到因子碎石圖,然后提取出最具有代表性即第一因子與第二因子的特征根。 2)GRM擬合檢驗。在測驗單維性檢驗通過后,可通過IRTPRO軟件對GRM進行擬合度分析,通過RMSEA指標判斷所得評價模型是否擬合。RMSEA=0表示模型完全擬合,RMSEA<0.05表示模型擬合度較高,證明模型的可靠性。 3)參數估計與題目篩選。利用IRTPRO軟件計算各題目的區分度參數ai和等級(難度)參數bik的估計值,ai一般取在0.5~4.0之間,bik在-3.0~3.0之間,對結果中不符合要求的題目需要進行修改或刪除。 4)目標信息曲線的確定。根據預先所設定的調查精度,通過計算ES(θ),得到實際調查需要滿足的最低信息量,經過分析整合確定出目標信息曲線。 5)確定最終調查問卷。通過問項選擇可得到調查問項,根據上述步驟所得到的信息曲線以最少的題目產生一條測驗信息曲線,等于或大于目標信息曲線。 飛行區設施使用滿意度問卷調查的目的是掌握飛行員對機場飛行區保障設施狀態的滿意度情況,以便較為高效快捷地得到機場飛行區設施保障能力,從而為決策部門提供輔助決策依據。 指標的設計涉及到機場飛行區保障設施各主要方面,包括設施的設計、布局合理性以及質量狀況等方面,我們設計的具體指標是否科學地反映調查目的,就需要用到本文所提的IRT來處理。調查問卷包括:①被調查者基本情況如性別與飛行小時數等,為填空題;②飛行員對飛行區設施滿意度的評價,選擇題,包括31個題目,測評指標采用態度量化的5級李克特累加量表方法,即分別對5級態度“很不滿意、不滿意、一般、滿意、很滿意”賦予“0,1,2,3,4”的值,具體的題目指標見表1;③問答題,以補充前2部分未涉及到的因素,使得問卷的設計更加合理可靠。 表1 調查問卷指標 為初步檢驗問卷設計尤其是指標設置的合理性,課題組前往某機場進行實地調研,發放并回收問卷103份,有效問卷96份,有效率93.2%。在問卷發放之前,征得機場相關單位領導的同意和支持,向參與問卷調查的各位飛行員講清楚此次調研的實際意義并保證收回的問卷只用于科學研究,不作為評判機場設施好壞的標準,而且采取不記名的方式,從而消除被調查者的抵觸情緒,同時在正式的場合發放問卷,保證測試過程和形式的正規化,在所有人作答完畢后將問卷收回,保證100%回收問卷。 為了檢驗本文所設計的問卷是否符合單維性假設,本文采用SPSS軟件對前期所調查的問卷數據進行分析,分析結果如表2和圖2所示。 表2 KMO和Bartlett檢驗結果 由表2可知KMO=0.831,大于0.5,Bartlett球形檢驗的P值為0.000,小于0.05,2項指標均滿足要求,說明本次所得問卷數據適合進行因子分析,仍利用Spss軟件對該問卷數據進行因子分析,得到因子碎石圖,見圖2。 圖2 因子碎石圖 由圖2可知,第一因子即貢獻率最高的因子的特征根值為13.380,第二因子特征根為2.636,二者之比為5.076>5,說明單維性假設成立。 結合實際情況,本文擬采用IRTPRO軟件對GRM進行模型擬合檢驗[15]。關于模型擬合檢驗的指標較多,目前沒有較為統一的標準,通過對IRT基本原理與特點的分析,擬采用RMSEA指標對模型擬合的好壞進行評判。RMSEA指標表示所建立的模型與原數據的匹配度,與擬合程度呈負相關,通常來說,RMSEA=0表示模型與數據完全匹配,模型適應性達到最佳,<0.05表示模型擬合度較好,在可接受范圍內。經IRTPRO軟件計算所得的RMSEA值為0,據此可認為調查問卷數據能夠完全擬合GRM,具體結果如表3所示。 表3 模型擬合檢驗參數 本文使用IRTPRO軟件對問卷中題目數據進行參數估計,得到各個指標的等級參數和區分度參數,見表4。 由表4可知,題目1、28、29、30的區分度a分別為4.76、0.05、0.44與5.18,均不符合0.5~4的要求,題目10、18、20、25~31的難度參數b不符合-3~3的要求,這些題目指標應該予以修改或刪除,但應修改還是刪除需結合具體題目的信息曲線來確定,該11項的題目特征曲線見圖3。 表4 題目參數估計值 由圖3可知,題目26、28、29(即洞庫距三線合一停機坪距離、平地區平整度與土跑道平整度)的特征曲線各項指標均不符合要求,而題目10、18、20、21、27、31(滑行道制動性能、引導燈光布局、升降帶內障礙物情況、滑行道兩側障礙物情況、防護設施狀態與端保險道表面狀況)的特征曲線雖然較平緩,滿足一定要求,但題目信息曲線顯示各個指標的信息量太少。因此,本文將上述9個題目指標予以刪除。指標1和指標30雖然區分度a較大,但能提供的信息量較多,所以,不予刪除而是修改,通過修改表達方式達到減小區分度的目的。通過剔除所有不滿足要求的題目指標后,最終問卷剩余22個指標。 心理測驗通常是為解決一定社會問題而產生的,測驗用途不同,測驗的具體目的也就有區別,對測量精度或者是測驗鑒別力的實際要求也就不一樣。根據測驗目的提出具體的實際要求,就應設計測驗信息曲線的種種目標狀態。包括測驗信息曲線的峰值點個數及出現的位置等相關參數,即整個曲線的形狀及其分布情況。這種直接體現測驗目的要求的測驗信息曲線的目標狀態,稱為測驗編制過程中的測驗目標信息曲線[16]。結合軍用機場飛行區設施使用現狀及特點,本文所設計問卷均是5級記分,相比于傳統的0,1記分目標信息曲線的單峰曲線,5級記分的目標信息曲線應有4個峰值點位置,即每兩個相鄰等級之間有一個峰值點,每個峰值點所對應的θ軸上的點,是測驗能提供出最大信息且測量誤差最小的點,這個關系可從式(2)中得出,如果這4個θ值點恰好代表了非常不滿意與不滿意,不滿意與一般,一般與滿意,滿意與非常滿意的態度量值的分界點,那么這一測驗在不同等級劃界點上就有最小的測量誤差。 圖3 參數不符合要求的項目特征曲線(實線)及項目信息曲線(虛線) 圖中細實線為測驗信息曲線,粗實線為目標信息曲線,虛線為標準差曲線,與測驗信息曲線相對應。從圖中可以看出,測驗信息曲線能夠覆蓋目標信息曲線,即滿足最低信息量要求,同時測驗信息曲線和目標信息曲線相差不多,因此不考慮繼續刪減題目,至此問卷設計工作完畢。 圖4 測驗信息曲線和目標信息曲線對比圖 1)本文研究表明該機場飛行員對滑行道制動性能、引導燈光布局、升降帶內障礙物情況、平地區平整度、土跑道平整度、洞庫隱蔽性、防護設施狀態、洞庫距三線合一停機坪距離與端保險道表面狀況的態度量值差別較大,而且相應的題目提供的信息量也很少,說明飛行員對這些設施的狀態或布局關注不多,不是影響他們對設施滿意度評價好壞的重要因素。本項研究也存在一些局限性,這些數據來自某軍用機場,在該地區以外的適用性還不確定。本文所設計的調查問卷也是因地而異,僅供參考,在實際應用時,需根據不同地區的特點作出相應調整。 2)本文僅研究了飛行員對機場飛行區設施的滿意度問卷設計,而機場飛行區設施的使用者還有場務人員、機務人員等,不同的人群對設施的關注點不同,因而態度量值也不同,但是這些人群和飛行員的調查原理是一樣的。因此,利用本文所提的設計方法同樣可以得到其他人群關于機場飛行區設施使用滿意度的態度量值。 3)關于滿意度測量的計算機化自適應測驗還沒有相關研究成果。題目反應理論的發展趨勢就是計算機化自適應測驗編制,其測試形式就是由計算機自動從題庫中選擇合適的題目給被調查者作答,被調查者在作答完每一道題目之后,計算機會自動重新評估被調查者的態度量值,然后計算機根據被調查者當前的態度量值估計值,再選擇最適合他當前態度量值的題目,繼續進行測驗,直至測驗達到某個預先設定的終止規則為止。未來要建立數量足夠多、涉及范圍足夠廣的題庫,以此達到計算機化自適應測驗的目的,減輕研究人員工作量,同時提高測驗效率和精度,而根據本文方法,可以逐步完善調查題庫。1.2 IRT調查精度控制原理

2 基于IRT的問卷設計過程
3 實例驗證
3.1 指標設計

3.2 試調查
3.3 單維性檢驗


3.4 GRM擬合檢驗和局部獨立性檢驗

3.5 參數估計與題目篩選

3.6 目標信息曲線確定











4 結語