999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

初級衛生保健領域量表的設計與開發:實用步驟與統計方法

2024-03-08 01:10:24王飛湯靖琪孫小楠孫昕霙黎俊孟星星吳一波
中國全科醫學 2024年13期
關鍵詞:測量模型

王飛,湯靖琪,孫小楠,孫昕霙,黎俊,孟星星,吳一波*

1.100875 北京市,北京師范大學認知神經科學與學習國家重點實驗室

2.200062 上海市,華東師范大學心理與認知科學學院

3.150081 黑龍江省哈爾濱市,哈爾濱醫科大學公共衛生學院

4.100191 北京市,北京大學公共衛生學院

5.100191 北京市,北京大學第三醫院全科醫學科

6.230039 安徽省合肥市,安徽大學哲學學院

WHO 在1977 年第30 屆世界衛生大會上提出“人人享有健康”的宏偉目標,并指出初級衛生保健是實現這一目標的關鍵和基本途徑[1]。全科醫生作為初級衛生保健服務的主要提供者,常需要面臨臨床和科研的雙重壓力。在實際的臨床工作中,全科醫生通常很少使用量表來幫助診斷,但在科研工作中,由于量表具有便捷等優勢,量表研究已經成為全科醫生青睞的研究范式之一。然而,量表的設計與開發涉及多個復雜且耗時的步驟,這些程序可能會令人望而卻步,且其中的部分程序通常會被忽略[2]。這就導致目前量表設計領域研究存在一定的問題,如:一項系統評價研究顯示,在納入的多項使用問卷評估運動員和教練營養態度、營養知識的研究中,約70%的研究使用了效度和可靠性未知的工具,67%的研究使用了未經過驗證的工具[3];陳文雄編制的孤獨癥篩查量表中個別項目的信效度較差,但仍保留在正式量表中[4]。這些未經信效度驗證或信效度較差的量表會嚴重限制結論的準確性,甚至會起到負面作用。因此,制定出能夠指導初級衛生保健領域開展量表設計研究的標準化流程十分必要。除此之外,當前大部分初級衛生保健領域的量表設計研究是在經典測量理論的框架下進行的,這一技術對量表心理測量學特性的驗證至關重要,但由于經典測量理論的固有缺陷——誤差的模糊性和不可知性,常不能保證測量的客觀性,Rasch 模型是解決這一問題的良好方法。Rasch 模型以自然科學領域內的客觀測量為標桿,為社會科學領域的測量建立起一套客觀標準,可以確保測量所提供的信息更為客觀和可靠[5]。基于此,本研究將從經典測量理論和Rasch模型兩個角度來總結目前國內外初級衛生保健領域常用的問卷編制和量表設計方法,通過對具體步驟和統計學方法的闡述來幫助該領域研究者更好地開展研究。

1 實用步驟與統計方法

1.1 定義測量的構念

在初級衛生保健領域進行量表開發,最重要的一步就是對所需要測量的構念進行準確、概括的定義。定義中既需要解釋所要測量構念的內涵和外延,也需要解釋這一構念的結構是什么。這種定義通常由經典教材/指南、該領域權威專家、經驗豐富的全科醫生給出,也可以基于大量文獻和調查總結而來。前者在臨床上較為常用,為進一步擴展相關方法學應用,本文以基于大量調查和專家訪談確立定義為例。

WANG 等[6]的研究中使了Weiss-Laxer 等基于大量調查和專家訪談確立的定義:(1)研究者首先聯系知名家庭健康領域研究者組成專家小組,由研究執行者組成領導小組,以明確專家訪談的最終目標。(2)通過第1 輪專家咨詢,專家組提出并共同修改“家庭健康”的概念,由領導小組將概念劃分為6 個不同的領域。(3)專家進一步確認各領域的內容及包含的概念,并按照重要性和可行性程度進行劃分。最終得出家庭健康的定義為:其是家庭單位層面的資源,從每個家庭成員的健康、互動和能力,以及家庭的身體、社會、情感、經濟和醫療資源的交叉點發展而來。在量表編制過程中選用重要的4 個因素:家庭/社會/情感健康過程、家庭健康生活方式、家庭健康資源、家庭外部社會支持。有學者在研究開始前界定了構念的內涵,包含了想要去測量的家庭健康的確切主題,也涵蓋了家庭健康的相關維度,為研究的順利推進奠定了基礎,其方法值得研究者學習。研究者也可以根據定義來確定問卷的初始維度和預期目的,以使初始測試盡可能多樣化。

1.2 生成條目池

在完成測量構念的定義后,研究者即開始制作初始維度的條目池。代表同一維度的條目池要盡可能冗余,以確保最后能夠符合預期條目,也避免在后期數據處理過程中刪減條目造成條目數不足等問題。一般來說,研究者所編制量表的條目至少要達到最終保留版本的2 倍。

條目池的生成通常以經典教材、指南、文獻和理論為指導,結合針對臨床問題的既往研究或已有問卷,通過對已有資料的評估,編制出能夠測量各維度特征的問題。因此,在編制量表條目池前一定要明確各維度的定義,根據各維度的定義來編制符合其含義的問題。如高志強等[7]編制成功恐懼問卷時,通過對已有研究進行整理與分析,總結出了成功恐懼的結構維度包括生活品質、家庭幸福、身體健康、心理健康、人際關系和戀愛擇偶,然后圍繞該6 個維度編制了最初的條目池,并針對施測人群進行了初始化的結構化訪談和半開放式的問卷調查。

在量表設計的語言方面也要遵循一定的原則,在編制量表條目時使用的語言應盡可能簡單明了,避免使用專業性詞匯和雙重否定,因為這會讓受訪者感到困惑;各條目的語言應盡量避免涉及社會禁忌和個人隱私,防止受訪者出現抵觸情緒,干擾研究;語言的使用一定要符合受測者所處地區的文化規范,必要時需進行調整。在成功恐懼問卷的編制中,完成對量表內容的制定后還邀請了中文系專家對量表語言進行評估,以排除語意重復和存在歧義的條目[7]。

1.3 選擇響應格式和評分系統

1.3.1 響應格式:響應格式選擇通常與條目池的生成同步進行,研究者需要根據實際情況和調查的具體目的來選擇適合該研究的評分系統和響應格式。

首先,研究者需要確定所編制條目池中每個問題的響應格式,是采用開放式提問的方式還是封閉式提問?開放式提問要求施測對象提供每個問題的答案,這對于受訪者和研究者來說難度較大,同時給出的答案具有多樣性,不利于進行編碼計分。開放式提問的好處是可以為研究者提供更多的思路,一般更適合在初始調查中使用,而在一個成型的量表中使用得并不多。因此,在初級衛生保健領域研究中,使用較多的仍然是封閉式提問。封閉式提問會給出具體的選項,對施測對象來說更容易回答,但這也會造成其他問題,如答案是設置單選還是多選?給出的可選擇答案不同是否會影響測量結果?這在量表設計類研究中都是不可忽略的。

在絕大多數量表設計類研究中使用較多的是單選題,但是多項選擇仍然是有價值的,因為很多時候一個問題并不會只有一個答案,而多項選擇能夠提供關于該問題更多的信息。孫昕霙等[8]利用項目反應理論開發出了糖尿病功能性健康素養量表,該量表共30 道題目,其中3 道是多選題,這提供了與糖尿病功能性健康素養有關的更多的信息。在評分方面,該量表將多選題按選項數量每答對1 個選項計1 分,但這種計分方式較為復雜,同時也會受到選項設置的干擾。一般來說,“選擇所有正確的選項”的問題可能難以“編碼”和評分,應盡可能避免[2]。此外,在封閉式提問設置選項時,仍然需要加以注意。如在量表選項設置中是否應該加入“不確定”這一選項,ALSAFFAR[9]在翻譯營養知識問卷時就使用了“不確定”這一選項,但FOLASIRE 等[10]對此提出了質疑,質疑原因為“不確定”選項容易導致那些對選項有很好了解的人在信心低下時避免回答或因為懶惰而選擇逃避。除此之外,研究者還應避免將“其他”類別作為選項,當然只有在仔細確定了絕大部分可能存在的潛在類別之后,才能做出不提供“其他”選項的決定。

1.3.2 評分系統:在一份量表中,評分系統的設置需要結合具體條目。一般來說,當問題回答有正誤之分時,只需將正確的選項計為1 分,將錯誤的選項計為0 分。但在大多數時候,受測對象很難做到絕對的二分,因此在實際研究中,常用的評分系統是Likert 評分系統,如Likert 5 級計分、7 級計分、9 級計分等。胡海利等[11]在編制中學生心理復原力量表時即采用了Likert 5 級計分法,以“從不”“偶爾”“有時”“經常”“總是”5個等級進行程度評定,分別計為1、2、3、4、5 分。而在涉及態度的研究中,研究者更傾向于使用“非常不同意”“有些不同意”“中立”“有些同意”“非常同意”5個等級,計分仍然是1~5 分。這兩者均屬于Likert 5 級計分,而7 級計分和9 級計分則是在5 級計分的基礎上進一步將選項細分。那么在研究中該如何選擇Likert 量尺點數呢?PODSAKOFF 等[12]認為,當調查對象具有較多的知識和較高的興趣時,量表需要更多的態度量尺點數,此時使用7 級或9 級計分比5 級計分更合適,因為態度量尺的點數越少,偏態程度越大。

此外,在研究過程中,哪怕是收集了數據后,不同量尺點數的Likert 計分之間仍然可以轉換。這種轉換是通過Rasch 分析實現的,Rasch 分析可以系統地分析每個選項的測量特性,通過繪制選項概率曲線(category probability curve,CPC)判斷是否存在選項等級的濫用和缺失[13]。以2021 年中國居民心理與行為調查(PBICR)中的法式煙草依賴評估量表(FTND)為例作圖[14],FTND 的條目1 為“您早晨醒后多長時間吸第1 支煙?>60 min(類別0),31~60 min(類別1),6~30 min(類別2),≤5 min(類別3)”。圖1 為條目1 的CPC圖,圖中每條曲線對應一個選項,橫軸代表被試煙草依賴程度(從左往右遞增),縱軸代表被試選擇的概率。以某位煙草依賴程度為-4 的被試為例,其選擇類別0的概率約為95%,選擇類別1 的概率約為5%,選擇其他選項的概率接近于0。因此,該被試選擇類別0 的可能性最大。以此類推,在類別0 與類別2 交點左側,選擇類別0 的概率最大;在類別0 與類別2 交點和類別2與類別3 交點之間,選擇類別2 的概率最大;在類別2與類別3 交點右側,選擇類別3 的概率最大。研究團隊在測量過程中發現,類別1 選項的使用率偏低,出現了Likert 等級濫用的情況。根據LINACRE[15]的建議,當出現Likert 等級濫用時,應考慮將相應選項與相鄰選項合并。因此,這里可以考慮將類別1 與類別2 合并為6~60 min,但合并選項后的量表仍需要再進行檢驗。需要注意的是,由于FTND 條目1 為多分類選項設置,因此在模型擬合時使用了分步計分模型(Partial Credit Model,PCM)。

圖1 FTND 條目1 的選項概率曲線圖Figure 1 Probability curve of item 1 options in the FTND

1.4 預測試

定性預測試是任何問卷或心理測量工具開發、翻譯或修訂的關鍵階段。選取小樣本受訪人群進行小范圍預測試,目的是驗證目標受眾是否理解條目問題與選項,從受訪者角度評價條目表述是否存在歧義,若出現語義理解困難、框架不清晰等問題,需修改條目后進行新一輪預測試,直至確保所有受訪者理解條目含義且內容可接受[16]。預測試主要采用便利抽樣法抽取樣本,盡可能選擇30 份或以上樣本,以確保數據分析的穩定性與可靠性[16],并需對目標人群進行問卷填寫感受與理解度調查。如程彥如等[17]在編制失能老年人照顧者居家照護行為量表時,采用便利抽樣法選取了3 個社區的102 名失能老年人照顧者為預測試對象。

預測試環節需進行量表的表面效度測評,即從受訪者角度看測評工具內容是否與測評目的一致,表面效度并不是真正的效度指標。在實際應用中,如果直接閱讀問卷條目能夠明顯覺察問卷的測量意圖,則該問卷表面效度較高。如測量護理人員洗手狀況的問卷涉及洗手次數、時長及方法等,故此問卷具備表面效度[18]。在初級衛生保健領域,研究者想要考察患者的行為情況或針對某一病情進行詳細詢問,必然應當提高量表的表面效度,確保“所答即所問”;然而在涉及個人隱私方面或影響社會形象的問題上,表面效度過高可能會導致欺騙和隱瞞行為的出現,因此表面效度的設置需要依據具體研究目的設定。

1.5 通過項目分析剔除條目

在初級衛生保健領域的量表編制過程中,應當在完成預測試后對量表進行項目分析,該步驟可為進一步修訂量表提供依據,也是后續正確評價量表的前提。項目分析的實質是探究每個題項的差異,檢驗其質量,并依據一定的標準對其進行修訂或剔除,保障項目之間的同質性與量表的可靠性。研究者主要可以從項目的難度、項目區分度和項目功能的差異3 個方面來考察。

1.5.1 項目難度:項目難度是指完成測驗項目的困難程度,是對測試者作答情況進行評估的指標,作答正確率越高,難度越低。設置測驗難度水平的目的在于通過研究者開發的量表將不同的受測者盡可能區分開來,以最大限度體現受測者的差異,體現量表的鑒別力。正如步驟3 所述,不同的量表類型適宜設置不同的計分系統,對于非二分法計分項目的難度可以采用所有受測者某一項目的平均得分與該題目滿分之比來計算難度。如在一項關于大學生健康素養的研究中,研究者將多項選擇題的反應進行重新編碼,換算成另一種比例,對于正確值<0.2 或>0.8 的項目都進行了重評,并考慮是否刪除[19]。過高或過低的難度值都會給得分的分布和分數的離散程度帶來影響,在實際操作過程中研究者應當考慮量表的性質和目的,科學設置合理的難度臨界值。

Rasch 模型與經典測量理論運用的方法不同,Rasch模型主要強調測量的客觀性和可比性。因此對于測量難度這一指標,Rasch 模型認為題目難度必須獨立于樣本被試分布,即抽樣的人群在選擇選項時不受題目難度的影響,同時個體的能力也應當獨立于測量題目的難度分布。即題目的難度不隨被試樣本的變化而變化,不受被試能力水平高低的影響。因此Rasch 測量能夠提供關于個體能力和題目難度的等距分數,將個體能力水平和題目難度水平置于同一個Logit 量尺中進行對比,刻畫被試能力水平和項目難度水平的人-項目圖(Person-Item Map)。圖2 是生活滿意度量表的人-項目圖,由該圖可知,圖中的黑點主要位于0~2,提示在生活滿意度量表項目中,中等及偏高水平生活滿意度的被試者提供的信息量最大,但不適用于用來評定生活滿意度水平較低的被試。不同的被試和項目分布在一張圖表中,可為研究者提供更多的信息。如果研究者計算出來的難度閾值和均值圍繞在0 附近,這就表明試題的難度適中。如惠建榮等[20]關于卒中患者生活質量量表的質量分析中,所有條目的難度閾值為-0.32~0.67(M=0.00,SD=0.34),這意味著所有條目的認可度處于中等水平,認可度良好。如果在量表開發過程中,項目難度水平過高或過低,則說明該題目所代表的行為或維度出現頻率并不高,或對于被試來說過難,而這樣的量表只有在針對特定人群(過高或過低水平的被試)時準確度才高。

圖2 生活滿意度量表的人-項目圖Figure 2 Person-item map of the Life Satisfaction Scale

1.5.2 項目區分度:考察項目區分度的目的在于檢驗設計的量表是否能將兩類不同的人真正區分開來,達到研究者預先的設想,主要包括鑒別指數法、相關法和矯正項總計相關性(corrected item-total correlation,CITC)法。

(1)鑒別指數的計算方法并不復雜,在統計好所有受測者的總分后按分數高低依次排序,測量學上一般以前后27%的比例劃分出高分組和低分組,對兩組人群的各題項得分進行獨立樣本t 檢驗,最終對于未表現出統計學意義的題項單獨考慮,必要情況下可以剔除,以保障量表的準確性。(2)可采用計算項目得分和測驗總分的相關系數(PT-mesure)作為區分度指標,相關系數越大區分度越高,最終綜合考量是否剔除相關度不佳的項目。(3)CITC 也可以用來考察量表維度中項目之間的相關性,如果≥0.5 則說明該題項與其他項之間有著較高的相關性,如果<0.5 則可以考慮刪除該項目后觀察Cronbach'sα系數的變化,或考慮修改該項目。花靜等[21]編制的兒童運動發育家庭環境量表運用鑒別指數的方法測量項目區分度,結果顯示,各個項目之間,高分組和低分組在71 個條目的得分上均存在統計學意義,因此在該階段保留了所有條目。楊振等[22]在對老年健康促進量表進行信效度檢驗時,測得條目與量表總分的相關系數為0.406~0.752,呈中等程度相關(臨界值為0.300),隨后結合信度系數對每個條目進行了進一步的檢驗。

在項目反應理論當中,難度與區分度是密不可分的,在中等難度下,項目的區分度常最高。因此,項目的難度也可以通過人-項目圖看出。圖2 中最下側為Logit標尺,從左到右測量值逐漸升高,對于每個被試而言,所處位置越靠近右端,其生活滿意度越高。圖中條形高度表示位于這一位置被試的數量,被試分布越集中說明該量表的區分度越小,分布越分散說明量表的區分度越大。在圖中的5 個項目上,被試的掌握水平基本呈偏態分布,并集中分布在0 Logit 到2 Logit 之間。這說明在5 個項目中,該量表的區分度較差,在區分生活滿意度較差的被試時較為困難。趙福菓等[13]在編制奧爾維斯欺負量表時,使用Rasch 模型發現難度分布非常集中,導致量表對不同霸凌/被霸凌程度被試的區分效果較差,尤其難以區分高霸凌/被霸凌群體。值得注意的是,一般意義上的Rasch 模型僅考慮了難度這一個參數,如果需要將區分度納入模型,需要使用雙參數模型。

1.5.3 項目功能差異(differential item functioning,DIF):DIF 是指兩組被試在某個項目上的表現差異,代表了項目對不同被試有不同的統計特性,如果在同一項目上正確作答的概率不同,達到某一臨界值,那么該項目則存在偏差,需要進一步的探究差異的來源[23]。Rasch 模型傾向于運用統計檢驗的方法計算DIF,隨著該理論模型影響力的進一步擴大,不同的學者提出了不同的計算方法。通過運用Mantel-Haenszel(M-H 方法)檢驗法檢驗被試者個人特征變量帶來的DIF,當差異>0.5 且P<0.05 時認為題目存在項目功能差異[24]。如杜海燕等[25]應用M-H 方法進行DIF 檢驗時發現第9、39、58 題呈現出中等或較為嚴重的DIF 現象。也可以通過Lord χ2卡方檢驗法、運用R 語言軟件進行DIF 檢驗,分析結果中χ213為項目功能差異指標,某一項中χ213>0.05 說明存在DIF[26]。如高爽等[27]應用Rasch模型分析Rosenberg 自尊量表時便是使用Lord χ2檢驗法,結果發現項目1 和項目5 存在DIF,即在這兩個項目上,性別差異導致自尊水平不同。對于多級計分題也可以使用方差分析法進行檢驗,如在WHO 殘疾評估計劃的開展過程中,發現不同性別群體間的項目難度不同,研究者采用方差分析,通過性別和其他有可能產生DIF的項目進行對比,從而找出不合適的項目進行修改[28]。值得注意的是,項目分析的三大方面并非要求在編制量表時全部使用,而是根據量表的特征加以選擇——量表是單項選擇還是多項選擇?是二分法還是多級計分?開發的量表是什么性質的?在項目分析過程中發現的問題項是否剔除也不能一概而論,簡單的刪除難度過大、區分度不良或擬合度不高的項目都并非值得提倡的做法,因為過于完美的模型難以真實存在,其只是一種理想性的假設與指導,應當結合多項指標的綜合情況進行考慮。

1.6 量表的初次評價

1.6.1 基于經典測量理論的初次評價:經典測量理論也被稱作真分數理論,20 世紀50 年代趨于完善。該理論認為測驗得到的分數X 是由真分數T 和隨機誤差E 所組成,即X=T+E,誤差E 的平均數為零,T 和E 之間的相關為零。并在此基礎之上建立了測驗項目的測量學指標,如信度、效度、難度和區分度等,并以此篩選測驗項目、建立題庫和構制測驗[29]。前文中已經對如何利用難度和區分度篩選測驗項目做了詳細說明,此處旨在介紹如何運用經典測量理論來完成測驗的初次評價,即進行探索性因素分析(exploratory factor analysis,EFA)和信效度分析。

(1)EFA 作為一種經典測量理論技術,已經被廣泛運用于初級衛生保健領域的量表設計與開發之中。EFA 主要是通過數學的方法探索量表中的變量或因素,以此來確定量表的具體維度和每個項目歸屬于哪個維度。EFA 應包括確定變量及樣本、確定是否可以進行EFA、確定因子個數、因子旋轉4 個關鍵步驟。

①確定變量及樣本。這是進行數據分析前的準備工作,對于整個研究來說至關重要。該階段要求研究者根據以往研究和理論盡可能編制或收集與自己研究主題相關的條目,有時甚至需要包含一些與主題無關的條目。因為在經過EFA 的篩選之后,剩下的條目常會比原始條目少很多,如何決定條目的去留也是研究者需要關注的問題,常見的標準有因子載荷量、項目共同度、跨因子載荷等。通常認為成分矩陣中項目的因子載荷量>0.71 為優秀,>0.63 為非常好,>0.55 為好,>0.45 為一般,>0.32 為差[30];項目共同度不能過低,一般認為項目共同度不得低于0.30[31];同一個項目不能在兩個因子上都有著較高的載荷,如陳貴等[32]剔除了在不同因子上有相近載荷且難以解釋的項目。在做因素分析之前,還需要注意樣本量,因素分析的樣本量不可太低,否則結果沒有太大說服力。Corsuch 建議的樣本數和變量數比為5 ∶1,同時樣本量不能低于100;Nunnally 則推薦樣本數和變量數比為10 ∶1[33]。

②確定是否可以進行EFA。EFA 的目的是簡化數據或者找出量表的基本數據結構,目前研究者普遍采用主成分分析法來進行EFA,因此在進行EFA 之前需要確保因素分析的理論假設和統計假設得以滿足。因素分析的理論假設認為這組變量中確實存在潛在結構,而統計假設要求觀測變量之間存在較強的相關性。因此,在進行EFA 前需要確保以下幾個條件被滿足:項目間相關性>0.3、Bartlett 球形檢驗顯著(P<0.05)、抽樣充分性(MSA)的KMO 度量至少為0.6[2]。項目間相關性>0.3 要求研究者計算所有題目的相關性,如果所有或大部分相關性≤0.3 則不適合做EFA。球形檢驗和MSA 也是同樣的道理。如郭靜等[34]在修訂中文版心理脆弱性問卷時進行了KMO 度量和Bartlett 球形檢驗,結果顯示KMO=0.89,Bartlett 球形檢驗的χ2/df=25.31,P<0.001。需要注意的是,這些參數合格僅代表可以進行因素分析,而不是說明因素分析結果較好。

③確定因子個數。確定所選變量的因子結構和因子個數是EFA 中非常關鍵的一步,因子抽取過少或過多都會造成一定的問題,但實證研究中更傾向于保留較多的因子,因為抽取過度相比于抽取不足的因子載荷估計更加準確。因此,研究者提出了多種檢驗方法來幫助決策,主要包括3 種。其一,特征值>1,也叫K1 原則,是研究者最常采用的標準之一。其二,解釋方差總量。方差解釋量也是基于主成分分析法的思想發展而來,關于因子解釋多少總體方差合適并沒有統一的標準,有研究者認為因子解釋的方差總量應不低于50%[35]。表1 顯示了8 條目一般自我效能感量表的因子分析結果[14],其中僅有一個主成分的特征值大于1,研究者據此認為一般自我效能感量表是個單維度的量表,僅包含1 個因子;不僅如此,表中還顯示了該因子的方差解釋量(71.91%),意味著該因子能夠解釋一般自我效能感71.91%的變異,能較好地反映一般自我效能感。其三,碎石圖。碎石圖提供了因子數和特征值大小的圖形表示,研究者只需要根據EFA 給出的碎石圖選擇出現拐點時對應的因子數即可,這種方法簡單方便,也更加直觀。圖3 為一般自我效能感量表的碎石圖,由圖可知,在從第1 個成分開始,特征值產生了巨大轉折,因此可將第1 個成分視為拐點,認為該量表僅包含一個因子。

表1 基于主成分分析法的一般自我效能感量表因子分析結果Table 1 Factor analysis results of the General Self-efficacy Scale using principal component analysis

圖3 一般自我效能感量表的碎石圖Figure 3 Scree plot of the general self-efficacy scale

④因子旋轉。在確定了因子個數后,下一步就需要確定因子旋轉的方法。因子旋轉的方法可分為兩大類:斜交旋轉(oblique rotation)和正交旋轉(orthogonal Rotation)。與斜交旋轉不同的是,正交旋轉需要假設因子之間無相關。就初級衛生保健領域的實證研究而言,因子之間常存在著或大或小的相關性,因此采用斜交旋轉更加客觀,然而目前已發表的絕大多數研究使用的多是正交旋轉,其結果更有利于研究者對因子結構做出解讀,但這也容易對研究結論造成誤導。因此,研究者在未來的研究中先選用斜交旋轉,如果發現因子間相關性較小或沒有相關性再考慮采用正交旋轉。

(2)信度分析:經歷了EFA 的剔除條目后,正式量表已經成型,此時還需要利用該數據檢驗正式量表的信度。信度是指測量結果的穩定性。如果一個人的同一種特質能夠用同一種測量工具反復測量,那么各種測量相互間的吻合程度就稱為信度,有時也稱為測量的可靠性。在經典測量理論中,衡量信度的方法通常包括復本信度、重測信度、同質性信度、分半信度、評分者信度。在臨床研究中,由于復本信度較難獲得,故很少使用這一指標,研究者更傾向于使用重測信度、分半信度和同質性信度。

①重測信度:在量表設計類研究中,量表的跨時間一致性是一個衡量測量工具可靠性的重要指標。因此,在初級衛生保健領域進行量表的開發和設計時,需要報告該量表兩次對同一組被試施測所得結果的一致性程度,其大小可用前后兩次相同測驗的皮爾遜積差相關系數來表示。如劉蕾等[36]在編制中文版老年人鍛煉心理需求滿足量表時報告了該量表的重測信度為0.883,3 個維度的重測信度系數為0.829~0.876。對于測驗中的重測信度,一般公認的評價標準是:0.65~0.70 為最小可接受值,>0.70~0.80為相當好,>0.80~0.90為非常好[37]。因此,劉蕾等[36]編制量表的重測信度較好,但劉蕾等[36]并未報告兩次施測的間隔,這也是影響重測信度的重要因素,在今后的研究中應加以注意,因為隨著第2 次測量的時間不同,量表可以有不同的重測信度。

②復本信度:通過設計兩個平行測驗來測量同一批被試,所得結果的一致性程度稱為復本信度,其大小可使用兩個復本測驗上同一批人測試的皮爾遜積差相關系數來表示。復本信度也是衡量量表可靠性的一個指標,但是由于設計復本測驗費時費力,同時又很難保證兩個測驗在內容和結果上一致,故其在測量領域并未得到廣泛使用。劉愛梅等[38]在編制適用于突發性耳聾患者的健康知信行問卷時就使用了這一信度,復本測驗采用內容、應答形式相似的問卷進行調查,結果發現健康相關知識部分的復本信度為0.88,而復本信度的評價標準與重測信度基本保持一致[37],故該量表的復本信度較好。

③分半信度,也叫內部一致性系數,研究者需要將一個完整的測試分成對等的兩半,比較參與測驗的被試在新得到的兩組上測驗分數的一致性。分半信度是目前研究中使用較多的信度指標之一,研究者只需要在統計軟件內進行簡單操作即可得出量表的分半信度。

④同質性信度:研究者可通過測量測驗內部所有題項間的一致性程度得到同質性信度,即內部一致性系數。研究者一般采用Cronbach'sα系數來衡量一個測驗的內部一致性。Cronbach'sα系數是目前研究中使用最多的信度,與分半信度類似,研究者只需要在統計軟件內簡單操作即可算出該量表的Cronbach'sα系數。量表的Cronbach'sα系數最好在0.80 以上,0.70~0.80 是可以接受的范圍;分量表的Cronbach'sα系數最好在0.70以上,0.60~0.70 是可以接受的范圍[37]。

⑤評分者信度:由多個評分者給同一批人的答卷進行打分,通過計算得分的一致性,可以得到量表的評分者信度。其大小等于一個評分者的一組評分與另一個評分者的一組評分的肯德爾和諧系數。肯德爾和諧系數是表示多列等級數據相關程度的一種量數,常用于評價多個主評者的評分一致性。

(3)效度分析:在進行初級衛生保健領域量表設計研究時,還應檢驗所編制量表的效度。效度是一個測試量表能夠測量其試圖測量特征的程度。效度的理論定義是:在與測量目的相關的一系列測量中,真實變化(被測量變化引起的有效變化)與總變化(真實變化)的比值。測試效度可分為內容效度、結構效度和經驗效度。

①內容效度:是由相關專家對測評工具的條目與內容范圍的吻合度進行詳盡、系統判斷。其中,參評專家的資質、專業范圍是內容效度評估質量的基本保障。如崔楚云等[39]選擇6 名護理領域專家(來自學校和醫院的護理學教授、護理部主任及臨床護理專家)對量表內容效度進行評價,因為選擇研究領域的教授或臨床專家是開展內容效度評價是最常見的選擇。另外,內容效度在條目篩選中的定量評估包括多種指標計算,其中內容效度指數(content validity index,CVI)由于計算簡單、易于理解和交流、可對隨機一致性進行校正等優點得到了廣泛應用。項目水平的內容效度指數(I-CVI)可以評估各項目的內容效度,量表層面的內容效度指數(S-CVI)可用于衡量整個量表的內容效度。如在完成冠心病患者二級預防服藥依從性問卷的初步編制后,研究者依照Likert 4 級評分法編制專家評定表,選項設定為“不相關”“修改否則不相關”“很相關但仍需修改”“十分相關”4 級,依次計為1~4 分,發放給專家作答,回收后計算得出I-CVI 和S-CVI 均為1.00,表明問卷的內容效度良好[40]。

②結構效度:測驗在實際上所測到想要測量的理論和特質的程度即為量表的結構效度,其表示了一份量表在多大程度上能夠說明測驗理論的某種結構或特質。在實證研究中,研究者一般可以通過項目分析、EFA 及驗證性因子分析(confirmatory factor analysis,CFA)來衡量一個量表的結構效度。項目分析是通過計算量表各條目與所在維度的相關矩陣及各維度之間的相關矩陣來檢驗量表各維度之間的關聯性與獨立性。如楊麗等[41]在認知風格問卷中使用了項目分析來衡量量表的結構效度,結果顯示項目與所在維度的相關系數均在0.55 以上,基本分布在0.56~0.75,問卷的項目區分度良好,認知風格問卷4 個維度之間存在中等相關,說明4 個維度相互關聯,同時相對獨立。EFA 與上節所述基本一致,只不過這次不需要刪減條目,一般來說,經歷過EFA形成的問卷在檢驗其結構效度時應重新收取新的數據,對新的數據采用EFA 或CFA 來衡量。如WU 等[42]在檢驗中文版杜克抗凝滿意度量表(DASS)的信效度時使用AMOS 軟件進行CFA 來檢驗模型擬合,結果發現各項指標均顯示4 因素的DASS 模型擬合良好[CMIN/DF=1.825(<5.000),適配度指數(GFI)=0.854(>0.850),相對擬合指數(CFI)=0.938(>0.900),漸進殘差均方和平方根(RMSEA)=0.066(<0.080),標準擬合指數(NFI)=0.875(<0.900),Tucker-Lewis 指數(TLI)=0.921(>0.900)],量表具備良好的結構效度。

③實證效度:如果一個量表能夠對處于具體情境中的被試的行為進行有效估計,則稱該量表具有良好的實證效度或校標關聯效度。效標效度主要可以通過相關法、區分法、命中率法來衡量,而目前初級衛生保健領域的量表設計研究多采用相關法。相關法是測試成績與效度變量之間的相關程度。計算出的相關系數為效度系數,效度系數的平方為效度。如游永恒等[43]就選取總體幸福感量表(GWB)作為效標來驗證Beck 抑郁(BDI)量表的同時效度,再發放抑郁量表時同時要求作答校標量表,結果發現總體幸福感各維度及總分與抑郁總分均有明顯相關性(P<0.001),這表明BDI 量表具有較好的效標效度。

1.6.2 基于Rasch 模型的初次評價:Rasch 模型是一種基本特征模型,其通過個體在某項上的表現來衡量基本特征。Rasch 模型的基本原理是:一個人在具體題目上的具體表現是由這個人的能力和題目的難度來衡量的,因此個體反應的好壞完全取決于個體能力和項目難度。Rasch 模型是一種理想化的數學模型,因此Rasch 模型對客觀測量提出了兩個要求:第一是對任何題目,能力高的個體應該比能力低的個體有更大可能做出正確回答;第二是任何個體在容易題目上表現得更好,在困難題目上表現得更差[44]。盡管Rasch 模型已經發展了數十年,但其仍未引起足夠重視,尤其是在初級衛生保健領域。在中國知網以“Rasch”為主題進行檢索,發現1915—2022 年僅發表了160 篇核心期刊論文,其中2017—2021 年的研究占比高達46.25%,這意味著近年來Rasch 模型已逐漸得到研究者的注意,然而這些研究仍然主要集中于心理學、教育學領域,涉及初級衛生保健的文章僅有幾篇。因此,在初級衛生保健領域開展Rasch 模型研究非常必要。

(1)單維性檢驗。項目反應理論(item response theory,IRT)是一種關于個體回答問題的概率與潛在特質之間關系的數學表述,是區別于CTT 的又一測量領域的經典理論。常見的IRT 模型包括單參數模型、雙參數模型和三參數模型[44]。部分研究者將Rasch 模型作為IRT 單參數模型的一個特例,其使用有一個前提,那就是量表具有單維性。單維性是指測量過程中有且僅有一種潛在特質影響被試作答。在這里需要注意的是,一種潛在特質并不意味著該量表只能有一個維度,只要量表中的各個維度都指向同一種特質即可。如陳圓圓等[45]在漢化營養素養評價工具時發現該工具包含6 個分量表,但分量表中包含的條目都指向營養素養這一特質,于是針對分量表和全量表均做了Rasch 分析。一般采用Rasch 模型殘差主成分分析法(PCA)檢驗量表單維性,根據Raiche 的建議,首因子殘差標準化特征值在1.4~2.1即可認為該數據滿足單維性的要求,適合Rasch 模型[45]。如陳圓圓等[45]在漢化營養素養評價工具過程中進行單維性檢驗,發現分量表1~6 的首成分殘差特征值為1.6~1.8,總量表的首成分殘差特征值為3.1,即認為該量表適合進行Rasch 分析。

(2)模型擬合度。從懷特圖中可得知,Rasch 模型能夠估計項目的難度和被試的能力水平,通過將實際的觀測分數與每個被試在每個項目上答對的理論概率進行比較,即可評估Rasch 模型的擬合情況。Rasch 模型通常需要計算兩個擬合指標:加權均方擬合統計量(infit mean square,infit MNSQ)和非加權均方擬合統計量(outfit mean square,outfit MNSQ),兩者接近于1 表示模型擬合效果好。一般認為,當數據擬合良好時,非加權均方擬合統計量和加權均方擬合統計量為0.5~1.5 為好[46]。以生活滿意度量表為例[14],研究者收集了569 份數據,使用R 軟件進行模型擬合度檢驗,結果見表2。由表2可知,所有項目的參數基本在可接受范圍內,說明數據與模型達到了很好的擬合。題目5(如果我能重新活過,差不多沒有東西我想改變。1=不同意,2=有些不同意,3=中立,4=有些同意,5=同意)的非加權均方擬合統計量和加權均方擬合統計量參數值分別為1.52 和1.40(均>1.000)。這意味著有較高生活滿意度的人選擇了低分,即不同意/有些不同意;而有著較低生活滿意度的人選擇了高分,即同意/有些同意。因此,題目5 在區分被試生活滿意度時誤差較大,需要進一步考慮是否需要保留該條目。

表2 生活滿意度量表的模型擬合參數Table 2 Model fitting parameters of the Life Satisfaction Scale

此外,一個較好的項目或量表應該能夠為測試提供較多的信息,降低對被試特質水平估計方面的誤差。項目反應理論認為,用與被試特質水平相當的量表進行測試時,量表才能提供最精準的測量結果。在研究中,一般采用測試信息曲線進行測量,其可以反映當不同特征水平的被試完成完整量表的所有項目時,量表整體能提供準確評價的程度。其中,項目的難度可參見橫坐標,代表了被試的特質水平,每個刻度代表1 個Logit 單位,縱坐標代表信息量,即Fisher 信息函數[13]。圖4 是生活滿意度量表的測驗信息曲線圖[14],其中上半圖是各條目的測驗信息曲線,下半圖是總量表的測驗信息曲線。總體而言,該量表在生活滿意度估計值為0~2 時準確率最高,能為中、高生活滿意度的被試提供最大的信息。如高爽等[27]在計算Fisher 信息函數后發現,自尊的估計值為-2~0,可以提供最高的測量精度,為中、低自尊被試提供最多的信息。

圖4 生活滿意度的測驗信息曲線Figure 4 Information curve of life satisfaction test

(3) 信度。Rasch 模型以分隔信度(person separation reliability,PSR)衡量量表信度,分隔信度可以通過計算個體所產生“真實”變異與總變異的比例得出,通常用于考察受試者在項目評定上的可靠程度[13]。Rasch 模型測量的總體信度是通過計算個體水平上的解釋率得到的,其值從0 到1。一般情況下,可靠性指標在0.7 以上為可接受,0.8 以上為良好[5]。

1.7 量表的再次評價

從第1 步到第6 步,一個量表基本已經成型。但由于量表條目篩選和信效度檢驗均是采用同一份樣本進行,該量表是否具有跨樣本和跨時間的一致性仍然是未知的。因此,研究者應該使用正式量表重新收集一個新的樣本,檢驗該量表在新樣本上的信度與效度。當然,需要注意的是,如果研究者需要檢驗該量表的重測信度,那么第2 批量表的被試中就應該包含一部分第1 批施測的對象。由于信效度分析的相關內容已經在前面闡述,研究者只需要使用相同方法再次檢驗即可,故不再贅述。此處僅對經典測量理論中使用CFA 檢驗量表結構效度的方法進行闡述。

CFA 是指在明確觀測指標和潛在因子之間隸屬關系的前提下進行的假設檢驗,是理論驅動型分析。在經歷了EFA 以后,已經明確了正式量表的因子結構,故可以利用新數據構建CFA 模型來檢驗量表的結構效度。再根據輸出結果的擬合狀況考慮是否需要進行模型修正,主要選用的擬合指標包含卡方自由度比值(χ2/df)、GFI、調整擬合優度指數(AGFI)、RMSEA、NFI、增量擬合指數(IFI)、相對擬合指數(RFI)、CFI、TLI 等。這些參數的適配標準為:χ2/df<2 時(也有研究者認為χ2/df<3),表示假設模型的適配度較佳[47];RMSEA<0.08 意味著模型尚可接受[6];AGFI 與GFI 應>0.90,表示模型與數據有著良好的匹配度[48];NFI、RFI、IFI、TLI、CFI 應>0.90[48]。如果這些擬合指數未達到較好的適配標準,研究者應考慮對模型進行修正,具體做法是利用AMOS 報表呈現的MI 值,釋放兩個測驗誤差變量彼此之間的關系,即在其之間建立共變關系[46],從而達到對優化模型的目的。

2 討論

量表設計類方法在初級衛生保健領域得到了充分的運用,這主要體現在量表設計研究的使用廣度上。大部分研究會涉及量表的使用,故一個量表的設計與開發是否合理便決定了該研究是否可靠。而目前關于量表設計的研究仍存在諸多不規范的地方,如信效度較差、缺乏關鍵步驟、統計錯誤等。總體而言,在初級衛生保健領域開展量表設計類研究需要嚴格按照上述標準化流程進行,這在一定程度上能夠解決研究過程中步驟和統計方法使用不規范的問題。當然,為了更好地掌握這種方法,有些必需技能也是需要注意的。

量表設計類研究所需要的必要技能主要包括理論指導和統計檢驗。理論指導是自上而下的加工,是理論驅動的過程。理論指導要求研究者在開發量表前期和中期一定要閱讀大量相關文獻,了解所需要測量特質的結構及現有理論和量表,只有在了解這些成熟的前人經驗的基礎上才能盡可能地確保所編制量表的有效性。而統計檢驗是自下而上的加工,是數據驅動的過程。統計檢驗可以幫助研究者更好地發現項目編制過程中存在的問題,同時也是研究者篩選不佳條目的重要參照。研究者通過統計學來檢驗量表的信度和效度,以此來保證這一量具的客觀與有效。綜上,理論指導和統計檢驗是量表設計類研究中兩項必需的技能,只有將這兩者很好地結合起來,將自下而上的自上而下的角度一起考慮,才能最大限度地保證所設計測量工具的可靠性。

此外,從統計的視角來看,傳統的因素分析和Rasch分析(項目反應理論)是兩種不同的數據分析方法。因素分析傾向于將被試的反應(即0~4 點評分的選擇)理解為是連續變量,而項目反應理論則將其視為5 個不同的類別[49]。因此,在量表開發或漢化過程中,可以使用兩種方法一起檢驗量表的信效度,但切忌混用,例如使用經典測量理論刪減條目之后再使用項目反應理論去構建統計模型。

本研究較為系統地闡述了如何在初級衛生保健領域開展量表設計研究,但由于篇幅和專業限制,部分臨床醫生可能很難理解文中出現的術語。另外,可能對于大多數全科醫生而言,如何選取一個合適的量表比設計一個量表更為直接、有效。為此,在附件中提供了文中出現的一些專業詞匯的解釋及全科醫生選取量表的相關建議(請掃描文章二維碼獲取)。此外,本研究還為研究者提供了繼續深入學習量表設計類方法的參考文獻,如《潛變量建模與Mplus 應用-基礎篇》[33]、《健康調查問卷設計原理與實踐》[49]、《R 語言:量表編制,統計分析與試題反應理論》[50]、《心理與行為定量研究手冊》[51]。總的來說,研究者在開展量表設計時需要嚴格遵守標準化流程,具體步驟可參照清單中的相關資料操作,以確保設計量表的客觀性和有效性。

致謝:感謝安徽大學哲學學院的高志強副教授在心理測量領域給予的指導,正是因為高志強副教授的心理測量課程才讓本文作者很早就了解到了這一領域。還要感謝參與2021 年中國居民心理與行為調查的全體調查員,正是因為有了大家的參與,才能有如此多的數據來支持文中的相關圖表。

作者貢獻:王飛提出選題方向,負責數據處理,撰寫論文初稿;湯靖琪參與論文初稿撰寫,并進行數據管理;孫小楠負責論文修訂;孫昕霙對文章提出了批判性建議;黎俊從全科醫生的視角對文章進行了修改和完善;孟星星、吳一波全程指導論文寫作,負責文章的質量控制及審校,對文章整體負責;所有作者確認了論文終稿。

本文無利益沖突。

猜你喜歡
測量模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
把握四個“三” 測量變簡單
滑動摩擦力的測量和計算
滑動摩擦力的測量與計算
測量的樂趣
3D打印中的模型分割與打包
測量
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产精选自拍| 青青青视频91在线 | 国产嫖妓91东北老熟女久久一| 国产精品林美惠子在线观看| 亚洲国产中文欧美在线人成大黄瓜| 国产精品丝袜视频| 91区国产福利在线观看午夜| 久久久久久久久久国产精品| 一级毛片在线播放免费| 巨熟乳波霸若妻中文观看免费| 免费在线a视频| 香蕉eeww99国产精选播放| 亚洲人成网站色7777| 色综合综合网| 乱人伦中文视频在线观看免费| 男女精品视频| 亚洲综合激情另类专区| 国产草草影院18成年视频| 9啪在线视频| 午夜少妇精品视频小电影| 国产系列在线| 美女国产在线| 免费国产小视频在线观看| 精品亚洲欧美中文字幕在线看| 午夜精品久久久久久久无码软件| 97久久精品人人做人人爽| 国产丰满大乳无码免费播放| 国产av无码日韩av无码网站| 亚洲第一av网站| 亚洲天堂网视频| 91精品国产丝袜| 亚洲第一黄片大全| 狠狠色婷婷丁香综合久久韩国| 久久久久久久久亚洲精品| 国产成人高清精品免费| 国产成年女人特黄特色大片免费| 国产好痛疼轻点好爽的视频| 欧美综合成人| 亚洲天堂网在线播放| 成人国产免费| 亚洲欧洲日韩综合色天使| 国产精品太粉嫩高中在线观看| 國產尤物AV尤物在線觀看| 精久久久久无码区中文字幕| 日韩高清成人| 亚洲黄色激情网站| 91视频首页| 91久久夜色精品| 日韩精品中文字幕一区三区| 国产中文一区二区苍井空| 欧美福利在线| 日韩不卡高清视频| 久久国产V一级毛多内射| 国产凹凸视频在线观看| 欧美日本视频在线观看| 欧美有码在线| 国产一在线| 波多野结衣无码AV在线| 97久久免费视频| 亚洲欧洲日韩国产综合在线二区| 日韩大片免费观看视频播放| 青青青国产视频手机| 亚洲AV无码乱码在线观看裸奔| 国产第三区| 国产乱子伦一区二区=| 草逼视频国产| 久久一级电影| 欧美一区福利| 久久综合色天堂av| 亚洲三级a| 性激烈欧美三级在线播放| 久久国产热| 国产丝袜第一页| 综合色在线| 手机永久AV在线播放| 国产三级毛片| 亚洲精品爱草草视频在线| 丰满少妇αⅴ无码区| Jizz国产色系免费| 97视频精品全国在线观看| 精品国产免费观看一区| 国产免费久久精品44|