鄭州大學公共衛生學院(450001) 尚小平 楊永利 施學忠
隨機對照臨床試驗論文統計質量評價量表的建立
鄭州大學公共衛生學院(450001) 尚小平 楊永利 施學忠△
目的編制隨機對照臨床試驗論文統計質量評價量表,并對量表進行信度、效度和可接受性評價。方法采用Delphi法和小組討論法確定量表的條目池及評分標準,采用分層隨機抽樣的方法,分別從2008年發表的隨機對照臨床試驗論文中,選取非核心期刊論文50篇,核心期刊論文50篇,SCI論文34篇。對量表進行內部一致性信度、重測信度、評價者間一致性信度和區分效度的考核。結果 量表的內部一致性信度系數為0.801,各條目重測信度和測評者間信度測定kappa一致性系數均大于0.75。量表區分效度較好,能夠將3種類型的期刊論文區分開來(F=173.81,P<0.001),非核心期刊論文(60.20±4.68)分,核心期刊論文(65.68±8.44)分,SCI期刊論文(86.91±6.06)分。結論 該研究形成的量表信度、效度和可接受性均較好,可用于隨機對照臨床試驗論文的統計質量評價,也可為科研工作者撰寫規范的制訂提供借鑒。
隨機對照臨床試驗 統計質量 信度 效度
△通訊作者:施學忠,E-mail:xzshi@126.com
醫學論文,尤其是臨床研究性論文的質量和水平取決于該研究的創新性、科學性和實用性,而這些性質的準確體現與醫學統計學在研究設計和成果表達上的正確應用密切相關。在閱讀文獻時,經常發現醫學論文中存在著統計學問題,包括研究設計缺陷、統計描述指標不合適、統計分析方法與研究目的不吻合、忽略統計方法的模型假設、統計圖表應用錯誤或不規范以及統計學術語不規范等〔1〕。近年來,有學者建立了醫學論文統計質量評價量表,但其條目僅為是或否的二分類〔2-4〕。研制一個評分刻度精細,評分標準明確的隨機對照臨床試驗論文評價量表,對論文的統計質量進行科學評價,十分必要。作者采用5級評分法,編制了一個涵蓋統計設計、統計過程和統計報告3個維度的隨機對照臨床試驗論文統計質量評價量表。
(1)明確研究目的和量表的適用范圍
該研究的目的是編制一份適用范圍是隨機對照臨床試驗論文統計學質量評價量表。
(2)設立專家咨詢組
所咨詢的專家包括流行病學專家、統計學專家、臨床研究人員和醫學科技期刊編輯,所有專家均具有副高級以上職稱或博士學歷且對隨機對照臨床試驗方面的論文較熟悉。
(3)量表維度和條目池的形成
通過搜索和閱讀相關文獻,進行第一次專家咨詢,初步確定量表的維度和條目池,形成初始量表。
(4)確定量表條目評分方法及評分標準
根據條目的內容和其他公認程度較高的量表的評分方式,采用5級記分法,按條目質量的高低,分成5個等級,并由研究小組討論后制定詳細評分標準。
(5)期刊的篩選和論文的篩選
選取2008年已發表的有隨機對照臨床試驗論文的期刊,其中每個期刊至少有7篇以上的隨機對照臨床試驗論文。按照國內非核心、國內核心和SCI 3個層次隨機抽取期刊,選取國內非核心期刊5種,隨機抽取隨機對照臨床試驗論文50篇;國內核心期刊5種,隨機抽取隨機對照臨床試驗論文50篇;SCI期刊4種,隨機抽取隨機對照臨床試驗論文34篇。
(6)初始量表的測評與修訂
將以上方法選取的隨機對照臨床試驗論文依據初始量表進行評分。根據評分結果,采用以下3種方法進行條目再篩選,3種方法中有兩種選出者則刪除該條目。①專家重要性評價:進行第二次專家咨詢,70%的專家認為應該刪除的條目。②變異度法:計算每個條目的標準差并刪除小于0.5者〔5〕。③相關系數法:計算各個條目與其維度得分的相關系數,刪除相關無統計學意義的條目〔6〕。
(7)最終量表的形成
根據量表的信度和效度分析結果,反復修訂量表,直至信度和效度滿意為止。
采用SPSS16.0進行統計分析。應用克朗巴赫系數計算內部一致性信度,采用kappa一致性系數,評價重測信度和評價者間一致性信度。采用單因素方差分析評價量表的區分效度,進一步用Bonferroni法進行兩兩比較。檢驗水準α=0.05。
(1)條目池的篩選及量表初表的形成
經過第一輪專家咨詢,形成了含有21個原始條目的量表初表,并分別歸類于統計設計(9項),統計過程(6項),統計報告(6項),各條目均采用5級評分。
(2)預調查及量表修訂
將形成的量表反饋給咨詢專家,再次對條目的重要性進行討論、評價。同時根據原始量表的信度和效度測評結果對量表進行修訂。最終刪除條目為:統計設計中“統計設計的科學性”、統計過程中“數據的預處理”和“質量控制”、統計報告中“討論與研究結果的一致性”。根據第二次專家咨詢建議增加條目為:統計過程中“效果評價的主要指標”、統計報告中“結果的正確性”和“對主要指標結果的臨床結論或生物學解釋”。最終形成了含20個條目的隨機對照臨床試驗論文統計學質量評價量表,見表1。

表1 隨機對照臨床試驗論文統計質量評價量表
(1)量表的信度
內部一致性信度:量表的內部一致性信度較好,克朗巴赫系數(Cronbach’a)為0.801。
重測信度和評價者間一致性信度:分別從3個層次的期刊論文中按照分層隨機化原則隨機抽取30篇論文進行評分,兩次測量時間相差2周以上,各條目KAPPA一致性系數均大于0.75,重測信度較好;將上述所抽取的論文由研究小組另一位成員進行評分,評價者間一致性信度測量結果顯示各條目KAPPA一致性系數均大于0.75,評價者間一致性信度較好,見表2。
(2)量表的效度
量表能將3個層次的雜志完全區分開來,非核心論文(60.20±4.68)分,核心論文(65.68±8.44)分,SCI論文(86.91±6.06)分,區分效度較好,F=173.81,P<0.001,兩兩比較顯示任兩種類型的期刊論文差異均有統計學意義。
(3)量表的可接受性
評價者獨立完成量表的時間在10-15分鐘,量表各條目的評分標準明確,可操作強。

表2 隨機對照臨床試驗論文統計質量量表重測信度和評價者間信度結果
該研究在文獻復習基礎上,采用專家咨詢和小組討論的方法研制了包含3個維度,20個條目,評分等級5分記分法的隨機對照臨床試驗論文統計質量評價量表。重測信度和評價者間一致性信度分析采用逐條目進行KAPPA一致性檢驗,KAPPA越高,量表的可靠程度越高。該研究KAPPA值均大于0.75,顯示該研究所形成的量表的可靠性較好。效度考核結果能夠區分三個層次的期刊論文,SCI期刊論文的統計學質量高于國內期刊論文的質量,國內論文無論是核心期刊還是非核心期刊統計質量僅處于及格的水平。可接受性分析中能夠將完成每份論文調查的時間控制在15分鐘之內,符合量表規范。
國內外關于醫學論文統計質量評價的工具主要有國外的 CONSORT(Consolidated controlled trial,RCT)聲明〔2〕。國內李清海〔3〕制作的RCT報告水平評價量表和汪培山〔4〕制作的評價量表等。該研究是在借鑒了現有量表的基礎上進行的,但不同之處在于該研究按照統計設計,統計過程和統計報告3個維度進行條目的篩選,涵蓋了論文寫作的整個過程,而現有量表沒有將條目分維度;現有量表的評分為2級評分,該研究的評分標準分為5個等級,評分刻度更加精細,評分標準更加明確,以便更好的提高隨機對照臨床試驗論文的統計質量。
由于受文化背景的影響,中英文期刊論文在寫作風格上不盡相同,個別條目對于中文期刊論文有較高的區分效度,但用于英文期刊論文未必也有同樣高的區分效度,如條目P1“組間均衡性”,反之亦然。因此作者將在下一步的研究中進一步修訂量表的條目設置及評分標準。
該研究運用專家咨詢和小組討論兩種方法,量表制定過程規范,所形成的量表信度、效度和可接受性均較好,可用于隨機對照臨床試驗論文的統計質量評價,也可為科研工作者撰寫規范的制訂提供借鑒。
1.李為農.要重視統計學方法在醫學論文中的正確使用.中國骨傷,2006,19(1):56-57.
2.Begg Colin,Cho M,Eastwood S,et al.Improving the quality of reporting of random ized controlled trials:the CONSORT statement,JAMA,1996,276(8):637-639.
3.劉清海,方積乾.醫學論文統計學報告水平評價量表的研制及其意義.編輯學報,2008,20(3):278-280.
4.汪培山,周登遠.臨床試驗文獻質量評價量表的制作和評價.藥物流行病學,2007,16(1):46-50.
5.孫振球主編.醫學綜合評價方法及其應用.第一版.北京:化學工業出版社,2006,173-174.
6.萬崇華,孟瓊,羅家洪,等.癌癥患者生命質量測定量表體系共性模塊的研制(一):條目篩選及共性模塊的形成.癌癥,2007,26(2):113-117.