馬俊紅,楊曉征,續巖
(北京大學醫學部教育處,北京100191)
·醫苑·
改良客觀結構化臨床考試在本科畢業考試中的應用效果研究
馬俊紅,楊曉征,續巖
(北京大學醫學部教育處,北京100191)
為檢驗改良客觀結構化臨床考試(OSCE)在臨床醫學專業本科畢業考試中應用的有效性,本研究通過統計北京大學醫學部臨床醫學專業本科畢業考試成績,分析OSCE信度、效度、難易度及區分度;通過調查問卷了解考生對OSCE的認可程度。結果表明:本次OSCE內部一致性信度系數為0.671,與專業理論考試成績的相關系數為0.561(P=0.000),總體難度0.81,區分度0.21;71.43%的學生認為OSCE能客觀全面地反映自身的臨床技能水平。因此,改良OSCE考核結果可靠、有效,可用于本科畢業考試中對學生臨床基本技能的評估。
客觀結構化臨床考試;畢業考試;信度;效度
客觀結構化臨床考試(The Objective Structured Clinical Examination,OSCE)是最初由Harden R.M.等人于1975年提出的一種預先設計的、結構化的、客觀的考核方式,旨在考核被評估者采集病史、體格檢查、有效溝通、閱讀輔助檢查、綜合分析信息等能力[1]。經典的OSCE具有三個主要特征:對臨床表現的直接觀察、使用高度結構化的量表對考生表現進行評估、用標準化病人(Standardized Patients,SP)模擬臨床真實情景[2]。40年來,此種考核方法被廣泛應用于醫學教育領域,并被認為是評估醫學生臨床能力的“金標準”[3]。
2005年,北京大學醫學部將OSCE引入臨床醫學專業本科畢業考試,并在實踐中不斷調整優化考試設計方案。該校現行OSCE減少了SP考站的比例,適當增加了病例分析及臨床溝通的內容,更關注對學生臨床思維能力的評價;同時,各考站評分表以直接打分的方式替代高度結構化的量表,增加了評分的靈活程度。為檢驗改良OSCE在畢業考試中應用的有效性,筆者從考生評價及心理測量學主、客觀兩個維度對OSCE評價效果進行實證研究。
1.1 研究對象
北京大學醫學部臨床醫學專業本科畢業考試包括專業理論、臨床技能兩部分,均為百分制,60分為及格線,通過者準予本科畢業。專業理論考試包括內、外、婦產、兒科四個學科內容,臨床技能考核采取改良OSCE方式,考核內容亦涉及內、外、婦產、兒、精神病學等學科。
OSCE共設置17個考站,包括病例分析及病例分析準備各4站,技能操作3站,體格檢查2站,問診、臨床溝通技巧、輔助檢查、精神檢查各1站,具體設置情況如表1所示。其中體格檢查、問診、臨床溝通技巧、精神檢查考站均為SP考站,除體格檢查站外,其余3個考站SP均參與評分,SP與考官的平均分為考生此站得分。輔助檢查考站為客觀選擇題,內容包括心電圖、影像、產程或胎心監護圖、實驗室檢查結果等的閱讀判斷。每個考站10分鐘,總考核時間170分鐘。13個計分考站,每站滿分10分,各考站總分折換成百分制即為考生臨床技能考核成績。
2014年共有152名學生參加本科畢業考試,考生被隨機分配至5家考點醫院,同時進行臨床技能考核,5個考點共用一套試題。

表1 北京大學醫學部臨床醫學本科畢業考試OSCE考站設置
1.2 研究方法
統計152名考生臨床技能及專業理論成績,使用SPSS19.0對OSCE進行信、效度檢驗,并分析考試的難度、區分度,從心理測量學角度判斷OSCE的有效性及考核結果的可靠程度。
通過考試結束后對所有考生進行問卷調查,獲得考生對本次考試的主觀評價,了解其對考核方式的認可程度。
152名考生臨床技能成績呈正態分布(K-S法P= 0.2),平均分為81.90±4.977,各考站平均成績如表2所示。

表2 北京大學醫學部2014屆臨床醫學本科畢業考試OSCE平均成績
2.1 OSCE信度及效度
2.1.1 信度所有考站內部一致性信度Cronbach's α系數為0.671,體格檢查類、技能操作類、病例分析類考站內部一致性系數分別為0.368、0.325、0.461,提示OSCE內部一致性信度一般。
分別將5個考點問診、臨床溝通技巧、精神檢查考站SP與考官的評分進行組內相關分析,結果見表3。5個考點臨床溝通技巧、精神檢查考站的評分者組內相關系數為0.616-0.962,顯著正相關;各考點問診站SP與考官評分之間的相關系數差異較大,雖均為正相關,但僅有考點2和考點4的相關性顯著。
2.1.2 效度將考生OSCE總成績與專業理論考試成績進行Pearson相關分析(r=0.561,P=0.000),發現二者顯著正相關;除臨床溝通技巧站以外,其他類別考站均與專業理論成績顯著正相關(表4),提示OSCE具有較好的效標效度。
不同類別考站間的Pearson相關分析結果見表5,所有類別之間均呈正相關關系,其中技能操作類與其
他各類考站(體格檢查類除外)顯著相關,其余6個類別考站僅部分之間存在統計學意義的相關關系。各類別考站與臨床技能總成績相關系數為0.353-0.752,P=0.000。以上說明各考站與總成績相關性較好,但不同類別考站之間的關聯性欠佳,OSCE的整體結構效度不高。

表3 北京大學醫學部2014屆臨床醫學本科畢業考試OSCE評分者組內相關分析(ICC)

表4 北京大學醫學部2014屆臨床醫學本科畢業考試OSCE各類別考站與專業理論成績相關分析

表5 北京大學醫學部2014屆臨床醫學本科畢業考試OSCE考站間Pearson相關分析
2.2 OSCE難度及區分度
13個考站難度系數為0.67-0.91,OSCE總體難度為0.81,說明對于本屆考生而言,OSCE試題偏簡單。13個考站的區分度為0.14-0.4,OSCE總體區分度為0.21,說明本次OSCE對不同能力考生有一定區分,但鑒別力不強。
2.3 不同考點對考生成績的影響
對5個不同考點考生的OSCE成績進行方差齊性檢驗及單向方差分析,不同考點之間無統計學差異,F= 1.602,P=0.177(表6)。說明在不同考點考核、由不同考官評分,對考生成績無影響。
2.4 考生問卷調查
考后對所有考生進行問卷調查,回收有效問卷133份,有效率87.5%,問卷結果見表7。
71.43 %的學生認為“OSCE能客觀全面地反映自身對臨床基本技能的掌握程度”。62.41%的學生認為“OSCE設置13個考核考站(不包括病例分析準備站)比較合適”,32.33%的學生認為考站偏多,其中有24人建
議減少至10-12站。58.65%的學生認為“170分鐘的考核時間比較合適”,另有24.81%的學生覺得時間偏長,其中20人建議將時間減至120分鐘。
對于問診及精神檢查考站SP模擬臨床病人的真實程度,分別有85.72%、82.71%的學生認為“真實”或“比較真實”。

表7 北京大學醫學部2014屆臨床醫學本科畢業考試OSCE考生問卷調查結果
3.1 本科畢業考試中OSCE的信度一般,仍有提升空間
信度是評價考試結果準確性、可靠性的重要指標,考站內部一致性、評分者內部一致性是評價OSCE信度的最常用方法。
對于考試的內部一致性,雖然有研究指出,職業資格考試的信度系數不得低于0.90,結課考試的信度系數應在0.80-0.89之間,小測驗等的信度系數可在0.70-0.79之間[4];對于比較嚴格的通過性考試,OSCE的內部一致性信度至少需達到0.8[5-6]。但國外許多關于OSCE內部一致性信度的研究結果都難于達到上述標準,除非大量增加考站數量[5,7-8]。國內鄒揚等學者將OSCE應用于臨床本科及長學制畢業考試中,內、外、婦、兒四個模塊考站內部一致性系數為0.1-0.671,并認為在0.12-0.9之間均為可接受信度[9]。
本研究中OSCE內部一致性信度為0.671,體格檢查、技能操作、病例分析三個類別考站的內部一致性在0.3-0.5之間,與其他研究結果相似,處于可接受的信度范圍。但畢業考試作為通過性考試,直接決定學生能否順利畢業,故仍需進一步提高OSCE信度,盡量達到0.8的標準。
影響OSCE信度的因素主要來自于考站設計和考生表現兩個方面,故為了提高考試信度,需適當增加總考站數量或考核內容相似的考站數量,也可通過增加考站內評分表條目、延長考試時間、增加每個考站考官數量、單獨設置書面測驗考站等來提高OSCE的可靠性[10-13]。以上提高信度的方法多是以增加考試的經濟成本和時間成本為代價的。也有學者為了控制成本,試圖通過縮減考核范圍來提高OSCE的信度,但未償所愿[14]。本研究也分別計算排除問診、精神檢查、臨床溝通技巧等考站后的內部一致性信度,發現結果均小于原整體信度系數。為盡量減少考試財務支出,同時避免過長考試時間增加考生及考官的負擔,可通過適當增加每一考站的分值并細化評分項目來實現OSCE信度的提升。
本次OSCE分別在5家醫院進行,雖然5個考點考生的平均分之間無統計學意義上的差異,但同一考站有多個考官參與評分,亦可能影響考試結果的一致性。故加強考官評分標準的培訓,或集中考核,同一考站盡量由相同考官評分,會在一定程度上提高考試的信度。
對于評分者內部一致性,本研究中僅有問診、臨床溝通技巧、精神檢查考站分別由SP及考官評分,問診站兩位評分者內部一致性較差,另兩個考站評分者內部一致性較好。分析原因如下:一方面,問診站SP與考官的評分表內容不完全一致,前者的評分內容以病史采集的相應項目為主,后者的評分表中病史采集部分占2/5,另3/5是對問診技巧及臨床思維的評價;另一方面,問診站SP為各醫院招募并培訓的非醫學專業人員,各醫院對SP培訓重視程度不同,有些SP未完全掌握評分標準。臨床溝通技巧和精神檢查考站的SP均由相應學科臨床醫生擔任,經學校統一培訓,且SP與考官評分表相同,故二者評分的相關性更好。未來需進一步加強問診站SP的遴選及培訓工作,強調評分規則,以提高評分者之間的一致性。
3.2 本科畢業考試中OSCE具有較好的效度
效度是評價考試有效性的重要指標,效標效度及結構效度為常用效度檢驗方法。
本研究中考生的OSCE成績與其專業理論成績呈顯著正相關,說明OSCE具有較好的效標效度。專業理論以考核學生臨床學科知識、診療分析能力為主,故與OSCE的病例分析類、輔助檢查類的相關性更高,而與臨床溝通技巧無相關。為進一步檢驗OSCE的效標效度,尚需與其他類似的臨床能力考試如基于Mini-CEX(Mini-Clinical Evaluation Exercise)的臨床技能考核等相比較。
OSCE重在從不同方面考核學生的臨床能力,而不刻意強調各種考核內容之間的相關聯程度,且考生在不同類別考站的表現也不盡相同,故考核難以達到較高的結構效度,這也是為何國內外關于OSCE結構效度的研究很少的原因所在。Wessel曾對理療領域OSCE的應用進行效度研究,結果顯示考站間的相關系數為-0.14-0.33[15]。本研究也將不同類別考站進行相關分析,結果證實,OSCE的結構效度并不高,但基于上述原因,不能否定OSCE在臨床能力評價中的有效性。
3.3 本次本科畢業考試OSCE整體難度及區分度偏低
難度和區分度是檢驗試題及試卷質量的主要參考指標。OSCE作為主觀考核形式,考試的難度、區分度受影響因素較多,難以達到預期的中等難度、高區分度的結果。從考試目標出發,畢業考試OSCE各考站內容均依據本科教學大綱命制,以本科生需掌握的基本知識及技能為主,故整體偏易,同時也導致OSCE的區分度較低。但對于本科畢業通過性考試,此難度及區分度均為可接受范圍。為進一步提高考試的科學性,建議未來考試命題時適當增加OSCE考站內容的難度,盡量將區分度提高至0.3以上。
3.4 大部分考生認可OSCE考核方式
考生問卷調查結果顯示,大部分學生認為OSCE能全面客觀地反映自己的臨床技能水平,考站數量及考核總時間比較合適,并認可問診站和精神檢查考站SP角色扮演的真實程度,說明大部分考生從主觀上比較認同OSCE的設置及考核結果。
但也有近1/3的學生認為本次OSCE不能客觀評價自身水平,原因主要為:“考試節奏快,有些考站時間較短(如內科病例分析),與臨床實際有差異,不能發揮正常水平”;“考題隨機性強,無法涵蓋所有內容”。同時也有部分考生認為考站偏多、考試時間偏長,一些學生建議將考核時間控制在120分鐘之內。雖然考站數量是影響考試信度的重要因素,但考試設計者應充分考慮到過長的考核時間對考生造成的身心壓力亦會影響考生的正常發揮,影響考試結果的客觀準確。建議可根據考核內容酌情調整每站考核時間,或者將OSCE按學科或能力類別進行分段考核,可有效避免一次考核時間過長的情況。
總之,本研究通過心理測量學和考生評價兩個角度分析證實了改良OSCE在臨床醫學專業本科畢業考試中應用的有效性,OSCE能全面評價學生的臨床基本技能。為進一步提高考試結果的有效及可靠程度,尚需綜合考慮學科維度和能力維度,對考站時間、考站數量、不同考核內容的比例、評分細則等進行優化完善。
[1]HARDEN R M,STEVENSON M,DOWNIE W W,WILSON G M.Assessment of clinical competence using objective structured examination[J].Br Med J,1975(1):447-451.
[2]REZNICK R K,SMEE S,BAUMBER J S,et al.Guidelines for estimeting the real cost of an objective structured clinical examination[J].Academic Medicine,1993,68(7):513-517.
[3]HODGES B.Validity and the OSCE[J].Medical Teacher,2003,25(7):250-254.
[4]DOWNING S M.Reliability:on the reproducibility of assessment data[J].Medical Education,2004,38(9):1006-1012.
[5]ROBERTS C,NEWBLE D,JOLLY B,et al.Assuring the quality of high-stakes undergraduate assessments of clinical competence[J]. Medical Teacher,2006,28:535-543.
[6]MUNOZ L Q,O'BYRNE C,PUGSLEY J,AYUSTIN Z. Reliability,validity,and generalizability of an objective structured clinical examination(OSCE)for assessment of entry-to-practice in pharmacy[J].American Journal of Pharmaceutical Education,2005,5(1):33-43.
[7]SINGER P A,ROBB A,COHEN R,NORMAN G,TURNBULL J.Evaluation of a multicenter ethics objective structured c1inical examination[J].Journal of General Internal Medicine,1994,9(12):690-692.
[8]SINGER P A,ROBB A,COHEN R,NORMAN G,TURNBULL J.Performance-based assessment of clinical ethics using an objective structured clinical examination[J].Academic Medicine,1996,71(5):495-498.
[9]鄒揚,繆青,蘆開芳,等.本科和長學制畢業考試中客觀結構化臨床考試的應用[J].上海交通大學學報(醫學版),2008,28(S1):71-75.
[10]VERHOEVEN B H,HAMERS J G,SCHERPBIER A J,HOOGENBOOM R J,VAN DER VLEUTEN C P.The effect on reliability of adding a separate written assessment component to an objective structured clinical Examination[J].Medical Education,2000,34:525-529.
[11]BRANNICK M T,EROL-KORKMAZ H T,PREWETT M.A systematic review of the reliability of objective structured clinical examination scores[J].Medical Education,2011,45(12):1181-1189.
[12]VARKEY P,NATT N,LESNICK T,et al.Validity evidence for an OSCE to assess competency in systems-based practice and practice-based learning and improvement:a preliminary investigation[J].Academic Medicine,2008,83(8):775-780.
[13]高鐳,李曉松,萬學紅等.客觀結構化臨床考核的多元概化模型研究[J].中國高等醫學教育,2004,(3):46-49.
[14]NORMAN G R,TUGWELL P,FEIGHTNER J W,MUZZIN L J,JACOBY L L.Knowledge and c1inical problem solving ability [J].Medical Education,1985,19(5):344-356.
[15]WESSEL J,WILLIAMS R,FINCH E,GEMUS M.Reliability and Validity of an Objective Structured Clinical Examination for Physical Therapy Students[J].Journal of Allied Health,2003,32(4):266-269.
The Application Effect of Modified Objective Structured Clinical Examination in College Graduation Examination
MA Jun-hong,YANG Xiao-zheng,XU Yan
(Education Department,Health Science Center,Peking University,Beijing 100191,China)
To study the effectiveness of the application of modified objective structured clinical examination (OSCE)in the graduation examination in clinicalmedicine,the reliability,validity,difficulty and discrimination of OSCE are analyzed by gathering scores ofgraduation examination for undergraduates majored in clinicalmedicine. Questionnaire is used to get the opinions on the OSCE from examinees.It is found that the internal consistency reliability coefficient is 0.671 and the Pearson correlation coefficient between the OSCE and the theory test is 0.561(P=0.000).The overalldifficulty and discrimination are 0.81 and 0.21 separately.71.43 percentofstudents maintain that OSCE could reflect the level of their clinical skills objectively and comprehensively.Therefore,the modified OSCE results are reliable and effective,which can be used for the evaluation ofstudents'clinicalskills in college graduation examination.
Objective Structured Clinical Examination;Graduation Examination;Reliability;Validity
2015-08-09
馬俊紅,1974年生,女,漢族,內蒙古人,北京大學醫學部教育處助理研究員,主要從事臨床教學管理工作。