于小晴,郭 超,易 杰,廖 泉,翁習生,梁乃新*,李單青
(1.北京協和醫學院 八年制臨床醫學專業,北京 100730; 中國醫學科學院 北京協和醫學院 北京協和醫院 2.胸外科;3.外科學系; 4.麻醉科; 5.基本外科; 6.骨科,北京 100730)
臨床操作技能教學是醫學教育中重要的一環,對臨床操作技能進行科學有效的評價對于提高臨床技能教學水平有重大意義。Miller曾提出關于臨床能力的一個概念模型[1],在4個層次的能力中,既往的終結性評估方法如筆試、論文、操作考試等可以測試事實性或應用性的知識,也即Miller能力金字塔(圖1)的兩個基礎層次[2]。但這些“數字為基礎”的方法顯然遠遠不夠,基于能力的評估可能比一堆數字更有價值[3]??陀^結構化臨床考試(objective structured clinical examination, OSCE)和模擬患者被用于評估臨床實踐技能,其中OSCE在我國規范化培訓住院醫師入科考試、階段技能考試中已有多次實踐探索[4-5]。
但這些方法基于人工場景, 只能衡量Miller金字塔中的第三個層次“Shows How”(表現),而非真正的臨床表現“Does”(行動)[3]。此外,OSCE被認為只能考核碎片化的技能,無法納入應急程序的考核,且成本較高[6]。由此可見,既往用于評估的人工設置考核方式并不能用最直接的方式準確預測學生在臨床實踐中獨立工作的表現[1]。在此基礎上,包括操作技能直接觀察評估(direct observation of procedural skills, DOPS)在內的一系列方法應運而生。
操作技能直接觀察評估(DOPS)是形成性評價中的一種方法,兼具教學功能和評價功能,評估者直接觀察被評估者的操作過程,并及時給予評估和反饋[7]。自2003年以來,DOPS在世界范圍內廣泛應用[8],但對于其信效度的研究并不充分,其應用領域也較為局限。為了更有效、更廣泛地應用DOPS,現就DOPS作為一種評估工具的研究進展以及目前的應用現狀進行綜述。

圖1 Miller能力金字塔[1]Fig 1 Framework for clinical assessment[1]
DOPS最早由英國皇家內科醫師學會(Royal College of Physicians)設計而成,最先被應用于評估住院醫師的臨床操作技能,后被廣泛應用于醫學生的技能培訓和教學中[7]。DOPS是一種基于工作場所的評估(workplace-based assessment, WBA)方法,是對受訓者在工作場所表現的評估,這種評估不是在人工環境中進行的,而是作為日常工作的一部分進行的,同時也為學生提供了即時反饋的機會[8]。另外,DOPS也屬于形成性評估(formative evaluation,FA),與僅用于對能力水平進行判斷的總結性評估相對,形成性評估不僅是階段性的評估工具,還是一種教學輔助工具,可以用以調整教學和學習[2]。作為一個結構化的評分量表,DOPS由基本信息、評分項目、反饋意見和滿意度調查組成[7],通常評估的能力包括:基本知識、知情同意、術前準備、麻醉、操作技術、無菌操作、術后管理、溝通技巧等。目前,DOPS在外科教學中應用最普遍,在內科和全科醫學中應用較少[6]。
Van der Vleuten針對教育評估工具制定了5個標準:效度、信度、可行性、可接受度(對于學生以及教師)以及對未來學習和實踐的影響[9]。以下將從這5個方面評價DOPS。
有效性是一個多方面的概念,它無法被直接測量,但是能夠被推斷[6]。DOPS的表面效度很高,評分者直接觀察被評估者在工作場所對真實患者所執行的操作,量表上所有的項目都與程序技能的表現有關[6]。當前,已有一定的證據證明了DOPS的結構效度,但同時發現隨著培訓等級的上升,DOPS的分數存在上限效應,因此作者認為,DOPS評估的程序相對簡單,通常在外科訓練的初級階段就已掌握[9]。此外,關于DOPS相容效度的報道較少,而與此同時,另一種基于工作場所的評估工具Mini-CEX(迷你臨床演練評估)則已經建立了有力的相容效度證據[6]。
雖然關于DOPS整體的效度證據較少,但一些應用領域中報道了關于DOPS效度的證據。有研究表明結腸鏡DOPS工具在所有類別中都有很強的效度證據[10]。另兩篇文獻也從不同角度給出了結腸鏡中DOPS具有較高相容效度的數據分析[11-12]。一項關于腹腔鏡的研究中也提到DOPS結構效度的有關證據。
與Mini-CEX(mini-Clinical Evaluation Exercis, 迷你臨床演練評估)相比,有效證據證明DOPS的較高信度可以通過相對較少的病例和評估人員實現[6],并且已有數據表明DOPS具有較高的內部信度[9]。但在實際操作中,DOPS的信度面臨一些實施上的問題。首先,病例以及評估人員的特異性和個體差異對DOPS的信度有很大影響。顯然,不同的評估人員具有不同的嚴格程度和主觀性[13],對于評分者的培訓可能是解決問題的一種方法,但目前的相關研究表明,經過培訓后,不同的評估者依然會對同一操作給出相差較大的分數[14]。將DOPS評分表精細化可能是提高DOPS信度的另一個解決方向。另一個需要關注的問題是為達到適當的可靠性需要觀察的程序的數目[6],這一方面暫時并無DOPS整體上的研究,但對于結腸鏡、胃鏡中DOPS的使用已經有相關的數據支持[12-13]:使信度達到可接受的范圍內分別需要3名評估人員進行2、3次DOPS。此外,關于學生每年進行的DOPS評估次數對信度的影響,需要進一步的研究[9]。
DOPS的可行性面臨以下幾個方面的挑戰:評估人員的培訓問題,評估者和被評估者的時間調配問題,以及相關行政部門資源和成本的調配問題[6]。目前已有一些DOPS帶來額外負擔、缺乏時間的報告,從而引發了對于DOPS是否能在臨床工作的實施中保持其有效且可靠的討論[6,8-9]。但更多研究中問卷表示DOPS具有較強的可行性,在真實的臨床情況下可以進行可靠、正式的評估[6]。
另外,對于不同操作內容,實施DOPS的可行性不同。常規程序進行DOPS較為容易,而對于不常應用的內容則很難進行DOPS評估。需要特別關注的是,急診中DOPS的應用與預期相差較大[6]。
可接受性在研究中可以根據實際完成的評估表格的數量、完成評估的平均時間以及評估者和被評估者對評估工具的滿意度來定義[6]。在這一方面,結果有一定的分歧。持消極態度的一部分人認為評估表過于繁瑣,將整個過程分解成太多的組成部分,而同時另一部分人則認為這種結構化的方法是有益的[9]。但在更多研究中,學生和教師對于DOPS的滿意度的接受度較高[2,15]。針對英國和愛爾蘭研究生外科訓練中基于程序的評估方法的范圍綜述中提到,學生和教師對于DOPS的強制引入一開始持消極態度,但隨著時間的推進,學生和教師的看法都逐漸發生了變化[9]。
DOPS評價方法不僅是臨床評價的有用工具,也是學生臨床學習的有效工具[16]。DOPS評估中學員在每次評估結束時都會收到建設性的反饋[3],這使其兼具總結性的評估作用以及形成性的教育作用。已有較多研究表明使用DOPS的干預組在使用前后有具有統計學意義的技能提升[6,15-16]。另外,在實際應用中的偏差可能會影響DOPS的教育意義,因此,需要將評估作為一個持續改進和學習的過程的概念[2]。
DOPS近年來在全世界范圍內的臨床實踐中得到了廣泛應用,普外科培訓[9, 17]、包括結腸鏡[10-12]、胃鏡[13]在內的內窺鏡培訓、麻醉科住院醫師及研究生培訓[18-20]、護理專業[7,15]、廣泛的醫學教育[21]等各種領域中都出現了DOPS的應用。但還有很多操作領域應用DOPS較少。同時,DOPS被引入至一些培訓計劃及指南當中。如2007年,DOPS作為一種基于工作場所的評估(WBAs)被引入到英國和愛爾蘭的研究生外科培訓中[9];形成性結腸鏡直接觀察程序技能(DOPS)評估于2016年更新,并被整合到英國結腸鏡鑒定指南中[10,12]。結腸鏡DOPS被整合入指南后,已經發布了超過1 000個來自250多個中心的胃腸病學、普外科和非醫學培訓生的縱向數據,以及完善的能力閾值[10],可見相關政策對于DOPS應用具有一定的促進作用。
此外,DOPS作為一種評估方法,常作為教學手段的量化方法參與到其他教學方法的相關研究中,如以學習成果為導向的評價(outcome-based student assessment, OBSA)對于醫學實驗課教學的影響[22]、腹腔鏡技術培訓對外科住院醫師的影響[23]、同伴輔助學習來教授基本的外科技能中作為評估工具[24]、結合模擬訓練的非技術技能課程對內窺鏡結腸鏡檢查的表現的影響[25]、COVID-19疫情管理中基于模擬的非麻醉科住院醫師呼吸管理教學的有效性[26],等等。
除此之外,DOPS也正在不斷完善,如前文提到的R-DOPS(重復DOPS評估)、JAG DOPS(聯合咨詢小組DOPS)都是對DOPS的創新應用。也有許多將DOPS與其他評估方式或教學方式聯合的應用,如DOPS與Mini-CEX聯合應用[17],基于視頻的操作技能直接觀察法[27],這些都是對DOPS的延伸應用。
綜上所述,DOPS在臨床技能教學中應用效果較好,其信效度方面已有一些進展,但還需要進一步的可靠證據;時間、資源的限制一定程度上限制了DOPS的可行性,需要進一步探索解決方式。另外,雖然當前DOPS的應用較為廣泛,但大多數研究和應用仍然集中于被納入要求或指南的方面,其他操作領域可以考慮引入DOPS,同時也需要相關部門政策上的引導。真實臨床表現的描述應該包括對知識應用的評估,以及適當技能和態度的使用,這些共同構成了臨床判斷[3]。因此,單一的任何一種評估方式都不能單獨用于評估醫生所需要的所有復雜能力,需要多種評估方法綜合應用。