王錫山
1948年,在英國醫學研究委員會的領導下,英國統計學家Austin Bradford Hill為觀察鏈霉素對肺結核的治療效果,開展了第一項大規模的隨機對照臨床試驗(randomized controlled trial,RCT)[1]。自此,隨機對照臨床研究逐漸被大家認可,并被譽為臨床證據中的“金標準”,在循證醫學中心制定的證據等級金字塔中,RCT的證據等級最高。醫學研究者和統計學家擬用RCT來減少試驗過程中產生的偏倚,從而提高試驗結果的準確性和可信度,國際上高水平的期刊也對RCT研究更為青睞。然而在RCT發展的這七十多年間,有不少學者也發現了這一“金標準”可能不適用于所有的臨床試驗,其存在很多局限性。對于RCT,我們要以辯證的角度看待,透過現象分析其本質,尤其是外科學領域,這種對患者長期的、高度個性化的干預措施,RCT是否完全適用?筆者以自己的思考來拋磚引玉,以期重新審視RCT在外科中的作用。
對照是觀察一項干預措施是否有效最簡單的方式。目前可追溯的最早的對照研究是1747年,英國的Lind醫生為探索治療壞血病的方法,將12名壞血病患者平均分為6組,每組患者給予不同的膳食,發現橙汁和檸檬汁可能會促進患者的康復[2]。這種觀察方法,或稱作試驗方法在當時十分先進,因為Lind醫生意識到需要對患者進行組間比較,但分組方式現在看來缺少隨機性,每組的患者人數也很少,導致疾病的轉歸可能與干預措施之間的關聯較小。
早在17世紀,放血療法是一種十分普遍的治療手段,Van Helmont醫生對這種療法提出質疑,并提出一個大膽的設想,他建議找幾百個發熱或胸膜炎的患者,用抽簽的方式將患者分為兩組,一組用放血治療,另一組用非放血的治療方法,以觀察放血療法是否有效[3]。雖然最后這項試驗沒有最終付諸實踐,但他提出的以抽簽的方式進行分組,可能是最早的“隨機”思想,而抽簽方式本身,也解決了臨床試驗中的“公平”的問題。幾乎沒有患者會去選擇安慰劑,因為那是已知的不會起到任何作用的“藥物”,但若僅由研究者對受試者進行分組,那對于研究者來說,對使用安慰劑的患者的關注可能更少,對于患者來說,他們也會感覺這種方式對自己不公平,從而退出研究,或者特意隱瞞、夸大癥狀。而采用抽簽的方式,在當時看來,患者雖然知道不公平,但往往會認為是“命中注定”而接受這種分組。現在看來,抽簽的方式做到了將各種影響疾病轉歸的因素從組間消除。直到20世紀,“抽簽分組可以實現組間可比性”才被從理論上證明,從而奠定了RCT的核心理論基礎[4]。
1948年,Austin Bradford Hill為觀察鏈霉素對肺結核的療效納入了107例急性進展性雙側肺結核新發病例,根據隨機數表產生隨機分組序列,并使用密閉的信封,醫生和患者均無法預先知道將會被分到哪組[5]。符合入組條件的患者入院后,隨機分組中心隨機給患者一個信封,打開信封后,患者只知道被分到哪組,但并不知道接受的治療是特殊治療還是常規治療。對照組患者只臥床休息,而觀察組患者在此基礎上,接受鏈霉素治療,這兩組患者不住在同一病房。該項研究無因副作用退出治療的病例。半年后,51%的觀察組患者病情明顯改善,而對照組只有8%,同時,觀察組有7%的患者死亡,而對照組有27%。這項研究使全世界相信鏈霉素對于肺結核的治療效果。此后,Hill也建立了很多隨機對照的研究方法。但在當時,對于RCT的評價褒貶不一,反對者認為,不給對照組施加新的治療措施,或者使用安慰劑,這種做法是不道德的,支持者則認為,RCT可以確定新的治療措施是否優于目前的標準治療。
但是當時,除了學術界和政府,極少有藥企愿意花費金錢和時間來進行RCT試驗來評價新藥的療效。他們更愿意依靠臨床醫生的推薦和病例報道來推廣藥品,這不但會夸大藥品的療效,也會掩蓋藥品的毒副作用,以至于釀造了沙利度胺的“海豹兒”悲劇[6]。此后,美國國會在1962年頒布了針對食品、藥品及化妝品法案的Kefauver-Harris修正案,強制要求新藥在上市前,需在“充足嚴格的對照研究”下被證明是有效的[7]。到1970年,美國食品藥品監督管理局(FDA)以要求新藥批準必須經過隨機對照試驗來實現修正案的實施。二戰后,隨著美國醫藥行業的迅速發展,使得美國成為RCT試驗的領導者。歐洲、日本等發達國家也陸續推行了類似的法律法規。隨著各國間國際合作日益密切,RCT逐步系統化,而醫藥行業反而成了推動RCT試驗的主要贊助商。至20世紀80年代,RCT逐漸被奉為對醫療衛生服務中的某種療法或藥物的效果進行評價的“金標準”。1991年,加拿大McMaster大學的Gorden教授首次在JAMA上提出“循證醫學”一詞,循證醫學迅速興起,方法學等級體系出現,RCT被認為是“最高級別”證據[8]。2002年,美國臨床試驗數據庫(Clinical Trails.gov)正式投入使用,用于全世界藥物試驗/新技術的臨床研究的注冊。
RCT研究在設計上十分嚴謹,力求最大程度地避免因為設計或試驗實施過程中產生的各種選擇偏倚,從而提高統計學檢驗的有效性。研究對象的隨機分配,使得組間的基線可以保持相對的一致,完美地解決了病例對照研究和隊列研究中的混雜問題,同時也增加了組間的可比性,所以RCT研究也具有很好的內部真實性。RCT研究可以說是最嚴謹的一種流行病學研究類型,也是評價一種干預效果優劣的最嚴謹的研究類型。
但RCT不是所有醫學領域的“金標準”。回顧RCT的歷史,幾乎是被藥物貫穿始終,因為同一種藥物在上市后,無論是其分子式、劑型、純度、使用方法與劑量等,各批次藥物都具有高度的“一致性”,在這個背景下,RCT研究的優點才得以最大程度的展現:包括隨機(減少干擾因素)、設置對照(可以觀察新藥療效的優劣)和盲法(消除人為因素對結果的干擾)。但這并不意味著RCT的優勢可以“移植”到其他醫學領域。例如在精神病學領域,雖然也開展了大量的精神類藥品的RCT研究,但精神類疾病的治療是一種長期的、高度個性化的過程,涉及到心理療法和治療藥物的配合使用,而這又與醫生對疾病進展的主觀判斷和醫生的經驗密切相關[9]。但隨著RCT的興起,大量關于精神類藥品的RCT研究迅速增長,可能導致對于心理療法重視的降低,并且由于患者的高度個性化,導致結果可信度不高。
20世紀70年代,為了對重癥心肺功能衰竭的患者提供長時間的心肺支持,發明了體外膜肺氧合(extracorporeal membrane oxygenation,ECMO),從而為患者的康復爭取了時間。1971年,ECMO成功救治了一位因多發性創傷導致呼吸衰竭進行性加重的男性;1975年,Bartlett醫生首次用ECMO救治了一例持續性肺動脈高壓的新生兒[10]。在ECMO的運行和治療機制已經很明確的情況下,就不必再進行RCT研究。
而在外科領域,RCT也難以稱為“金標準”。與單純用藥治療不同,外科施加的干預措施,有一部分是立竿見影、顯而易見的。比如對于頸部外傷伴有咽喉或氣管損傷,立即出現呼吸困難的患者,若不立即行氣管切開術,患者會因窒息而死亡。雖然沒有RCT證據支持,但這已經成為業內共識。
外科一些經典術式的推廣過程,也并非需要RCT證據支持。以筆者所在領域的全直腸系膜切除術(totalmesorectalexcision,TME)為例,1982年,Heald教授首次提出了TME手術,并報道了50例TME手術病例,隨訪兩年,無一例復發。1986年,Heald教授在《Lancet》又報道了115例行TME手術的直腸癌患者的5年生存情況[11]。1993年,Heald教授發表了152例行TME手術患者的隨訪結果,局部復發率僅為2.6%,遠低于Miles術[12]。1995年在挪威奧斯陸舉行的“直腸癌外科——國際標準化”討論會上,與會者一致認為TME可產生優良的結果,四個國家五個中心外科醫師運用TME原則分別證實這種“治愈性手術”后的局部復發率為5%左右,總治愈率接近80%[13]。至此,TME受到業內廣泛認同,并逐漸成為推行的標準術式,而這個過程并未推行大規模的RCT研究。
自19世紀至今,隨著人類對人體器官解剖認知的不斷深入,以及麻醉、無菌術和輸血等技術和理念的提出與完善,使得頭、胸、腹不再是手術禁區,外科學也開啟了新的時代,成為推動醫學進步的中堅力量。
1879年,法國醫生Jules Emile Pean為一位胃癌患者切除了胃,但患者在5天后不幸死亡;1880年,Ludwig R.von Rydydie教授在總結了Jules的經驗教訓后,也進行了手術治療胃癌的嘗試,但患者在手術當天便不幸死亡;1881年,被譽為“腹部外科學之父”的Theodor Billroth在對狗進行了大量的動物實驗后,完成了第一例用胃切除加胃十二指腸吻合術治療幽門部胃癌,即現在的Billroth I式手術,并獲得了成功[14]。
二戰結束后,肥胖癥人口劇增,減重手術逐漸興起,1954年,J.H.Linner和A.J.Kremen醫生完成了第一例曠置大部分小腸的減重手術,同時期的Henriksson醫生也進行了空回腸短路手術,并切除了曠置部分的小腸,雖然減重效果較好,但是術后并發癥嚴重;1963年,Payne和DeWind醫生嘗試將十二指腸與大腸連接,但患者術后出現了頑固的腹瀉;1966年,“減重手術之父”——Mason和Ito發現消化性潰瘍患者在行胃大部切除術后,可以長期維持低體重狀態,于是發明了胃旁路術,隨后,在1976年,Griffen在此基礎上對術式進行改良,將胃與小腸直接吻合,有效的減輕了術后膽汁反流及反流性食管炎的癥狀[15]。
1807年,德國醫生Bozzini發明出世界上首個直腸鏡,1901年,Jacobacus醫生首次用腹腔鏡對患者進行腹腔內檢查,但限于當時光源和成像技術,腔鏡只能用于進行觀察診斷。1954年,光導纖維技術誕生,1957年,Hirschowitz首次展示了光導纖維內鏡,解決了內鏡照明問題。隨著電子顯像技術的發展,1983年,Welch Allyn公司在內鏡前端裝置了高敏感度微型攝像機,通過光電信號轉換,成功地將內鏡下觀察到的圖像轉變成電視信號。1987年,法國醫生Mouret完成了首例腹腔鏡下膽囊切除術,1991年2月,荀祖武醫生完成我國首例腹腔鏡下膽囊切除術。此后的30多年間,依托于腹腔鏡平臺,微創外科取得了飛速發展[16]。
縱觀近現代外科手術發展的歷史,無論是對于腫瘤的治療的挑戰,還是對于肥胖的厭惡,抑或是腹腔鏡技術對外科的改變,每一種新的外科術式的產生,都離不開外科醫生自身對于求知的欲望、人民百姓對于生活質量的要求的不斷提升,以及科技的發展所帶來的行業概念的革命,這可能是指引外科技術發展的三個根本原因,也是外科新技術產生的意義。雖然隨機對照試驗可以評價一項技術的安全性和有效性,但不應該是評價這項技術的全部,而且,RCT在外科臨床研究中,仍存在許多爭議。
RCT的核心思想是盡可能的保證觀察組和對照組的一致性,為了達到這個目的,研究者花費大量心思制定一系列嚴格的納入和排除標準,并應用隨機數表法等隨機方法去將患者分組,以期最大程度的影響試驗結果的組間差異。但與藥物RCT研究不同的是,對于外科新技術的RCT研究,影響最大的因素可能不是患者,而是術者。實施該手術的外科醫生對于新術式的掌握程度、學習速度如何,這也是外科新技術在推廣時常會遇到的問題。另一個需要關注的問題是風險。藥物RCT研究,其風險是均一的,而對于進行外科新技術的醫生來說,新技術可能會增加手術風險,這可能會導致手術時間的延長、對于并發癥處理不得當、術后過于關注該患者等,都會影響研究的結果。
對于外科新技術而言,術者往往需要一個學習曲線,處于不同學習階段的術者的能力不同,可能對結果的影響更大。荷蘭的一項研究,對4個taTME手術量超過45例的中心,通過階段分隔的方法粗略估算各階段的局部復發率,結果發現,前10例taTME手術患者的局部復發率為15%(6/40),第11至40例taTME手術患者的局部復發率為4.2%(5/120),第41例之后,這一數據降為3.8%(4/106)。研究者得出結論:實施taTME手術后的局部復發率,可能隨著手術經驗的增多、渡過學習曲線而降低,經過結構化培訓taTME手術,腫瘤學安全性得到明顯改善[17]。由此可見,術者的技術會對腫瘤學結局產生影響。
RCT在外科新技術中的另一個困境是RCT與外科技術快速發展之間的矛盾。在腫瘤外科中,任何情況下,腫瘤手術的近期和遠期安全性和有效性必須置于首位,患者生命永遠第一,所以復發率和生存率是一定要統計的,也需要進行RCT研究,但這個過程可能會耗時數年,甚至十幾年。當我們用足夠的時間,積累了足夠的數據,試圖去評價新技術時,發現技術或治療方法已經發生了改變,在新技術還未來得及惠及患者時,已經過時了,這也再次證明,評價一項外科新技術時,RCT不應該成為其評價的主體,甚至是全部。
當然,外科領域并不是要完全排斥RCT,更不是要否定循證醫學,只是不宜盲目的為了證據“高級”而進行RCT。在利用RCT對外科新技術進行評價之前,需要構建完善的培訓體系,將欲進行RCT研究的術者的技術同質化。關于結構化培訓的重要性,Heald教授認為,手術醫師必須具備足夠的手術經驗,且必須經過相關專家的指導培訓。Wexner教授也認為,過快的在未受過培訓的、低手術量的醫師中開展外科新技術的研究,其所帶來的手術并發癥和不良的腫瘤學結局,可能會掩蓋該術式的優點,影響該技術的推廣與發展。
筆者認為,一個完善的培訓體系的建立,應該從以下幾方面著手:(1)在國家層面,以國家衛生健康委員會和中國醫師協會為主體,建立健全的外科新技術培訓體系,協會制定技術規范與考核標準,并設置區域培訓定點單位,以點帶面,推動新技術在該區域的發展;(2)各專委會系統性優化培訓體系,以各領域專家為主體,借助各種培訓平臺,充分利用前沿科技,針對不同水平等級的醫生開展針對性的培訓與指導,重點針對新技術關鍵操作步驟設置個性化培訓課程和考核項目;(3)對擬開展新技術的醫院,提供仿真操作模型、進行動物實驗等,并做好擬開展新技術的科室和醫生的備案;(4)對擬開展新技術的科室,以科室學科帶頭人為主體,對開展新技術的醫生的手術進行指導和質量控制;(5)與此同時,醫生還要加強自身學習,熟悉手術部位的解剖知識,加強基本操作的練習,特別要注意技術細節,并敢于提出自己的想法與見解,共同完善新技術。
經過系統化培訓的醫生,可以縮短學習曲線,但在開展新技術相關RCT研究前,還應對手術資質進行評價,筆者認為,可以從以下三個方面進行考察:(1)研究者對新技術涉及的器官、部位的解剖知識的掌握;(2)手術應進行全程錄像,并由相關領域專家對術中操作、和標本質量進行評價;(3)應開展一定數量的手術,渡過學習曲線的上升期。至此,在外科技術相關的RCT研究中,方可將最大的“變量”同質化,開展的RCT研究結果也更為可靠。
RCT推動了醫學的發展,為規范藥品準入做出了巨大的貢獻,但也不宜將其奉為圭臬,對于其他醫學領域,RCT是否還是“金標準”,RCT是否存在局限性,外科新技術是否需要RCT來證明,以及如何證明,也同樣值得我們思考。