樊偉銘,孫馳雲,張晶潾,丁姝辰,仲俊泓,趙欣楠,孟楚川,張曦元,許安萍,程凱,李志剛
(北京中醫藥大學,北京 100029)
在過去的幾十年中,中醫針刺療法因其良好的療效在西方受到了廣泛關注,由此催生了大量相關的隨機對照試驗(randomized controlled trial,RCT),設計方法亦層出不窮。然而,當測試針刺的療效時,卻產生了很多相互矛盾的結果。大部分研究[1-2]一致表明,與無治療的對照組相比,真實針刺和安慰針針刺治療都具有顯著的效果,盡管一些研究[3-8]表明真實針刺比安慰針刺更加有效,但也有其他研究[9-12]未能證明真實針刺有比安慰針刺更好的效果,因此在國內外產生了諸多爭議。雖然產生這些矛盾結果的原因涉及多方面[13],但這表明對針刺臨床研究中RCT 設計做出進一步分析及改進有其必要性。
據不完全統計,1921—2020年全球累計有19 775 篇針灸相關的SCI 論文發表[14]。國外第1 篇針刺相關的SCI 論文早在1921年4月即在《英國醫學雜志》上發表[15];而國內第1 篇針刺學SCI 論文則被認為在1988年發表于《中國藥理學報》[16]。相較而言,國內雖然有著豐厚的針灸文化底蘊,但臨床試驗方面起步較晚。而近年來國內針刺相關論文發文量不斷上升,且部分試驗在質量上也有顯著提升,彰顯了國內針刺臨床試驗水平的進步。
而一直以來,國內外一些發表在國際知名期刊且受到學界認可的針刺臨床試驗,卻得出了幾乎相反的結論,甚至是同1 項試驗,分別在國內外進行,都會產生結論的差異。例如1 篇發表在《美國醫學會雜志》子刊的文章揭示了中外治療方式、環境的不同可能會影響試驗的結果[17]。在這項針刺對頭頸癌患者輻射性口干的影響的研究中,僅位于中國的研究中心的針刺組與假針組的療效存在差異,而設在國外的研究中心卻并沒有得到這樣的結論。筆者將通過國內外典型的針刺臨床試驗設計,進一步分析結果產生差異的原因。
21世紀初,為證實針刺的臨床療效,德國召集多位臨床醫生、專家和統計學家共同參與了其設計的德國針刺試驗(German acupuncture trials,GERAC)項目,諸多著名的醫學期刊均發表了其研究報告,影響巨大。其中,GERAC 關于針刺治療膝骨關節炎的試驗證實了針刺治療的有效性且優于常規的疼痛治療,但也得出了不依照傳統理論的針刺也優于常規治療,即假針刺的療效與之比較差異無統計學意義的結論,給傳統針灸理論帶來巨大的沖擊[18]。與此同時,最近的1 項研究也表明,在接受“試管”嬰兒技術治療的女性中,針刺組與假針組在活產率上差異無統計學意義[10]。另1 項針刺治療帕金森疲勞的試驗中,針刺組與假針組療效比較差異無統計學意義,因此得出了針刺主要通過非特異性或安慰劑作用治療帕金森疲勞的結論[19]。
這些試驗之所以得出了這樣的結論,可能因為其設計仍存在缺陷。其一,其中作為對照組的“微量”針刺或多或少仍存在治療作用,并不能作為嚴謹的安慰劑對照,這影響了研究者對針刺治療的功效判斷;其二,參與試驗的國外醫生的背景特殊且針刺訓練程度有限,可能并沒有對針刺治療組施展充分的針刺治療;其三,對于對照組中接受的微量針刺所產生的臨床和生理效應也沒有給出具體說明。這些缺陷使對照試驗的意義大打折扣,因此獲得的證據并不完全可信[20]。
近年來,國內針刺臨床試驗水平有顯著增高,諸如劉保延教授、梁繁榮教授、劉存志教授和劉志順教授等所帶領的團隊,都先后在國際頂級期刊,如《內科年鑒》《美國醫學會雜志》《英國醫學雜志》等發表了針刺相關的RCT[21-22]。其中,劉存志教授團隊進行的針刺治療膝骨關節炎的研究采用多中心RCT,證據質量高,偏移風險較小[8]。研究證實了針刺在治療膝骨關節炎方面的優勢,且設計頗具獨到之處。首先,其盲法實施嚴格,采用多中心隨機分層,除針灸師外,受試者、結果評估者和統計學家均進行設盲,盲法評價的結果也顯示成功,其選擇的針灸師經驗豐富且在試驗開始前接受了統一的培訓;其次,其電針組和手針組均要求得氣,穴位選擇均基于臨床實踐和專家共識,采用半標準化穴位,針灸師可依據受試者的具體情況選擇輔助穴位,較好地體現了中醫的辨證論治思想;除此之外,該試驗針刺療程得當,隨訪周期長,結局指標較為完善,尤其是將主要結局指標下放到個體層面,體現干預在個體水平的效果,更加貼近臨床實際。
除此之外,劉志順教授團隊在其針刺治療慢性前列腺炎/慢性盆腔疼痛綜合征的試驗中,也采取了多中心隨機對照的方法,基于前期研究和專家共識設計干預方案,遴選具有5年針灸本科教育和至少2年臨床經驗的針灸師來操作,大大提升了試驗結果的可靠性[23]。同時,針刺組通過提插捻轉等手法刺激得氣,假針組則選擇在穴位旁開點進行刺激。結果表示,與假針刺比較,針刺改善了疼痛、排尿功能障礙、焦慮和抑郁的相關癥狀以及生活質量。
國內外受試者對于針刺治療的接受程度、既往針刺經歷狀況不盡相同。國內患者對針刺治療大多有一定了解,對其信任程度較高,得到的安慰劑效應將會更強,而國外患者相對了解較少,會產生試驗結果的差異,影響其準確性。例如在近期的1 個試驗中,864 例患者參與了包括偏頭痛、緊張性頭痛、慢性腰痛和膝骨關節炎4項不同的研究,他們被隨機分配到8周的針刺治療或假針刺治療組中[24],在對干預、年齡、性別、主訴持續時間等混雜因素進行調整后,與基線相比,在針刺和假針刺組中,具有高受益預期的患者比那些具有低預期的患者更有可能減輕超過50%的疼痛。
國內外針灸醫生資質標準不同,國內針灸師往往注重辨證的準確性、配穴選擇的合理性和操作手法的嚴格性,而國外針灸醫生更側重于操作規范標準,效果作用快等方面的培訓。1 項基于針對疼痛情況的針刺試驗的個體患者數據Meta分析包括了39項試驗,幾乎所有參與者都生活在西方國家[25]。在這些試驗中,有14 項并沒有要求針灸師有臨床經驗,20 項需要6 個月到4年的經驗,5 項至少有5年的臨床經驗,可見國外針刺臨床試驗對操作者的臨床資質要求并不統一。
針刺過程中雖然有穴位選擇的記錄,但還有許多針灸師認為也很重要的因素卻沒有被記錄,如刺激量、針具長度、刺入深度、取穴個數、行針手法等,甚至在治療過程中的醫患互動、個性化的干預、環境情況也不可或缺,這些與針刺過程相關的因素亦影響針刺臨床效果。因此,目前的針刺對照設計幾乎不能達到理想狀態,這也對試驗的準確性產生影響。
雖然在目前的針刺臨床研究中,RCT 仍是比較特定治療與安慰劑對照效果的金標準,但普通的RCT 可能并不適用于常規的針刺臨床試驗。
中醫學所謂“一人一方”,即由于每個人身體的基本狀況不同,針灸師并不會選擇同一組配穴進行治療(例如同為頭痛,中醫學有外感邪氣、肝陽上亢、血虛、腎虛等多種病機),從中醫學角度需要針灸師經望聞問切之四診合參對患者進行辨證,再隨證治之。而大多針刺試驗只關注對患者某一臨床癥狀進行相同配穴的治療,并沒有進行整體論治,這可能大大削減了針刺治療的臨床效果。此外,具有不同臨床經驗水平的針灸師對同一個患者的選穴治療可能也不盡相同,而這一點也開始被試驗團隊意識到并做出相應改善。
例如,已有學者[26]在研究針刺治療餐后不適綜合征的試驗中,基于名老中醫經驗和預試驗來優化針刺治療處方,采用半標準化的試驗設計,對每個患者進行辨證論治,充分考慮不同的病因病機。其要求針具、針刺次數、診療過程和針刺操作流程標準化,而針刺穴位處方則在標準化的前提上保留個性化的特色,制定了1 組基本穴位和3 組根據疾病特點來選取的個體化穴位。這既確保了試驗結果的科學性和嚴謹性,也保留了傳統中醫辨證論治的基本理念,在應對針刺臨床試驗的特殊性上進行了初步探索。
當然除此之外,試驗人員可以針對這種特殊性建立專家委員會來確定針刺操作細節的最佳流程,如穴位選擇、刺激技術等,以提升試驗證據的質量[27]。
針刺療法以對患者損傷小、不良反應小、見效快等特點受到國內外研究者的關注。而治療效果不僅僅是針刺本身,還包含許多其他復合因素。而在某些情況下,這些復合因素可能發揮了不可替代的治療作用。最近1 項研究得出結論,針刺的安慰劑作用是可塑的;而另1 項研究則表明,假針刺的效果可以分解成數個部分,并能以類似于藥物劑量依賴性的方式疊加[28]。
為了解釋這一現象,李永明教授提出了“氣球理論”(圖1),將針灸臨床治療可能產生的療效和不良反應分為5 個層次[29]。第1 層,自愈效果;第2 層,安慰劑效應;第3 層,心身療法;第4 層,泛穴療效;第5 層,穴位療效。“氣球理論”表明,首先,每個層次的體積的總和,即復合療效,是通過針刺臨床應用能達到的最終療效;其次,“氣球”內部各層次的體積呈動態變化,一層的改變會對其他層次產生影響;最后,“氣球”由5 個層次組成,缺一不可。受試者接受到的是完整“氣球”的療效,而臨床上很難將每一層次的療效作出區分。

圖1 “氣球理論”模型[29]
通過分析大部分以往的針刺試驗設計發現,研究者往往不以針刺的復合效應為前提,把特穴療效以外的效果混為一談,將它們的總和療效與其做不公平的對照。根據“氣球”模型,如果某一層的功效在一些疾病中發揮了較大的作用,則其他層的功效將受到隱藏,這可能嚴重削減針刺特定穴位的療效,因此很難用小樣本量來測定最外層效果和其他4 層總和的差異。
由上述分析可知,現有的諸多方法各有利弊,探索1 種適合針刺治療的臨床試驗方法,加以普及應用,可能才是為針刺治療效果“正名”的有效途徑。而近年來此類探索研究層出不窮,提供了許多新思路。
4.1.1 實用性RCT
實用性RCT 屬于效果研究,主要用于衡量干預的實際效果,體現干預在實際臨床條件下可以達到的療效,可以在不改變現有治療方案基礎上評估特定干預措施的效果,用于比較研究臨床療效。其干預措施是綜合干預,能夠反映個體化治療的特點。有專家提出,為了評價針刺臨床試驗的整體治療效果,比較臨床中不同的治療方案,衡量干預措施的整體效果,以優化針刺的臨床治療方案,總結臨床治療規則,使整體療效最大化,研究者應首選實用性RCT[30]。
實用性RCT 可以比較實際臨床條件下不同的治療方案,注重該條件下干預的有效性,并建議采用協同作用最大化設計,強調對結果測量者、數據收集者和統計分析師也進行設盲。其對照組的設置也非常細致全面,標準對照,試驗組使用針刺治療,對照組使用西醫方法治療;不同針刺方法,試驗組使用新型的針刺方法,對照組使用正常針刺臨床治療方法;不同治療方法,試驗組使用針刺治療,對照組使用其他的臨床治療方法;空白/等待對照,將等待治療的受試者作為對照組,與治療組同等待時間,同時評價兩組療效,等待期結束后再給予與治療組相同的治療。實用性RCT 衡量代表受試者健康水平的整個過程,注重多方面結果的收集,包括患者的報告結果、治療結束后的生活質量和衛生經濟學評價等,其計劃對受試者進行長期隨訪,觀察試驗干預的長期療效,強調對臨床終點結果的記錄。
4.1.2 技能型RCT
技能型RCT 是指在對受試者隨機分組時,以干預者專業知識和操作水平為分組基礎來設計試驗,受試者將隨機分配給不同水平的干預實施者,充分考慮到干預實施者本身對治療效果的影響[31]。
技能型RCT 可以保證受試者接受的是擅長此種干預方法的醫師的治療,給予醫師經驗和技能充分的尊重,更容易招募受試者和相關醫師,其設計避免了常規RCT 中可能出現醫師實施1 種并不擅長療法的現象,客觀上增加了其放棄該療法的可能,而技能型RCT 從根源上避免了因被分配到醫師不擅長的干預方法所致的換組。但這種方法也有諸如過程重復難度大,可推廣性不高、沒有統一可靠的標準來衡量醫師操作水平等問題,導致其未受到大范圍試驗的采納。
安慰針刺對照是國際認可的評價針刺特異性效應的常用對照方法,但其合理性仍存在爭議[32]。在很多試驗中,安慰針刺組脫落率高于真針刺組,因此所謂安慰針刺參與的RCT 試驗的科學性和準確性受到質疑[33]。
Streitberger 針[34]、Park 針[35]和 Takakura針[36](圖2)是目前針刺臨床RCT 中報告最常用的安慰針具[37],其中Streitberger 針應用最多,對其的盲法評價也大多為成功[38],但也有少部分文獻報告盲法不完全成功[39]。Park 針也是常用的安慰針之一,與Streitberger 針一樣,都通過了近年來大量針刺臨床RCT 的檢驗,被認為能夠實現盲法[40],但兩者均不能實現對針灸師的設盲,因此大多數的針刺RCT 研究均為單盲,這嚴重降低了證據的質量。與Streitberger 針和Park 針不同,Takakura 針可以實現對針灸師的盲法,使針刺RCT 的雙盲成為可能,但目前使用Takakura 針的針刺RCT 較少,尚未得到學界的普遍認可。

圖2 3 種常用的安慰針刺裝置示意圖[37]
另外,在針刺RCT 中也存在1 種Foam 裝置,即泡沫針(圖3)[41]。與其他假針相比,Foam 裝置簡單且價格低廉。泡沫墊在視覺上隱藏了針頭的進入點,因此受試者無法辨別正在使用哪種針。但該裝置也存在問題,其所用的泡沫裝置過厚且并非透明,導致針灸師無法保證其每次刺入的位置相同,從而刺入非穴位位置,影響試驗的準確性,且Foam 同樣不能實現對針灸師的設盲。

圖3 Foam 針刺模擬裝置示意圖[41]
目前,國內研究者也正在積極探索設計新型安慰針刺裝置。趙丹等設計了1 種假針裝置(圖4)[42]。為模擬針刺感覺,這種假針采用了新型針墊。假針的針墊由外、中、內三層構成,分別模擬針刺透皮、針刺肌肉層、針刺骨骼的針感,以求對針灸師設盲。其缺點在于無法像Streitberger 針或Park 針那樣對受試者造成針頭觸碰皮膚的痛覺,故對受試者保持盲法可能較為困難。王毓婷等[43]發明的新型針刺輔助裝置,其優點在于使用硅膠針墊模擬受試者皮膚及皮膚下組織,可以起到對針灸師的設盲作用,同時還能調整進針角度,以便針灸師進行斜刺等刺法(圖5)。本裝置已在1 項針刺治療帕金森病患者焦慮的試驗中應用,且經過盲法評價,志愿者無法區分他們接受的針刺類型,是1 種較為理想的安慰針刺裝置[44]。

圖4 “新型”假針針刺裝置示意圖[42]

圖5 “新型”針刺輔助裝置示意圖[43]
總體來看,國內的安慰針具開發仍與國外存在一定差距,雖然國內新型的安慰針具在理論理想條件下能做到盲法,但畢竟沒有經過大量RCT 的檢驗,也缺乏相關的盲法評價內容,在學界的認可度不高。而國外的安慰針具經過多年的發展與RCT 的檢驗,相較于國內則更加成熟,目前,日本團隊研發的Takakura 針已經進行過盲法評價,并被證實可以完成針灸師與受試者的雙盲,是近期研發出較被認可的安慰針刺裝置[45]。
縱觀以上裝置,未來安慰針具設計應當將理論與實際相結合,不僅要求理論可行,更重要的是與針刺RCT 相結合,與患者軀體和心理相結合,以尊重繼承中醫學理論為前提,守正創新[46]。裝置要經得起盲法評價的檢驗,在保持對針灸師和受試者設盲的基礎上,還應具有一定的經濟效應,盡可能降低制造成本,以便大范圍地推廣,以此開發更加科學可行的針刺模擬裝置。
真實世界研究是在醫療環境中,通過優化分析多種途徑來源的數據而進行的研究。與RCT 相比,真實世界研究基于真實世界,數據來源于真實的臨床實踐,外部可推性強,經過數據質量的評估、樣本量估算、數據清理后進行統計分析,最后解讀結果,可為臨床研究提供療效方面的證據[47]。傳統RCT 主要研究理想世界人群,有嚴格的納入排除標準,研究時間較短,樣本量較小,多為前瞻性研究,并不完全符合目前臨床實際。而針刺治療一向主張辨證論治、三因制宜,RCT 提供的標準化干預措施可能會掩蓋針刺的真實療效,因此在針刺試驗并不完全適合應用RCT 來進行研究。現階段,國內絕大多數與針刺相關的臨床研究的設計都是基于傳統RCT,真實世界研究數量不足,質量有很大的提升空間。因此,需要加強開展針刺試驗的真實世界研究。
本文總結歸納了部分現有的試驗設計和方法,認為關于針刺臨床RCT 的設計,仍需關注以下四方面。其一,充分認識針刺治療的特殊性,細化治療方案,設置多組對照,完善安慰針刺裝置的設計,全面排除針刺帶來的非特異性效應;其二,充分考慮患者個體的特殊性,依中醫辨證分型制作針對性治療方案,并對患者治療意愿和恢復預期進行完整的調查記錄;其三,充分了解針灸師即施術者本人的特殊性,選取經驗豐富,擅長試驗相關疾病治療,且技術水平穩定的治療者進行操作,并在治療前對其進行統一的培訓,以減少治療的異質性,控制治療的質量;其四,充分關注在真實世界中的針刺RCT 研究,為針刺臨床應用決策提供更多參考。