盧鈺瓊,代展菁,路 云,常 峰(中國藥科大學國際醫藥商學院,南京 211198)
成本-效用分析是藥物經濟學常用的分析方法之一,常以質量調整生命年(quality-adjusted life years,QALYs)作為產出指標。健康狀態效用值(health state utility values,HSUVs)表示人們對特定健康狀態的偏好程度,是計算QALYs 的關鍵參數[1]。負效用(disutility)是HSUVs 的一種,英國約克健康經濟聯合會將其定義為某種特定癥狀或并發癥導致的效用下降(通常表示為負值),也常作為關鍵參數被納入經濟學評價模型[2-3]。例如,在估計2型糖尿病患者的疾病負擔時,常需將糖尿病相關并發癥(失明、截肢、中風、心肌梗死、腎衰竭等)導致的健康效用值降低考慮在內[4]。又如Freeman 等[5]對免疫比濁法在指導化療患者氟尿嘧啶劑量調整中的經濟性進行評價時,考慮了腹瀉、惡心、黏膜炎等不良反應的負效用值。
目前,國際上已開展了大量有關負效用的測量實踐:Hall 等[6]基于時間權衡法(time trade-off,TTO)調研了200名18歲以上的英國普通公眾,應用廣義估計方程模型估算得到了高風險轉移性激素敏感性前列腺癌治療相關不良事件(疲勞、惡心嘔吐等)的負效用值;Pan等[7]基于歐洲五維五水平健康量表(European quality of life five dimensions five level,EQ-5D-5L)調研了289名2型糖尿病患者,采用普通最小二乘法估算得到了患者神經病變、心臟病變、腦血管疾病等并發癥的負效用值。但關于如何進行負效用測量,國內外并未形成統一標準規范。考慮到惡性腫瘤是我國乃至全球的主要致死疾病,且相關不良事件的負效用研究相對較多,因此本研究以惡性腫瘤藥物治療相關不良事件的負效用為例,對國內外相關文獻進行系統評價,以了解健康狀態負效用測量的實踐情況和存在的問題,為我國開展健康狀態負效用測量研究、計算藥物經濟學評價中的健康產出提供方法學參考。
計算機檢索中國知網、萬方數據、維普網3個中文數據庫和PubMed、Web of Science、the Cochrane Library 3個英文數據庫,檢索時限均為各數據庫建庫起至2021年7 月。同時,手工檢索納入文獻及相關系統評價和經濟性評價研究的參考文獻。
納入標準包括:(1)國內外學術期刊上公開發表的研究文獻;(2)測量了惡性腫瘤藥物治療相關不良事件的效用值;(3)結局報告了效用值原始數據。
排除標準包括:(1)與效用測量無關的文獻;(2)文獻綜述或理論研究;(3)會議摘要、學位論文、新聞報道、資訊、采訪、評論等文獻;(4)重復發表的文獻;(5)無法獲得全文的文獻;(6)非中文或英文文獻。
應用EndNote 20 軟件進行文獻管理,Excel 2201 軟件進行數據提取。由2名研究者獨立篩選文獻、提取信息并交叉核對,如遇分歧則與第三方討論決定。提取的文獻信息包括文獻基本特征(文章標題、第一作者、發表年份、文獻類型、調查國家/地區、惡性腫瘤類型、不良事件類型等)和效用值測量實踐情況(研究設計類型、健康狀態開發、健康狀態驗證、基礎狀態設定、健康狀態排名、效用測量工具、樣本人群類型、樣本人群規模、樣本代表性檢驗、效用報告類型、效用統計方法等)。
英國國家衛生與臨床優化研究所(National Institute for Health and Clinical Excellence,NICE)決策技術支持文件曾制定過檢查清單以評價效用測量研究的質量,但該清單內容表達不夠清晰,難以被研究者準確理解,在實踐中多經改良后再應用[8]。本研究采用Mok等[9]改良后的檢查清單,該檢查清單內容簡單易懂,包含樣本人群規模、受訪者選擇和招募、納入與排除標準、工具應答率、數據完整性、工具適當性、其他研究問題、不確定性估計、積分體系適當性9項條目。同時,本研究設定,若條目評價結果為“是”計1分,“否”則計0分;質量評價總分為實際得分與理想得分(各條目都得分)之比。
根據預先設定的檢索詞和納入、排除標準對文獻進行檢索和篩選,最終納入77篇文獻,具體流程見圖1。

圖1 文獻篩選流程圖
2.2.1 發表年份 納入文獻最早發表于1991 年。隨年份增長,相關文獻數量呈波動式上升的趨勢,其中2010和2013年文獻數目最多,均為7篇。結果見圖2。

圖2 納入文獻的發表年份分布
2.2.2 文獻類型 納入文獻主要為效用研究(49 篇,63.64%),即研究效用或負效用的測量;其次為藥物經濟學評價(28 篇,36.36%),即研究目的為藥物經濟性評價,研究過程中對患者的健康效用進行了測量以獲取效果指標。
2.2.3 調查國家/地區 納入文獻中,有4篇未說明調查國家/地區,故本文假設作者所在地為調查國家/地區。經統計,納入文獻涉及英國的最多(24 篇,31.17%),其次是美國(17篇,22.08%)。調查國家/地區為中國的僅3篇(3.90%)。結果見圖3(圖中,因同一文獻可能涉及多個國家/地區,故圖中文獻數量合計值>77篇)。

圖3 納入文獻的調查國家/地區分布
2.2.4 惡性腫瘤類型 除部分文獻描述為“惡性腫瘤”(4 篇)和“婦科惡性腫瘤”(1 篇)外,其余文獻共涉及18種惡性腫瘤,其中以乳腺癌相關文獻最多(17 篇,22.08%),其次是非小細胞肺癌和黑色素瘤(均為8 篇,各占10.39%)。結果見圖4。

圖4 納入文獻涉及的惡性腫瘤類型分布
2.2.5 不良事件類型 納入文獻共涉及120 種不良事件,其中報告文獻數量≥3篇的不良事件有25種。有36篇文獻(46.75%)未描述不良事件的具體情況,僅描述為“不良事件”。具體不良事件以腹瀉(24 篇,31.17%)和疲勞(21 篇,27.27%)居多。結果見圖5(圖中只展示了報告文獻數量≥3篇的不良事件)。

圖5 納入文獻涉及的不良事件類型分布
2.3.1 研究設計類型 近半數文獻未說明研究設計類型(35 篇,45.45%)。說明了研究設計類型的文獻(42篇,54.54%)根據是否對樣本人群進行主動干預,分為觀察性研究和臨床試驗;根據是否應用TTO、視覺模擬標尺(visual analogue scale,VAS)和標準博弈(standard gamble,SG)等小插圖測量工具,又可分為小插圖研究和非小插圖研究。
2.3.2 健康狀態開發與驗證 多數納入文獻未說明健康狀態開發方法(48 篇,62.34%)和健康狀態驗證方法(52 篇,67.53%);說明了開發方法(29 篇,37.66%)和驗證方法(25 篇,32.47%)的文獻均為基于直接測量工具的效用研究文獻,主要通過文獻回顧、專家訪談、患者訪談、患者論壇、以往效用研究、測量工具評估、藥物標簽信息等方法獲取基礎信息以進行健康狀態描述,再通過專家審查、預調研、患者訪談、以往效用研究、公眾訪談等方法判斷健康狀態描述能否有效獲得效用值。
2.3.3 基礎狀態設定 基礎健康狀態的設定是指以基礎狀態為錨點,測量樣本人群處于基礎健康狀態時發生不良事件(如疾病無進展狀態時發生腹瀉)的效用,后續通過數據處理、統計估算得不良事件的負效用值。納入文獻大多設定并說明了基礎健康狀態(46篇,59.74%);部分文獻未說明是否設定了基礎健康狀態(31 篇,40.26%),可能是以無不良事件為基礎健康狀態,也可能未設定基礎健康狀態直接測量了不良事件的效用值。
2.3.4 健康狀態排名 僅有20篇文獻(25.97%)明確要求對樣本人群健康狀態的效用值高低進行排序,以幫助樣本人群理解健康狀態描述進而反饋有效的測量結果。這20 篇文獻均為基于直接測量工具的效用研究文獻,健康狀態排名主要應用了VAS、等級評定(rating scale,RS)等效用測量工具(17 篇),少部分文獻應用了Likert量表(1篇)或未說明排名工具(2篇)。
2.3.5 效用測量工具 納入文獻多應用SG(23 篇,29.87%)和歐洲五維健康量表(European quality of five dimensions questionnaire,EQ-5D)(23 篇,29.87%),其次是TTO(21 篇,27.27%)和VAS(13 篇,16.88%)。可見,健康狀態負效用測量多應用直接測量工具,這與Matza等[10]小插圖研究推薦的不良事件負效用測量工具是一致的。此外,12 篇文獻(15.58%)同時應用了多種效用測量工具,1篇文獻(1.30%)未說明效用測量工具。
2.3.6 樣本人群類型及規模 納入文獻的調研對象多為患者人群(45 篇,58.44%),其次是一般人群(27 篇,35.06%)、醫護人群(10篇,12.99%)、醫學腫瘤學家(2篇,2.60%)、風險人群(1篇,1.30%)等;有7篇文獻(9.09%)同時調研了多類樣本人群,1 篇文獻(1.30%)未說明樣本人群類型。有58篇文獻(75.32%)說明了樣本人群規模,樣本人群區間跨度較大(10~1 582人),但分布較為集中(集中在10~200 人);58 項研究共納入11 185 人,平均每項研究192.84人。
2.3.7 樣本代表性檢驗 63 篇文獻未說明人群代表性檢驗情況(81.82%),其中54 篇文獻(85.71%)的樣本人群類型為非一般人群,13篇文獻(20.63%)為一般人群,其中部分文獻同時涉及非一般人群和一般人群。14 篇文獻(18.18%)進行了人群代表性檢驗,其樣本人群類型均為一般人群,均根據該國家/地區的人口普查數據進行了代表性檢驗。
2.3.8 效用報告類型 有31篇文獻(40.26%)以負值形式報告了不良事件對效用的影響,如Shingler 等[11]測量得到腹瀉(3~4 級)的負效用值為-0.327;26 篇文獻(33.77%)以合并基礎狀態的非負值形式報告了負效用值,如Swinburn等[12]測量得到疾病穩定狀態合并腹瀉(3級)的效用值為0.534;另有20 篇(25.97%)文獻以非負值形式報告了負效用,如Chou 等[13]測量得到腹瀉(3~4級)的負效用值為0.34。
2.3.9 效用統計方法 半數以上的文獻(45 篇,58.44%)未說明效用統計方法,其中42篇文獻(93.33%)的效用報告形式為非負值或合并基礎狀態的非負值,其效用值可根據效用測量工具基礎算法算得;還有3篇文獻(6.67%)的效用報告形式為負值,均為藥物經濟學評價研究。在說明了效用統計方法的文獻(32 篇,41.56%)中,有10篇(31.25%)采用了基礎狀態合并不良事件效用與基礎狀態效用的差值來計算不良事件的負效用值,有3篇(9.38%)采用了廣義估計方程的方法,其余文獻采用的方法較為分散,限于篇幅,本文不一一羅列。
質量評價結果顯示,77篇納入文獻的質量總評分為0.683(表1)。由于評價質量劃分尚無統一標準,因此本系統評價參考Degeling等[14]的判斷標準,設定>0.800~1.000 分為高質量、>0.600~0.800 分為較高質量、0.000~0.600 分為低質量。根據上述標準,本研究納入文獻的整體質量較高。

表1 納入文獻的質量評價
同時結果顯示,未報告受訪者選擇和招募的文獻最多(63 篇),其次是未報告工具應答率、不確定性估計、納入與排除標準,分別有51、33、30 篇文獻;另外,納入文獻存在樣本人群國家/地區與效用積分體系不一致、未報告樣本人群規模、未報告調查國家/地區等問題(表1)。
本研究對國內外公開發表的惡性腫瘤藥物治療相關不良事件負效用測量文獻進行了描述性系統評價,初步探索了該領域相關研究的健康狀態負效用值測量實踐情況。系統評價結果顯示,不良事件負效用值測量研究文獻發表數量近年來呈波動式增長的趨勢,可見負效用的測量研究越來越受到醫藥相關決策者和研究者的重視,但目前我國少見有相關研究發表。總結負效用的測量實踐情況發現,負效用測量的基本實施路徑至少包括基礎研究設計、健康狀態確定、效用測量調研和調研數據統計4個關鍵環節。在基礎研究設計環節,需要確定研究的基本目標,即確定測量何種疾病或何種干預措施的何種癥狀或并發癥的負效用;需要確定研究設計類型,即數據收集的方式和時間;需要確定效用測量工具,即根據研究的基本目標選擇合適的效用測量工具;需要確定樣本人群,即需要確定樣本人群的國家/地區、人群類型及人群規模。在健康狀態確定環節,需要進行健康狀態開發和驗證,尤其是基于直接測量工具的效用研究;需要進行基礎狀態設定,即設定樣本人群發生目標癥狀或并發癥時所處的基礎健康狀態。在效用測量調研環節,需要進行健康狀態排名,尤其是基于直接測量工具的效用研究;需要基于健康狀態腳本及效用測量工具對目標樣本人群進行調研以獲取基礎數據。在調研數據統計環節,需要檢驗樣本人群的代表性,尤其是基于一般人群的效用研究;需要基于合適的效用統計方法計算獲得負效用測量結果。
本研究還發現,目前的健康狀態負效用測量研究尚存在如下問題:一是我國負效用測量研究實踐較少,可能導致基于我國人群開展的藥物經濟學評價缺乏負效用相關數據。本研究納入的77 篇惡性腫瘤藥物治療相關不良事件負效用測量文獻中,僅3篇文獻的調查國家/地區涉及中國。二是負效用的報告類型和結果多樣,導致不良事件負效用結果合并存在困難。納入文獻的效用報告類型包括負值、合并基礎狀態非負值及非負值3種,三者數據關系較為復雜,如何進行數據合并來為藥物經濟學評價提供效用數據仍有待研究。三是負效用測量研究的部分重點事項未予報告,嚴重影響了文獻質量。例如調查國家/地區、樣本人群類型、樣本人群規模、效用測量工具、效用積分體系等關鍵內容報告不完整。
為規范負效用的測量研究,本研究提出如下建議:(1)建議規范負效用測量研究實踐路徑以指導相關研究的開展。我國藥物經濟學評價正面臨缺乏負效用數據的問題,雖然學者可通過引用非目標人群和非目標國家的負效用值,或基于臨床經驗和專家意見進行數據假設,或不考慮負效用來完成研究[15],但終究不能從根本上解決數據缺乏的問題。今后可在本研究總結歸納的健康狀態負效用測量路徑的基礎上,結合本團隊已經發表的有關健康狀態負效用的合并方法和影響因素分析結果[16],明晰測量路徑中各個環節最優的實踐方法和需考慮的注意事項,以促進健康狀態負效用研究高速度增長和高質量發展。(2)建議制訂健康狀態效用測量指南以規范研究過程和報告內容。目前,我國僅有《藥物經濟學評價指南(2020)》對HSUVs 的測量提出了較為簡單的要求[17]。然而,國際上已有多個HSUVs 測量指南,如NICE發布的多個決策技術支持文件[8,18]、國際藥物經濟學與結果研究會(International Society for Pharmacoeconomics and Outcomes Research,ISPOR)發布的多個良好實踐報告[19],以及小插圖研究建議[10]等。我國可借鑒上述國際指南的開發思路,開發基于特定HSUVs 的測量工具及普適性的HSUVs 測量指南,為我國HSUVs測量研究提供方法指導和報告規范。(3)建議加強多學科合作以提高研究水平和結果質量。健康狀態效用值測量研究涉及臨床醫學、心理測量學、衛生經濟學、數理統計學等多個學科,效用測量過程涉及基礎研究設計、健康狀態確定、效用測量調研和調研數據統計等多個環節,需要具有扎實基礎理論知識的學術研究者和具有豐富效用測量研究資源的臨床實踐者合作開展HSUVs測量研究,從而提高HSUVs測量的研究質量,為臨床治療和醫藥衛生決策提供更可靠的證據。
綜上所述,本研究以惡性腫瘤藥物治療相關不良事件的負效用為例,對國內外相關文獻進行了系統評價。結果表明,現有負效用測量包括基礎研究設計、健康狀態確定、效用測量調研和調研數據統計4個關鍵環節,相關研究存在中國人群數據缺乏、結果報告類型不一致、測量重點事項報告不完整等問題。建議今后應進一步規范負效用測量基本實施路徑,制訂健康狀態效用值測量指南,加強多學科合作,以提高健康狀態效用測量的研究質量。
(利益相關聲明:本研究設計、實施和結果未受資助方的影響,無利益沖突)