楊惠芝 ,王立敏,李順平
1山東大學齊魯醫學院公共衛生學院衛生管理與政策研究中心,山東濟南,250012;2國家衛生健康委員會衛生經濟與政策研究重點實驗室(山東大學),山東濟南,250012;3山東大學健康偏好研究中心,山東濟南,250012
離散選擇實驗(discrete choice experiment,DCE)和優劣尺度法(best-worst scaling,BWS)是測量個體偏好的陳述性偏好研究方法。假設研究對象可以由若干個屬性進行描述,每個屬性又包括若干水平。DCE固定屬性僅變換水平組合形成不同方案,每個選項集中包括至少2個方案,要求受訪者從每個選項集中選擇一個自己認為最好的方案[1]。BWS要求受訪者在每個選項集中至少各選擇1項他們認為最好的和最差的,主要分為3種類型:BWS-1是屬性之間的比較;BWS-2是固定屬性不變,僅調整每個屬性的水平;BWS-3與DCE格式一致,是比較屬性水平組合[2]。DCE和BWS每套問卷均由若干個選項集組成,假設受訪者每次均選擇自己認為效用最大的方案,通過反復權衡比較,能測量受訪者對商品或者服務的偏好程度[3]。
2014年以來,DCE在醫藥衛生領域的應用迅速增加[4],BWS的產生和發展晚于DCE,但近些年來在醫藥衛生領域的應用備受關注[5]。盡管DCE和BWS均基于隨機效用理論,但兩者在模型的應用與假設上存在差異,目前仍無“黃金標準”來評價孰優孰劣,且無如何聯合使用上述2種方法的相關指南,因此了解DCE和BWS聯合使用現狀,比較2種方法的可接受性、有效性以及結果一致性,對推動2種方法的應用具有重要意義。2017年Whitty等人從可接受性、有效性和一致性3方面綜述了醫藥衛生領域DCE和BWS比較的實證研究[6]。近年來,醫藥衛生領域中同時使用DCE和BWS的研究快速增長,因此,本文以Whitty等人的綜述框架為基礎,檢索2017年1月至2021年12月發表的文獻,并與該綜述結果進行比較,以期為國內讀者更深入理解和應用DCE和BWS偏好測量方法提供相關參考。
在PubMed、Web of Science、Embase、Scoups、CNKI和Wanfang Data這6個數據庫進行檢索,檢索時限為2017年1月至2021年12月。中文檢索詞包括離散選擇實驗、離散選擇模型、優劣尺度法、最佳最差測量、優劣極值測量法、聯合分析、陳述性偏好研究;英文DCE檢索詞包括discrete choice experiment、discrete-choice experiment、discrete choice model、conjoint analysis、conjoint choice experiment、stated preference、DCE;英文BWS檢索詞包括BWS、best worst scaling、best-worst scaling、maxdiff、maxdiff scaling、maximum difference、maximum difference scaling、best-worst discrete choice experiment、best-worst choice experiment。
納入醫藥衛生領域同時使用DCE和BWS(BWS-1、BWS-2和BWS-3中的任意1種)的中英文實證研究。鑒于BWS-3格式上與DCE相似,本文也納入同時使用BWS-3和BWS-1或同時使用BWS-3和BWS-2的文獻。排除非醫藥衛生相關,研究方法不符合要求,會議記錄、評述、綜述等非實證研究以及無法獲取全文的文獻。
根據PREFS質量評分標準,對納入研究的調查目的(purpose)、應答者(respondents)、方法解釋(explanation)、結果(findings)和意義(significance)5個方面進行計分(符合1項要求加1分,滿分5分)[7]。具體表述如下:①闡明研究問題或目標與偏好有關,如效用、支付意愿、重要性或者優先級等;②研究應該評價應答者和無應答者之間是否有差異,不能只評價應答者與目標人群之間的差異;③清晰解釋評估偏好的方法,例如文獻或附錄中有偏好測量的問題、呈現方式等;④闡明偏好分析是否包括所有受訪者, 如果一些受訪者未納入分析(未通過一致性檢驗、主導偏好、未完成問卷等),需檢驗未納入與納入的結果有無顯著差異;⑤偏好結果要使用顯著性檢驗來評估,包括P、置信區間以及與偏好結果相關的標準差或標準誤的平均值。
初篩共獲得文獻426篇,篩除重復文獻98篇,閱讀標題和摘要,排除明顯不相關的文獻,最后進一步檢索閱讀全文,最終納入13篇文獻(具體流程見圖1)。納入文獻均為英文,2017年、2019年和2021年各3篇,2020年4篇。研究類型包括6篇DCE和BWS-1,6篇DCE和BWS-2,1篇BWS-2和BWS-3。研究領域涉及醫患對疾病治療的偏好[8-12],生命終末期人群/癡呆患者/兒童生命質量評估[13-16],醫務人員工作偏好和衛生技術評估[17-20]。除1篇來自塞內加爾外[18],其余均來自美國、英國和澳大利亞等國家。見表1。

表1 納入研究的主要特征

圖1 文獻篩選流程
屬性和水平的確定主要通過文獻綜述和定性研究[8-13,17-19],或基于已有量表和調查問卷[14-16,20]。10篇文獻開展預實驗評估受訪者對問卷選擇的理解程度,并調整完善屬性和水平[8-13,17-20]。
實驗設計以D-高效設計(D-efficiency)和D-最優設計(D-optimal)為主[8,10,12-13,15,17-19],1篇使用正交主效應設計(orthogonal main effects design,OMED)[20],其他未做說明。BWS-2和DCE各1篇分別設置退出和維持現狀選項[17-18],實驗設計類型及選項集數量見表2。DCE和BWS數據分析大多使用相同模型,以條件logit(conditional logit,CL)和隨機參數logit(random parameters logit,RPL)為主。

表2 納入研究的實驗設計和數據分析
DCE和BWS的可接受性可通過應答率、完成時間以及完成問卷的困難程度進行比較。在應答率方面,11項研究受訪者同時完成DCE和BWS問卷,應答率默認為無差異。其余2項研究調查不同受訪者,Honda等人的研究未表述DCE和BWS的各自應答率[18],僅Himmler等人的研究比較不同受訪者對DCE和BWS-2問卷的應答率差異[20],結果顯示受訪者均完成DCE問卷,1.9%(3/159)未完成BWS-2問卷[20]。
在完成時間方面,1項研究顯示[13],受訪者完成DCE和BWS的平均時長相似(17分鐘),另1項研究表明[20],盡管DCE和BWS的選項集數量相同,但DCE問卷平均用時(6分鐘)顯著低于BWS問卷(7.2分鐘)。
在完成問卷的困難程度方面,3項研究分別調查普通成年人、癡呆患者和照顧者、65歲以上老人[13-14,20],受訪者均表示DCE比BWS更容易完成,但在Rogers等人的研究中[16],兒童和青少年認為BWS-2比DCE更容易理解和選擇。
由于DCE和BWS均為陳述性偏好研究,因此評估數據的有效性非常重要[21]。內部有效性檢驗參照Krucien等人的研究[22],由微觀經濟學消費者理論推導出穩定性(stability)、單調性(monotonicity)、連續性(continuity)和完整性(completeness)4種檢驗方法。13篇納入文獻中,未有文獻對單調性和完整性進行檢驗。穩定性檢驗,也稱為一致性檢驗,是在一套問卷的不同位置設置相同題目,并檢查兩次回答是否一致[23]。僅一項研究檢驗了穩定性[20],結果顯示DCE的穩定性高于BWS。
連續性(continuity)假設人們的偏好是補償性的,即權衡之后愿意接受一個屬性變差以換取另一個屬性補償性變好。若受訪者只關注某個或某幾個屬性,只選擇屬性水平最好或最差的方案,則受訪者的偏好就為非連續性。連續性通過計算每個應答者的字典分數(lexicographic score)進行檢驗,字典分數范圍從0%到100%,數值越大連續性越低,受訪者做選擇時對屬性水平的權衡越少[22]。Himmler等人的研究中[20],DCE和BWS的字典分數分別為28.9%和79.1%,BWS中存在更多的受訪者對單一屬性有顯性偏好,表明受訪者在DCE時做了更多的權衡和思考。

DCE和BWS的選項集內部結構、偏好分析模型方面均有差異,因此在比較兩者的偏好結果前需進行規模差異調整(rescaled)。3項研究進行了結果一致性比較,分別基于比例標度(ratio-scaled)、概率的縮放程序(probability-based rescaling procedure)和皮爾遜相關系數來調整屬性相對重要性,結果顯示DCE和BWS結果一致性較高[11-12,15]。Huynh等的研究將DCE和BWS數據分別進行潛在類別分析[13],結果顯示4個分組的原則和比例基本一致,分組結果一致性較高。
納入文獻的質量評價平均得分為2.9分,納入文獻對“調查目的”“方法解釋”和“意義”的表述相對詳細,對“應答者”和“結果”的展示相對不足,僅1項研究比較了“應答者”與“非應答者”的差異[13],僅2項研究進行敏感性分析,評估排除的數據對結果的潛在影響[12,15]。 見表3。

表3 PREFS質量評價
結果顯示,DCE在可接受性和有效性方面略優于BWS,兩者測量的偏好結果一致性較高。可接受性方面,DCE的應答率和完成時間均比BWS更高效,成年受訪者更易于接受DCE,僅有一項研究結果顯示,理解能力與年齡無顯著關系,但是兒童青少年更偏好BWS[16]。有效性方面,DCE穩定性高于BWS-2,在進行穩定性檢驗時,DCE只需比較2個重復設置的問題是否選擇相同方案,BWS需要“最好”和“最差”兩個回答都一致才算通過穩定性檢驗,因此BWS比DCE通過檢驗的概率低,但也不排除問卷負擔或方法本身的問題,可以通過外部有效性檢驗比較兩種方法有效性。結果一致性方面,雖然在受訪者潛在心理決策模型以及選擇行為假設等方面存在差異[25],但有限的研究證明DCE和BWS的偏好結果基本一致,表明2種方法可能具有同等的偏好測量能力。
Whitty的綜述結果也顯示,DCE在有效性和可接受性方面比 BWS略有優勢[6],這與本綜述結果一致,但Whitty的綜述顯示DCE和BWS結果一致性較低。使用的BWS類型以及研究背景差異可能是影響兩者結果一致性的因素:Whitty的綜述中未有研究比較DCE和BWS-1結果一致性,本綜述中有2篇是DCE和BWS-1進行結果一致性比較;另外2篇是DCE與BWS-2比較的文獻,這2項研究樣本量分別為2996和6020,超出Whitty的綜述納入文獻的樣本量。將Whitty的綜述和本綜述分別納入的12篇和13篇文獻綜合分析,可接受性方面僅有1篇文獻報告了2種方法受訪者應答率的差異;有效性檢驗方面更側重穩定性檢驗,其次為連續性和單調性檢驗;DCE與BWS-1結果一致性較高,與BWS-2結果一致性較低。
DCE發展至今已有較為成熟的框架,BWS發展較DCE晚,但與DCE相比更易于選擇,僅需較小樣本可獲取更豐富信息,并且能彌補DCE統計效率不足的缺點[26],盡管如此,但現有研究并不能完全證明兩種研究方法的優劣。研究者可根據研究目的和現實情境選擇1種類型的BWS與DCE聯合使用,比如使用BWS-1輔助DCE進行前期屬性確定。若開展DCE和BWS的比較研究,需重點考慮BWS適用類型、受訪人群、問卷設計、有效性檢驗方法等,分別記錄每個受訪者回答兩套問卷的時間,條件允許應增加受訪者關于DCE和BWS作答的認知負擔問題,另外,偏好結果一致性需進行再規模化處理后比較。
DCE和BWS是目前醫藥衛生領域重要的偏好測量工具,在臨床診療、疾病篩查、衛生人力等領域廣泛應用[27-29]。近五年來國外學者聯合使用DCE和BWS測量健康偏好的研究日益增多,但DCE和BWS在我國起步較晚,尤其是BWS在國內僅有少量介紹性和實證研究[30-32],目前國內還未有將DCE和BWS聯合使用的實證研究,僅有1項通過BWS-1為DCE確定屬性的研究[33]。因此了解DCE和BWS聯合使用的現狀及比較研究結果,對于國內進一步開展健康偏好測量研究具有重要意義。